什么是计算机视觉(Computer Vision, CV)

AI解读 1年前 (2024) 硕雀
180 0

计算机视觉Computer Vision, CV‍ 是人工智能AI)和图像处理Image Processing)的交叉学科。

简单来说,它的目标是赋予计算机‍“看”和“看懂”‍的能力,使其能够像人类眼睛一样捕捉视觉信息,并像大脑一样理解和处理这些信息。

以下是关于计算机视觉的详细介绍:

1. 核心定义与目标

计算机视觉的定义经历了从简单到深刻的演变:

  • 基础定义:最初被定义为“给计算机装上眼睛(摄像头)和大脑(算法)”。
  • 本质目标:从二维数字图像视频中恢复三维世界的信息,并理解其语义。
  • 人机协作:它不仅是模仿人眼,还旨在超越人类的视觉局限,实现高速度、高精度和大规模的视觉信息处理。

2. 关键技术演变

计算机视觉的发展可以分为三个阶段,每个阶段都有代表性的技术和里程碑:

阶段 时间 代表技术 主要特征
早期阶段 1950s-1970s 边缘检测、阈值分割 主要基于经典算法(如Canny边缘检测),处理能力有限。
机器学习时代 1990s-2010s SIFTHOG支持向量机 (SVM) 通过特征提取(如SIFT)和传统分类器(如SVM)进行图像分类和检测。
深度学习革命 2010s至今 卷积神经网络 (CNN)、Vision Transformer (ViT) 端到端学习:直接从原始像素学习特征,性能大幅提升。ResNetYOLOMask R-CNN等模型主导了大部分任务。

3. 核心任务与应用

计算机视觉涵盖了从简单到复杂的多种任务,应用广泛。

3.1 核心任务

  1. 图像分类 (Classification):判定图像属于哪一类(如猫、狗)。这是最基础的任务。
  2. 目标检测 (Detection):不仅识别物体,还要定位它们(画出边框)。
  3. 图像分割 (Segmentation)
    • 语义分割:把图像的每个像素归类为某种语义(如道路、人)。
    • 实例分割:不仅区分语义,还区分同类物体的不同实例(如区分两只不同的狗)。
  4. 姿态估计 (Pose Estimation):识别人体或动物的关键点(如关节位置)。
  5. 三维重建 (3D Reconstruction):根据二维图片重建三维模型。
  6. 视觉问答 (VQA):回答关于图像的自然语言问题。

3.2 典型应用场景

  • 自动驾驶:识别行人、车辆、交通标志,实时决策。
  • 医疗影像:分析X光片、CT扫描,辅助诊断疾病。
  • 工业检测:生产线上的缺陷检测、机器人抓取定位。
  • 安防监控人脸识别、异常行为检测
  • 娱乐媒体:内容推荐、图像风格迁移、自动生成艺术作品。

4. 发展挑战

尽管技术进步迅速,计算机视觉仍面临以下挑战:

  • 数据需求:深度学习模型通常需要大量标注数据(数据集)进行训练,且获取这些数据成本高。
  • 域适应:模型在训练环境外(不同光照、天气、摄像头)下的表现往往下降(跨域泛化问题)。
  • 可解释性:深度网络往往像“黑盒子”,难以解释为什么做出某个判断(可解释性AI是研究热点)。

总结

计算机视觉正从“看见”迈向“看懂”,并在自动驾驶、医疗健康、工业自动化等领域发挥着越来越重要的作用。随着算法的进步和算力的提升,它正在重塑我们与世界交互的方式。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!