什么是计算机视觉（Computer Vision, CV）

简单来说，它的目标是赋予计算机‍“看”和“看懂”‍的能力，使其能够像人类眼睛一样捕捉视觉信息，并像大脑一样理解和处理这些信息。

以下是关于计算机视觉的详细介绍：

计算机视觉的定义经历了从简单到深刻的演变：

计算机视觉的发展可以分为三个阶段，每个阶段都有代表性的技术和里程碑：

阶段	时间	代表技术	主要特征
早期阶段	1950s-1970s	边缘检测、阈值分割	主要基于经典算法（如Canny边缘检测），处理能力有限。
机器学习时代	1990s-2010s	SIFT、HOG、支持向量机 (SVM)	通过特征提取（如SIFT）和传统分类器（如SVM）进行图像分类和检测。
深度学习革命	2010s至今	卷积神经网络 (CNN)、Vision Transformer (ViT)	端到端学习：直接从原始像素学习特征，性能大幅提升。ResNet、YOLO、Mask R-CNN等模型主导了大部分任务。

计算机视觉涵盖了从简单到复杂的多种任务，应用广泛。

图像分类 (Classification)：判定图像属于哪一类（如猫、狗）。这是最基础的任务。
目标检测 (Detection)：不仅识别物体，还要定位它们（画出边框）。
图像分割 (Segmentation)：
- 语义分割：把图像的每个像素归类为某种语义（如道路、人）。
- 实例分割：不仅区分语义，还区分同类物体的不同实例（如区分两只不同的狗）。
姿态估计 (Pose Estimation)：识别人体或动物的关键点（如关节位置）。
三维重建 (3D Reconstruction)：根据二维图片重建三维模型。
视觉问答 (VQA)：回答关于图像的自然语言问题。

尽管技术进步迅速，计算机视觉仍面临以下挑战：

计算机视觉正从“看见”迈向“看懂”，并在自动驾驶、医疗健康、工业自动化等领域发挥着越来越重要的作用。随着算法的进步和算力的提升，它正在重塑我们与世界交互的方式。