计算机视觉核心任务

1. 计算机视频重要分类

计算机视觉的重要任务可以大致分为以下几类：

1. 图像分类（Image Classification）

识别图像属于哪个类别，例如猫、狗、汽车等。

应用场景：物品识别、人脸识别、医疗影像分类。
代表模型：ResNet、EfficientNet、ViT（Vision Transformer）。

2. 目标检测（Object Detection）

识别图像中目标的位置（边界框）及类别。

应用场景：自动驾驶、安防监控、人流统计。
代表模型：Faster R-CNN、YOLO（You Only Look Once）、SSD（Single Shot MultiBox Detector）。

3. 语义分割（Semantic Segmentation）

对图像中的每个像素进行分类，区分不同物体类别。

应用场景：医学影像分析（病灶检测）、自动驾驶（车道识别）。
代表模型：U-Net、DeepLabV3+、SegFormer。

4. 实例分割（Instance Segmentation）

类似语义分割，但能够区分同类别不同实例的像素区域。

应用场景：自动驾驶（车辆、人等实例级分割）、工业检测。
代表模型：Mask R-CNN、YOLACT、CondInst。

5. 姿态估计（Pose Estimation）

检测人体、动物或物体的关键点（关节点、骨架等）。

应用场景：行为分析、运动捕捉、AR（增强现实）。
代表模型：OpenPose、HRNet、DETR。

6. 目标跟踪（Object Tracking）

在视频序列中跟踪目标的轨迹。

应用场景：无人机跟踪、视频监控、运动分析。
代表模型：SiamRPN、SORT、DeepSORT。

7. 光流估计（Optical Flow Estimation）

计算图像像素点的运动矢量场，用于运动分析。

应用场景：视频稳定、动作检测、自动驾驶。
代表模型：RAFT、PWC-Net、FlowNet2.0。

8. 三维重建（3D Reconstruction）

从 2D 图像或点云恢复 3D 结构。

应用场景：SLAM（同时定位与建图）、AR/VR、医学成像。
代表模型：Colmap、NeRF（神经辐射场）、MonoDepth。

9. 超分辨率（Super Resolution）

提升图像分辨率，使低质量图像变得清晰。

应用场景：医学影像增强、老照片修复、视频增强。
代表模型：ESRGAN、SRGAN、SwinIR。

10. 图像去噪（Image Denoising）

去除图像中的噪声，提高清晰度。

应用场景：遥感影像处理、夜间摄影增强。
代表模型：DnCNN、BM3D、Noise2Noise。

11. 生成对抗网络（GANs）

生成高质量的图像、风格迁移等。

应用场景：AI 绘画、图像风格化、深度伪造（Deepfake）。
代表模型：StyleGAN、CycleGAN、BigGAN。

12. 图像/视频理解（Image/Video Understanding）

对图像或视频的内容进行高层次分析。

应用场景：智能监控、自动驾驶、视频摘要。
代表模型：CLIP、SlowFast、TimeSformer。

2. 图像分类 vs. 目标检测

对比维度	图像分类（Image Classification）	目标检测（Object Detection）
任务定义	识别整幅图像的类别	识别图像中所有目标的位置和类别
输出结果	单个类别标签	多个类别标签 + 目标的边界框（Bounding Box）
输入数据	单张图像	单张图像（含多个目标）
难度	相对较低	较高，需要额外的目标定位
计算复杂度	低	高（涉及回归和分类任务）
核心技术	卷积神经网络（CNN）、ViT	CNN + 回归网络（YOLO、Faster R-CNN 等）
核心特点	仅关注全局特征，不关心目标位置计算量较小，适合移动端和实时应用	需要定位多个目标计算复杂度高，对硬件要求高
主要方法	经典CNN架构（AlexNet、VGG、ResNet）轻量级模型（MobileNet、EfficientNet）视觉Transformer（ViT、Swin Transformer）	单阶段（One-Stage）：YOLO、SSD（速度快）两阶段（Two-Stage）：Faster R-CNN（精度高）基于Transformer：DETR（无需Anchor，端到端）
应用场景	图像检索、人脸识别、医学影像分类	自动驾驶、人群统计、工业检测

3.目标检测与图像分割、语义分割、实例分割

对比维度	目标检测（Object Detection）	语义分割（Semantic Segmentation）	实例分割（Instance Segmentation）
任务定义	识别目标并画出边界框（Bounding Box）	识别每个像素的类别	识别每个像素的类别，并区分同类别的不同实例
输出结果	目标类别 + 目标位置（矩形框）	每个像素的类别掩码（Mask）	每个像素的类别掩码 + 不同实例的分割
关注点	物体的整体位置	物体的精确边界	物体的精确边界 + 实例区分
计算复杂度	中	高	更高
模型架构	YOLO、Faster R-CNN、SSD	FCN、DeepLabV3+、U-Net	Mask R-CNN、YOLACT、CondInst
适用场景	自动驾驶、监控、人脸检测	医学影像、卫星遥感、环境分析	自动驾驶、实例级目标识别、工业检测

4. 目标检测与目标跟踪

对比维度	目标检测（Object Detection）	目标跟踪（Object Tracking）
任务定义	在图像中识别目标并定位（Bounding Box）	在视频中跟踪同一目标的运动轨迹
输入数据	单张图像或视频帧	连续的视频帧
输出结果	目标类别 + 目标边界框	目标 ID + 目标边界框（跨帧一致）
核心技术	CNN、区域提议（RPN）、Anchor	目标检测 + 相关性计算（如光流、匹配）
计算复杂度	较高（每帧都需重新检测）	低（仅在关键帧检测，其他帧追踪）
适用场景	自动驾驶、安防监控、工业检测	运动分析、无人机跟踪、视频监控
代表模型	YOLO、Faster R-CNN、SSD	SORT、DeepSORT、SiamRPN、ByteTrack