计算机视觉核心任务

ops/2025/2/11 6:46:02/

1. 计算机视频重要分类

计算机视觉的重要任务可以大致分为以下几类:

1. 图像分类(Image Classification)

识别图像属于哪个类别,例如猫、狗、汽车等。

  • 应用场景:物品识别、人脸识别、医疗影像分类。
  • 代表模型:ResNet、EfficientNet、ViT(Vision Transformer)。

2. 目标检测(Object Detection)

识别图像中目标的位置(边界框)及类别。

  • 应用场景:自动驾驶、安防监控、人流统计。
  • 代表模型:Faster R-CNN、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)。

3. 语义分割(Semantic Segmentation)

对图像中的每个像素进行分类,区分不同物体类别。

  • 应用场景:医学影像分析(病灶检测)、自动驾驶(车道识别)。
  • 代表模型:U-Net、DeepLabV3+、SegFormer。

4. 实例分割(Instance Segmentation)

类似语义分割,但能够区分同类别不同实例的像素区域。

  • 应用场景:自动驾驶(车辆、人等实例级分割)、工业检测。
  • 代表模型:Mask R-CNN、YOLACT、CondInst。

5. 姿态估计(Pose Estimation)

检测人体、动物或物体的关键点(关节点、骨架等)。

  • 应用场景:行为分析、运动捕捉、AR(增强现实)。
  • 代表模型:OpenPose、HRNet、DETR。

6. 目标跟踪(Object Tracking)

在视频序列中跟踪目标的轨迹。

  • 应用场景:无人机跟踪、视频监控、运动分析。
  • 代表模型:SiamRPN、SORT、DeepSORT。

7. 光流估计(Optical Flow Estimation)

计算图像像素点的运动矢量场,用于运动分析。

  • 应用场景:视频稳定、动作检测、自动驾驶。
  • 代表模型:RAFT、PWC-Net、FlowNet2.0。

8. 三维重建(3D Reconstruction)

从 2D 图像或点云恢复 3D 结构。

  • 应用场景:SLAM(同时定位与建图)、AR/VR、医学成像。
  • 代表模型:Colmap、NeRF(神经辐射场)、MonoDepth。

9. 超分辨率(Super Resolution)

提升图像分辨率,使低质量图像变得清晰。

  • 应用场景:医学影像增强、老照片修复、视频增强。
  • 代表模型:ESRGAN、SRGAN、SwinIR。

10. 图像去噪(Image Denoising)

去除图像中的噪声,提高清晰度。

  • 应用场景:遥感影像处理、夜间摄影增强。
  • 代表模型:DnCNN、BM3D、Noise2Noise。

11. 生成对抗网络(GANs)

生成高质量的图像、风格迁移等。

  • 应用场景:AI 绘画、图像风格化、深度伪造(Deepfake)。
  • 代表模型:StyleGAN、CycleGAN、BigGAN。

12. 图像/视频理解(Image/Video Understanding)

对图像或视频的内容进行高层次分析。

  • 应用场景:智能监控、自动驾驶、视频摘要。
  • 代表模型:CLIP、SlowFast、TimeSformer。

 2. 图像分类 vs. 目标检测

对比维度图像分类(Image Classification)目标检测(Object Detection)
任务定义识别整幅图像的类别识别图像中所有目标的位置和类别
输出结果单个类别标签多个类别标签 + 目标的边界框(Bounding Box)
输入数据单张图像单张图像(含多个目标)
难度相对较低较高,需要额外的目标定位
计算复杂度高(涉及回归和分类任务)
核心技术卷积神经网络(CNN)、ViTCNN + 回归网络(YOLO、Faster R-CNN 等)
核心特点
  • 仅关注全局特征,不关心目标位置

  • 计算量较小,适合移动端和实时应用

  • 需要定位多个目标

  • 计算复杂度高,对硬件要求高

主要方法
  • 经典CNN架构(AlexNet、VGG、ResNet)

  • 轻量级模型(MobileNet、EfficientNet)

  • 视觉Transformer(ViT、Swin Transformer)

  • 单阶段(One-Stage):YOLO、SSD(速度快)

  • 两阶段(Two-Stage):Faster R-CNN(精度高)

  • 基于Transformer:DETR(无需Anchor,端到端)

应用场景图像检索、人脸识别、医学影像分类自动驾驶、人群统计、工业检测

3.目标检测与图像分割、语义分割、实例分割

对比维度目标检测(Object Detection)语义分割(Semantic Segmentation)实例分割(Instance Segmentation)
任务定义识别目标并画出边界框(Bounding Box)识别每个像素的类别识别每个像素的类别,并区分同类别的不同实例
输出结果目标类别 + 目标位置(矩形框)每个像素的类别掩码(Mask)每个像素的类别掩码 + 不同实例的分割
关注点物体的整体位置物体的精确边界物体的精确边界 + 实例区分
计算复杂度更高
模型架构YOLO、Faster R-CNN、SSDFCN、DeepLabV3+、U-NetMask R-CNN、YOLACT、CondInst
适用场景自动驾驶、监控、人脸检测医学影像、卫星遥感、环境分析自动驾驶、实例级目标识别、工业检测

4. 目标检测与目标跟踪

对比维度目标检测(Object Detection)目标跟踪(Object Tracking)
任务定义在图像中识别目标并定位(Bounding Box)在视频中跟踪同一目标的运动轨迹
输入数据单张图像或视频帧连续的视频帧
输出结果目标类别 + 目标边界框目标 ID + 目标边界框(跨帧一致)
核心技术CNN、区域提议(RPN)、Anchor目标检测 + 相关性计算(如光流、匹配)
计算复杂度较高(每帧都需重新检测)低(仅在关键帧检测,其他帧追踪)
适用场景自动驾驶、安防监控、工业检测运动分析、无人机跟踪、视频监控
代表模型YOLO、Faster R-CNN、SSDSORT、DeepSORT、SiamRPN、ByteTrack


http://www.ppmy.cn/ops/157462.html

相关文章

在线免费 HTML 预览导出为图片,并且支持水平切割

在线体验 作用:可以直接预览 html 的页面效果,导出为图片,支持指定切割的数量,等高水平切割。 https://houbb.github.io/tools/html-preview.html 创作背景 有时候希望给一段 html 导出为长度,或者水平切分&#xff…

leetcode_913. 猫和老鼠

913. 猫和老鼠 这两个示例的计算过程可以通过模拟猫和老鼠的每一步移动并考虑他们的最佳策略来得出。我们可以使用 递归 动态规划 或 回溯 来进行分析,每次都判断当前状态下的可能结果。 示例 1: 输入:graph [[2,5],[3],[0,4,5],[1,4,5]…

Django视图与URLs路由详解

在Django Web框架中,视图(Views)和URLs路由(URL routing)是Web应用开发的核心概念。它们共同负责将用户的请求映射到相应的Python函数,并返回适当的响应。本篇博客将深入探讨Django的视图和URLs路由系统&am…

MCU应用踩坑笔记(ADC 中断 / 查询法)

问题描述 IC:SC92F7596,在使用过程中,发现一个问题,就是我们使用到了ADC功能,程序的代码如下: ADC采样周期200ms ,采样个数:4 在使用过程中,因配置了ADC中断使能,在中断…

CNN-day6-经典神经网络AlexNet

day7-经典神经网络AlexNet ImageNet大规模视觉挑战赛(ILSVRC)被称为深度学习在图像分类任务研究方面进展的标杆。 AlexNet网络参加了ILSVRC2012年大赛获得冠军(超过第二名10%的性能),掀起了一波深度学习的浪潮,一个具有里程碑意…

JVM做GC垃圾回收时需要多久,都由哪些因素决定的

JVM进行垃圾回收(GC)的时间长短受多种因素影响,主要包括以下几个方面: 1. 堆内存大小 堆内存越大,GC需要扫描和回收的对象越多,耗时越长。堆内存较小时,GC频率增加,但每次回收的时…

《侠盗猎车手V》无法启动,并且弹出“msvcp140.dll”提示要怎么解决这个问题?

宝子们,是不是在玩《侠盗猎车手V》的时候,突然弹出一个提示:“找不到msvcp140.dll,无法继续执行代码”?这可真是让人着急上火!别慌,今天就给大家唠唠这个文件为啥会丢,还有怎么把它找…

Swift的方法派发机制

1. 静态派发(Static Dispatch) 静态派发在编译时确定方法的具体实现,调用时直接跳转到该实现。静态派发的优点是性能高,因为不需要运行时查找方法实现。 适用场景: 值类型(Struct 和 Enum)&am…