大模型评测

大模型列表

大模型对比

搜索博客

加载中...

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

计算机视觉领域的六大任务简介 | DataLearnerAI

首页/
博客列表/
博客详情

计算机视觉领域的六大任务简介

2021/11/21 21:29:20

3,116 阅读

CV 计算机视觉

计算机视觉与自然语言处理是近几年人工智能领域进步最快以及应用最为成熟的两个方向。计算机视觉里面任务涉及面广，有很多细分领域，本文将对计算机视觉领域中比较常见的六种任务进行总结并同时展示以下相关任务的一些成绩。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码

返回博客列表

相关博客

TorchVision最新0.13版本发布！
计算机视觉的五个趋势
Saleforce发布最新的开源语言-视觉处理深度学习库LAVIS

热门博客

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）

任务一、图像分类（Image Classification）

任务二、视频分类（Video Classification）

任务三、目标检测（Object Detection）

任务四、语义分割（Semantic Segmentation）

任务五、实例分割（Instance Segmentation）

任务六、目标跟踪（Visual Object Tracking）

任务一、图像分类（Image Classification）

图像分类是计算机视觉的基础工作之一。它的目的主要是将图片划分到某个特定的类别中。一般情况下，图像分类是指对某一张图片上的单个对象进行分析。

传统的图像分类方法主要是在像素数据之上加上一些特征，如颜色直方图、纹理和形状等。一般来说都是通过相关领域的专家寻找有效的特征转换来做图像识别。但是，这样的方法耗时费力，且泛化能力不强。

随着深度学习的发展，基于原始的像素数据，通过CNN等网络对图像进行分类是一个很好的进展。下图展示了ImageNet数据集上图像分类的模型精度情况。

这里展示的是模型Top1的准确率。可以看到已经很不错了。虽然这几年已经没有大的突破，但是该数据集上模型的准确性已经在2015年超越人类了。

任务二、视频分类（Video Classification）

与图像分类类似，视频分类是给定一个视频，为其划分到指定的类别中。当然，好的视频分类模型不仅是要能划分正确的类别，还能够给定关于视频的描述等。因为视频与图片不同，它包含了连续很多帧的图片，本身是一个故事或者情节的发展。例如，一段视频可能在某个帧中包含一棵树，但作为视频核心的标签可能是其他东西（如 "登山"）。描述帧和视频所需的标签的粒度取决于任务。典型的任务包括为视频分配一个或多个全局标签，以及为视频中的每一帧分配一个或多个标签。

由于视频分类更加复杂，且标准并不那么一致。这方面的任务进展就不像图像识别那么简单与统一。即便在数据集方面，大家也缺少像ImageNet那样有影响力的被认可的内容。

任务三、目标检测（Object Detection）

目标检测是检测图像中某个类别的物体的任务。一般来说，就是在图像中寻找我们感兴趣的目标，并给出其位置和大小。例如，下图就是根据图片的内容，给出了汽车、行人与信号灯的位置和范围。

目前，目标检测最先进的方法可以分为两个主要类型：一阶段方法和两阶段方法。一阶段方法优先考虑推理速度，包括YOLO、SSD和RetinaNet。两阶段方法优先考虑检测精度，包括Faster R-CNN、Mask R-CNN和Cascade R-CNN等。

目前，最受欢迎的目标检测的基准是MSCOCO数据集。模型通常根据平均精度指标进行评估。下图展示了COCO test-dev数据集上各个模型的BOX AP得分情况。可以看到这几年，这一个领域的模型进展依然非常迅速。

任务四、语义分割（Semantic Segmentation）

语义分割，或图像分割，是将图像中属于同一对象类别的部分聚在一起的任务。它是像素级预测的一种形式，因为图像中的每个像素都是根据一个类别来分类的。这个任务也是这几年非常火的。早先，大家有很多方法，包括著名的Daul HDP这种非参数贝叶斯的方法，都是在做这个任务。语义分割的应用场景很多，且很重要，例如：

自动驾驶：语义分割是自动驾驶汽车必要的感知能力，它可以帮助汽车了解其环境，从而使自动驾驶汽车能够安全地融入我们现有的道路。
医疗诊断：医疗诊断中，语义分割可以增强放射科医生的分析，帮助我们减少运行诊断测试的时间等。如对胸部X光片结果进行语义分割可以帮助医生显著区分心脏、肺部等位置。

这个任务的一些例子基准是Cityscapes、PASCAL VOC和ADE20K。模型的评估通常采用平均交叉点（Mean Intersection-Over-Union）和像素准确率指标。PASCAL VOC 2012测试中，模型的进展如下：

可以看到，随着模型接近90%的评价IoU，这几年的进展已经逐渐放缓。

任务五、实例分割（Instance Segmentation）

实例分割是检测和划定图像中出现的每个不同的感兴趣的对象的任务。语义分割的目标是将同一类的东西划分到一组中，例如将汽车与建筑物分开这种。但是实例分割更进一步，它的目标是将图像中的实例识别出来。例如，图片中很多汽车，你要把每一辆汽车都识别出来，有清晰的边界，那么这就是实例分割了。

下图是近几年关于实例分割的模型成绩，是在COCO test-dev数据集上。可以看到，目前的进展依然很快。

任务六、目标跟踪（Visual Object Tracking）

视觉物体追踪是计算机视觉、图像理解和模式识别的一个重要研究课题。鉴于视频序列第一帧中目标的初始状态（中心位置和比例），视觉物体追踪的目的是自动获得该物体在后续视频帧中的状态。

对于目标跟踪的指标度量，一般采用VOT2015的预期平均重叠（expected average overlap）。EAO衡量的是在短期序列上运行的跟踪器的预期无复位重叠度。下图是相关的模型成绩。

总结

计算机视觉涉及的任务很多，它的应用很广，在不同的细分领域需要解决很多不同的问题。本文只是粗劣总结一下相关任务。

2

回归模型中的交互项简介（Interactions in Regression）

3贝塔分布（Beta Distribution）简介及其应用

4矩母函数简介（Moment-generating function）

5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程

6使用R语言进行K-means聚类并分析结果

7深度学习技巧之Early Stopping（早停法）

8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署