计算机视觉

Computer Vision

计算机视觉是一个跨学科的科学领域,涉及到计算机如何从数字图像或视频中获得高水平的理解。从工程的角度来看,它试图理解人类视觉系统能够完成的任务并使之自动化。计算机视觉任务包括获取、处理、分析和理解数字图像的方法,以及从现实世界中提取高维数据以产生数字或符号信息,例如以决策的形式。

这里的理解意味着将视觉图像(视网膜的输入)转化为对世界的描述,使思维过程有意义并能引起适当行动。这种图像理解可以被看作是利用借助几何学、物理学、统计学和学习理论构建的模型将符号信息从图像数据中分离出来。  计算机视觉这门科学学科关注的是从图像中提取信息的人工系统背后的理论。图像数据可以有多种形式,如视频序列、来自多个摄像头的视图、来自三维扫描仪或医疗扫描设备的多维数据。计算机视觉的技术学科寻求将其理论和模型应用于计算机视觉系统的构建。

——来自维基百科

计算机视觉

计算机视觉领域的任务

图像分割

图像分割

Image Segmentation

35个资源

图像分类

图像分类

Image Classification

35个资源

对象检测

对象检测

Object Detection

35个资源

人脸识别

人脸识别

Face Recognition

35个资源

图像生成

图像生成

Image Generation

35个资源

图像生成3D

图像生成3D

Image-to-3D

35个资源

人类动作识别

人类动作识别

Human Action Recognition

35个资源

人类姿态识别

人类姿态识别

Human Pose Recognition

35个资源

计算机视觉领域的预训练大模型

DALL·E

120.0

亿个参数

2021-02-24

发布时间

DALL·E2

35.0

亿个参数

2022-04-13

发布时间

Imagen

20.0

亿个参数

2022-05-23

发布时间

Stable Diffusion-2.0

9.83

亿个参数

2022-11-24

发布时间

Stable Diffusion - 2.1

9.83

亿个参数

2022-12-07

发布时间

Point-E

10.0

亿个参数

2022-12-16

发布时间

ControlNet

0.0

亿个参数

2023-02-10

发布时间

DINOv2

11.0

亿个参数

2023-04-14

发布时间

ControlNet-v1-1

0.0

亿个参数

2023-04-14

发布时间

Shap-E

0.0

亿个参数

2023-05-03

发布时间

计算机视觉领域的公开数据集