想要眼观六路计算机视觉技术必须完成四大基本任务最新消息

想要眼观六路计算机视觉技术必须完成四大基本任务

消息来源:baojiabao.com 作者: 发布时间：2024-04-26

报价宝综合消息想要眼观六路计算机视觉技术必须完成四大基本任务

计算机视觉识别这一人工智能基础应用技术部分已达商业化应用水平，被用于身份识别、医学辅助诊断、自动驾驶等场景。一般来讲，计算机视觉主要分为影象分类、目标检测、目标跟踪和影象分割四大基本任务。

影象分类是指为输入影象分配类别标签。自 2012 年采用深度卷积网络方法设计的 AlexNet 夺得 ImageNet 竞赛冠军后，影象分类开始全面采用深度卷积网络。

2015 年，微软提出的 ResNet 采用残差思想，将输入中的一部分资料不经过神经网络而直接进入到输出中，解决了反向传播时的梯度弥散问题，从而使得网络深度达到 152 层，将错误率降低到 3.57%，远低于 5.1%的人眼识别错误率，夺得了ImageNet 大赛的冠军。2017 年提出的 DenseNet 采用密集连线的卷积神经网络，降低了模型的大小，提高了计算效率，且具有非常好的抗过拟合效能。

目标检测指用框标出物体的位置并给出物体的类别。2013 年加州大学伯克利分校的 Ross B. Girshick 提出 RCNN 算法之后，基于卷积神经网络的目标检测成为主流。之后的检测算法主要分为两类，一是基于区域建议的目标检测算法，通过提取候选区域，对相应区域进行以深度学习方法为主的分类，如 RCNN、Fast-RCNN、Faster-RCNN、SPP-net 和 Mask R-CNN 等系列方法。二是基于回归的目标检测算法，如 YOLO、SSD 和 DenseBox 等。

目标跟踪指在视讯中对某一物体进行连续标识。基于深度学习的跟踪方法，初期是通过把神经网络学习到的特征直接应用到相关滤波或 Struck 的跟踪框架中，从而得到更好的跟踪结果，但同时也带来了计算量的增加。近提出了端到端的跟踪框架，虽然与相关滤波等传统方法相比在效能上还较慢，但是这种端到端输出可以与其他的任务一起训练，特别是和检测分类网络相结合，在实际应用中有着广泛的前景。