英特尔用 ViT 做密集预测效果超越卷积:性能提高 28%,在线可玩
消息来源:baojiabao.com 作者: 发布时间:2026-02-15
用全卷积网络做密集预测 (dense prediction),优点很多。但现在,你可以试试 Vision Transformer 了 --
英特尔最近用它搞了一个密集预测模型,结果是相比全卷积,该模型在单目深度估计应用任务上,性能提高了 28%。
其中,它的结果更具细粒度和全局一致性。
在语义分割任务上,该模型更是在 ADE20K 数据集上以 49.02% 的 mIoU 创造了新的 SOTA。
这次,Transformer 又在 CV 界秀了一波操作。
沿用编码-解码结构
此模型名叫 DPT,也就是 dense prediction transformer 的简称。
总的来说,DPT 沿用了在卷积网络中常用的编码器-解码器结构,主要是在编码器的基础计算构建块用了 transformer。
它通过利用 ViT 为主干,将 ViT 提供的词包(bag-of-words)重新组合成不同分辨率的图像特征表示,然后使用卷积解码器将该表示逐步组合到最终的密集预测结果。
模型架构图如下:
具体来说就是先将输入图片转换为 tokens(上图橙色块部分),有两种方法:
(1)通过展开图像表征的线性投影提取非重叠的图像块(由此产生的模型为 DPT-Base 与 DPT-Large);
(2)或者直接通过 ResNet-50 的特征提取器来搞定(由此产生的模型为 DPT-Hybrid)。
然后在得到的 token 中添加位置 embedding,以及与图像块独立的读出 token(上图红色块部分)。
接着将这些 token 通过 transformer 进行处理。
再接着将每个阶段通过 transformer 得到的 token 重新组合成多种分辨率的图像表示(绿色部分)。注意,此时还只是类图像(image-like)。
下图为重组过程,token 被组装成具有输入图像空间分辨率 1/s 的特征图。
最后,通过融合模块(紫色)将这些图像表示逐步"拼接"并经过上采样,生成我们最终想要的密集预测结果。
ps.该模块使用残差卷积单元组合特征,对特征图进行上采样。
以上就是 DPT 的大致生成过程,与全卷积网络不同,ViT 主干在初始图像 embedding 计算完成后放弃了下采样,并在全部处理阶段保持恒定维数的图像表示。
此外,它在每阶段都有一个全局感受野。
正是这两点不同对密集预测任务尤其有利,让 DPT 模型的结果更具细粒度和全局一致性。
用两种任务来检验效果,具体效果如何?
研究人员将 DPT 应用于两种密集预测任务。
由于 transformer 只有在大训练集上才能展现其全部潜能,因此单目深度估计评估是测试 DPT 能力的理想任务。
他们将 DPT 与该任务上的 SOTA 模型进行对比,采用的数据集包含约 140 万张图像,是迄今为止最大的单目深度估计训练集。
结果是,两种 DPT 变体的性能均显著优于最新模型(以上指标越低越好)。
其中,与 SOTA 架构 MiDaS 相比,DPT-Hybrid 的平均相对改善率超过 23%,DPT-Large 的平均相对改善率则超过 28%。
为了确保该成绩不仅是由于扩大了训练集,研究人员也在更大的数据集上重新训练了 MiDaS,结果仍然是 DPT 胜出。
通过视觉比较图还可以看出,DPT 可以更好地重建细节,可以在对卷积结构具有挑战的区域(比如较大的均匀区域)中提高全局一致性。
另外,通过微调,研究人员发现 DPT 也可以有效地应用于较小的数据集。
在具有竞争力的语义分割任务上:研究人员在 ADE20K 数据集上对 DPT 进行了 240 个 epoch 的训练。
结果发现,DPT-Hybrid 优于现有的所有全卷积结构,以 49.02 的 mIoU 达到了 SOTA(其更清晰、更细粒度的边界效果如开头所展示)。
而 DPT-Large 的性能稍差,研究人员分析可能是因为与之前的实验相比,采用的数据集要小得多。
同时,他们在小数据集(Pascal)上对表现优异的 DPT-Hybrid 微调了 50 个 epoch 后发现,DPT 的性能仍然强大。
最后,"百闻不如一见",如果你想体验 DPT 的真实效果,可以到 Huggingface 官网。
2022-05-08 03:35:23论文地址:
https://arxiv.org/abs/2103.13413
模型地址:
https://github.com/intel-isl/dpt
Hugging Face 体验地址:
https://huggingface.co/spaces/akhaliq/DPT-Large
相关文章
炒港股要补交多少税?我也接到催交补税特别行动的电话了2025-07-23 17:36:43
淘宝天猫仅退款属于诈骗吗?淘宝天猫开始部分取消仅退款2024-10-01 13:01:28
哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰2024-10-01 11:22:38
白嫖党|山西大同大学学生网购申请“仅退款”被拒骂客服一小时2024-09-27 09:10:44
北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书 阿里巴巴竞赛受质疑2024-06-28 10:07:40
天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步2024-06-28 09:27:13
美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善2023-12-28 19:14:56
印度以打击金融犯罪为由逮捕了两名 vivo 高管2023-12-26 16:49:01
在国外微信收不到国内信息?微信和WeChat将被拆分2023-12-15 10:40:15
苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月2023-08-06 23:21:02
华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单2023-08-06 23:17:37
整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁2023-07-12 09:56:09
网传微信文件传输助手是真人是真的吗?微信官方回应2023-06-27 15:53:32
电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?2023-06-12 17:18:55
中国电信广东地区崩了无信号 客服回应已在核实处理2023-06-08 15:39:04
消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元2023-03-06 12:56:03
华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.2023-03-05 23:26:41
OPPO正式发布安第斯智能云,让终端更智能2023-02-24 16:02:27














