对自家技术一贯守口如瓶的Waymo,今年突然对“外部力量”张开了怀抱。
在全球最大的计算机视觉会议CVPR 2019现场,Waymo首席科学家Drago Anguelov公开了自家的自动驾驶资料集Waymo Open Dataset。作为公司研究院老大,Drago Anguelov同时预告了几个关键数字:3000段驾驶记录、时长共16.7小时、平均每段长度约为20秒;60万帧、共有大约2500万3D边界框、2200万2D边界框,以及多样化的自动驾驶场景。
事实上,在Waymo Open Dataset之前,自动驾驶领域中已经存在几个比较知名的资料集。其中,KITTI被公认为使用最广泛的资料集之一,Cityscapes的专长是城市街景的语义理解,ApolloScape则以标注的精细程度著称,还有UC Berkley最新发布的BDD100K等等。
自动驾驶公开资料集对比
然而,这些优势在Waymo眼里似乎都不值一提。Drago Anguelov在演讲中列了一个表格,条分缕析地将Waymo Open Dataset与KITTI、NuScenes等资料集直接进行对标:
资料集对比,图片来自“机器之心”
直观地说,主流资料集提供的资料量已经远远不够用了。因此,Drago Anguelov称,Waymo 将在7月份释出1K资料集,且将在近期公布资料集基准并组织竞赛。
目前为止,Waymo Open Dataset的细节内容尚未公开。单从资料量的对比来看,该资料集就已经比现有的公开三维标注资料集领先了好几个身位,基本是两位数与个位数的差距。当然,Waymo自己的全量资料应该已经到达近亿级别。
对于学术界而言,这60万帧的资料量无异于稀世珍宝。受限于资料与感测器相容的问题,学校实验室大概率会在Waymo的感测器配置基础上展开科研工作,也不排除其最终找到适用于其他类似感测器搭配的方案。
但最重要的是,一旦这些科研成果能够形成一个影响力广泛的资料集,其上的研究成果全部都适用于Waymo自家感测器配置,这家科技大牛完全可以轻松吸收最新的无人驾驶技术。更何况,这某种程度上也能够推动无人驾驶方向的人才培养,甚至可以造福整个行业。
可换个角度看,这件事的意义却并没有这么乐观。Waymo对于感测器设定的严格把控,意味着如果其赋予一些超特殊的、难以复现的属性,那么其他无人车公司从这些基于Waymo资料的科研成果中得不到半点好处。此外,Waymo Open Dataset的资料分布大概率位于美国地区,那么受法律法规限制,此上训练出的深度学习模型也不见得能够适用于其他国家地区。
最根本的一点是,现阶段Waymo公布出的资料量级仍旧满足不了工业界的胃口。虽然其多少能够缓解初创公司在资料标注层面的时间和经济压力,但仅仅16个小时的资源也无法支援一个年轻的团队从0做出一个可以上路的无人车Demo,更别提试图以此博取资本市场的青睐。
因此对于汽车工业而言,仍旧需要依靠从业者长期的资料积累,Waymo Open Dataset现阶段的资料量不足以说明问题。而且对于当下最稀缺的3D镭射点云标注资料,Waymo目前的贡献值几乎是寥寥无几。
除了释出资料集,Waymo也同时曝光了无人车感测器配置,包括视觉系统、镭射雷达系统和雷达系统。而Waymo Open Dataset也将同步涉及到来自5个镭射雷达、5个摄像头,镭射雷达和摄像头的资料。
换句话说,随着本次资料集的公开,Waymo自家感测器的所有效能将一览无遗。友商甚至可以直接进行评测:噪点多不多、远处物体距离准不准、除了距离和讯号强度外还有没有其它资讯……
那么,如果Waymo后续将延用“对外出售镭射雷达”的策略,打算继续拿其他感测器硬件挣钱,Waymo Open Dataset的开放将会揭开Waymo无人车上最大一块“遮羞布”。





























