5G，8K时代的加速到来，将极大缓解视讯传输带宽和终端解码能力的约束。而6DoF视讯则在360度VR视讯基础上更进一步，可以将传统平面视讯在分辨率维度的清晰度提升转化为高自由度的空间资讯量提升，并且通过可互动式视讯体验突破移动端显示分辨率对5G时代视讯体验的约束，为5G时代视讯体验提升提供了新的无限可能。本文由阿里巴巴高阶算法专家盛骁杰在LiveVideoStackCon 2019上海的分享内容整理而成。

文 / 盛骁杰

整理 / LiveVideoStack

本次分享的主题是关于6DoF视讯的标准和实践，通往下一代的高自由度视讯体验。主要内容包括四个方面：第一，介绍什么是6DoF视讯；第二，介绍目前国内和国际的标准组织，例如国际的MPEG标准组和国内的AVS标准组以及这些组织在6DoF视讯上的一些进展；第三，介绍优酷在6DoF技术方面的实践以及后续业务价值的探索，最后是对本次分享的总结以及6DoF技术未来的展望。

1. 6DoF视讯：从平面视讯到高自由度视讯

就传统平面视讯技术而言，简单来说，它是从三个维度不断提升使用者的视讯体验。第一个维度是分辨率，也就是清晰度方面的提升，比如说从540p时代过渡到1080p的时代，再到现在的4K和8K。第二个维度是亮度和色域，因为随着分辨率的上升，对于视讯本身的颜色的还原度，包括亮度的对比度也提出了更高的要求。最近比较火的HDR也就是从亮度和色域这两个维度给使用者带来更好的感知。第三个维度则是帧率，所谓的帧率即是说视讯每秒钟有多少帧的影象来组成视讯。目前普通的帧率，像电影是24帧，电视剧一般是30帧或者25帧。在这种情况我们使用手机观看屏幕还是会出现卡顿感和物体的运动模糊，这就是帧率不够高的问题。

以上就是平面视讯的发展，我们可以看到在现在这个时间点上，平面视讯在这三个维度里是在不断推进的，这也就是传统视讯与平面视讯改善使用者体验的三个主要方向。

除了平面视讯以外，我们怎样过渡高自由度的视讯？VR360度视讯是其中第一步，所谓VR360度视讯就是使用者可以在观看的过程当中实时改变观看的视角，但是使用者三维空间中的位置是不能动的，只是能够在空间某个点上向周围的不同视角进行观看。所以，VR 360度视讯也可以被称为是3DoF视讯，因为它在空间中只有3个自由度。

可以看到上图左侧，这是一个OZO的360度视讯采集装置，OZO上包含8个鱼眼相机，通过这8个鱼眼相机把空间360度的视讯内容采集下来以后进行影象的拼接，最终形成一个360度视讯，这就是VR360视讯的采集装置。下一步，我们要从360度的3DoF视讯过渡到6DoF视讯，如上图右侧。其实6DoF的采集装置非常的灵活，可以理解为在空间当中想要为使用者提供怎样的自由度，都可以通过自由组合相应相机的拍摄和采集策略来实现。

以上四张图分别是6DoF视讯不同的四种采集方式。第一种是在某条路径上的采集。即在某一场景下设定一圈固定路径的摄像机，每个摄像机以一定的延时进行拍摄，最终实现在某一瞬间环绕观看特定场景的效果。右上角是由美国公司Lytro提出的光场采集方案。通过密集的在小面积中布满多个相机的采集装置。这些采集装置能够复原人在当前位置上下左右移动的观看体验。左下角展示是6DoF采集在更大场景下的应用，这是Intel提出的FreeD技术方案，例如在橄榄球或者篮球比赛的场馆，通过在场馆顶端部署了50多个高分辨率的高清相机进行采集，可实现将比赛通过点云重建并在虚拟场景中展示，从而可以在任意位置观看比赛的效果。右下角展示的是由我们提出的一种方案，即通过二维的摄像机阵列采集大范围的六自由度体验，具体实现效果会在后面详细介绍。

大家都知道，普通的视讯就是图片的集合，而360度视讯则是各个角度的视讯拼成的全景视讯，看起来也是普通的2D视讯，但在渲染的时候可以根据一定的模型来展现出360度的效果。那么6DoF视讯该如何表达？从技术上看，它是通过3D表达与3DoF表达两个分支融合而成，既有高自由度视讯的特性，又有立体视觉的特性，是视讯技术和视觉技术的结合。它的表达方式主要有三种，一种是点云，第二种是深度，第三种就是密集光场。

点云简单地说就是空间当中任意点的座标（XYZ）的（YUV）资料。左上角展示的就是一个人的点云表达，当我们拉近观看的时候（右上角图），发现其实它是非密集的，拉到最近以后人脸会出现一些空洞，因为其点云表达从三维上讲是可以无限放缩的。所以点云其实就是表达了XYZ点上的YUV资料。点云不仅可以用来表达三维的模型还可以用来表达三维的场景，例如最下面图片展示的自动驾驶场景。在自动驾驶场景中使用较多的主要是通过三维建模的技术，建立街道的点云，这样在车辆自动行驶过程中就可以提前了解到周围的立体环境，优化自动驾驶技术。关于点云资料，将空间当中的XYZ和与YUV资料进行压缩，是一种专业性非常强的技术，目前MPEG PCC标准组在做的就是关于点云压缩的研究。

那么点云如何与6DoF进行关联？其实很简单，假设一个三维模型可以通过点云重建出来，那么我们就可以从各个角度进行观看，因为这就表示我们已经有了空间当中任意点XYZ的YUV资讯。

第二种6DoF的表达方式就是深度，点云和深度看上去非常地接近，但其原理其实不一样，所谓的深度图就是每一个相机拍到的资讯，相机当中每个画素点到相机的距离就叫做深度图。其实点云是一个完整的三维表达（唯一的），但是深度图可以是多样的，可以理解为如果三维重建一个物体，通过点云表达，得到的结果只有一份，但如果说使用深度从不同的角度拍摄物体则可以得到不同的深度，得到的结果与相机位置有关。左边展示的是16张从不同角度采集的篮球场景的纹理图，右边的是纹理所对应的深度图，深度图当中较亮的部分表示离相机比较近的物体，其它较暗的地方就表明那些画素离相机的位置越远。所以说深度图也是一种6DoF的表达方式。

第三种表达方式更前沿一些，前两种表达方式在工业界都有一定的应用，但是第三种表达则还处于实验和探索阶段。从上图中可以看到为了拍摄非常小的一个区域，通过密集光场可以达到8K*6K的分辨率，但能够通过焦距和空间位置的变化完全采集到画素的景深资讯和XYZ资讯。我们可以将8K的光场影象分解成16*13张，也就是两百多张常规的二维图片。但由于光场的资料量太大，要表达一个非常小的三维或者6DoF的场景，必须要更好地实现对大量资料进行压缩，因此密集光场表达目前还处于实验探索阶段。

2. MPEG和AVS的6DoF标准进展

接下来介绍目前国际上包括MPEG，AVS标准组在在6DoF方面的进展，来帮助大家理解6DoF在产业化，标准化过程中具体的作用。以上是MPEG标准组未来五年的路标，涵盖了当前视讯技术发展的方向，大致可分为两层，绿色的代表系统层，红色是最核心的MediaCoding层。在MediaCoding层当中，未来的视讯编码技术在其中作为一条分支就只有一种VVC（Versatile Video Coding），俗称H.266。而关于6DoF技术则在其中占据了很多的部分，比如说6DoF Audio；3DoF+Video，也就是6DoF Video的第一阶段；Video Point Cloud Compression（视讯点云压缩）；Geometry Point Cloud Compression（基于几何的点云压缩）。大家可以看到在这部分当中，未来的平面视讯编码H.266技术其实只是其中的一小部分，更多的部分则是围绕着未来下一代高自由度视讯技术怎样定义标准的问题。

MPEG对于标准的6DoF体验的发展定义为：逐步从3DoF（360度视讯）作为基础过渡到完全6DoF视讯，下面几张图很清晰的表达了其发展的路径。3DoF就是人坐在椅子上可以到处看，但不能动。3DoF+则是它的第二阶段，3DoF+就是人同样是坐在椅子上可以到处看，但是在前后左右增加了一定的自由度，可以进行移动而不是固定在一个位置。从3DoF+再进一步过渡到Windowed 6DoF，所谓Windowed 6DoF就是模拟一个人站在窗前面，能够看外面的景色，在窗前面能够自由移动或者说能够往后退，但是不能把头伸出窗外观看的一种体验。从Windowed 6DoF最终再过渡到完全6DoF，达到可以在一个场景当中任意自由移动观看的效果。从现在的技术要过渡到6DoF技术当中要经过很长的一段路程，MPEG的完全6DoF的标准定义基本都要到2022年以后文字才能够成型。

接下来是MPEG细化到时间点上的一个路径，首先就是MPEG-I如何定义沉浸式的视讯体验，它分为两个阶段，分别是Phase 1和Phase 2，Phase 1当中还分为Phase 1a和Phase 1b。Phase 1a就是360度视讯，这项标准已经完成；， Phase 1b就是前面说到的3DoF+视讯，就是在360度视讯的基础上有一定的自由度来上下左右移动，这项标准将会在今年完成。另外一个Phase 2就是从Windowed 6DoF过渡到完全6DoF，大约将在2022年左右完成。同时MPEG-I标准在点云压缩方面也设定了两个专题组，一个是G-PCP（基于Graphic的点云压缩标准），另外一个就是V-PCC，就是将三维的点云对映到二维再用视讯压缩方式进行压缩的一种方法。

接下去再简单介绍下国内的AVS标准组在6DoF标准方面的进展。AVS标准组是国内非常强大的视讯标准组织，拥有包括AVS2标准以及现在的AVS3标准，其在压缩率上已经超过了现在的H.265标准，并且AVS2标准在广电系统中已经得到广泛的使用。目前AVS标准对于6DoF也已经有了明确的进展。第一在标准文件方面，AVS 6DoF标准文件 WD1.0已经完成；第二在测试用例方面，已经拥有两段20s/30个相机的纹理图+深度图的6DoF的测试用例；第三在参考软件方面，AVS标准已经将6DoF视讯在手机端重建的软件标准化，并完全开源。通过这个参考软件结合测试用例就可以实现6DoF场景效果。

下面是6DoF视讯的标准框架，首先由多相机采集的纹理图和深度图生成6DoF视讯的表达，在通过平面视讯的压缩技术之后，在终端进行基于深度图的实时渲染，最终呈现出6DoF的视讯体验。

3. 6DoF技术实践和业务价值探索

在这里简单介绍一下6DoF视讯体验三种典型的产品技术形态。

第一种技术形态是子弹时间视讯，子弹时间视讯是最初级的一种形态。是在一个场景当中能够让使用者通过自定义的一条路径观看的高自由度的体验。例如在篮球比赛中，我希望在球员灌篮的时候可以在篮架绕一圈观看灌篮的动作，或者说在篮球比赛当中出现球员犯规但从当前角度不能确定其是否犯规时，希望可以换一个观看角度来进行观看，这些都是子弹时间视讯能够达到的效果。

第二个产品形态即2D视讯+6DoF，即在普通2D视讯播放的过程中，在任意时间点，使用者都可以选择进入那一时间点的6DoF自由视角互动式体验。在普通平面视讯上做6DoF互动式体验的加法，这就是第二种产品形态。

第三种产品形态是完全颠覆性的，目前的实际应用还受制于一些基础设施，就是前面所说的带宽、计算能力以及算法效果。这种体验离现实的工业界的生产或者说工业界的使用者能够接受还有一定的距离，但是在一些小型的场景下已经具有一定的落地价值和可能。后续5G/8K时代的到来将大大加速完全6DoF视讯体验的落地。

4. 6DoF技术未来展望

前面介绍了高自由度视讯目前可以达到的效果，以及对于现在视讯行业可能的变革，接下来展望一下6DoF技术未来的发展。

在前面曾提到过，如何看视讯的分辨率与自由度之间的关系，如上所示这里存在一个简单的换算关系。视讯分辨率可以从540p、1080p到4K再到8K，手机的分辨率一般为1080p，达到1080p以上使用者在手机上已经几乎没有办法分辨其差别，那么如果到了4K、8K时代，手机端的视讯发展以及高分辨率存在的意义也就成为一个问题。但如果从高自由度的维度来看，完全的6DoF视讯，如果要呈现出像前面所示的大角度的高自由度体验，对于视讯分辨率要求至少在8K以上。对于高自由度视讯来说，目前视讯的所能达到的分辨率远远不够用，这对于现在的视讯行业来说可能是一个新的变革。

在这里可以换算一下，如果我们采用了32个相机来采集高自由度视讯，每个相机分辨率是540P，算上深度图的传输，整体资料传输量就要达到8K级别，如果说需要在手机端看到1080P的高自由度影象，同样自由度就需要16K的分辨率。这就为视讯的体验提升打开了新的可能，也回答了以后视讯的发展方向以及更高分辨率到底有什么用的问题。