APP下载

微软Bing搜寻靠机器学习强化影片摘要,帮助用户更快掌握影片是否有趣

消息来源:baojiabao.com 作者: 发布时间:2024-03-29

报价宝综合消息微软Bing搜寻靠机器学习强化影片摘要,帮助用户更快掌握影片是否有趣

网络上充满各式内容的影片,对使用者来说,最好可以快速知道影片有不有趣,而对于微软Bing影片搜寻功能来说,问题则是如何提供影片概览,帮助使用者决定是否要花时间点击并观看影片。微软提到,提供影片摘要是非常困难的工作,不像人类可以直觉的指出影片的主场景,电脑难以内化这类内隐知识或遵照一个概括的规则辨识。

影片摘要分为动态摘要与静态摘要,动态摘要是将影片切割成数个小区间,选取或是组合一段固定时间长的重要片段,供使用者预览,微软表示,他们有资料指出,80%使用者注视缩图的时间少于10秒,也就是说,使用者并没有太多的耐心观看预览,最后微软采用了静态摘要方法。

微软Bing中提供的影片静态摘要,除了一个主要缩图代表影片外,在影片下方还会呈现4张缩图,让使用者一眼就可以看出影片大致内容。首先第一步,要为影片产生主缩图,而为了训练机器学习模型分辨好或坏的缩图,微软从影片中随机挑出30帧画面,并交给人类评委,以主观喜好评估这些画面,考量代表性、图像品质以及吸引力等属性,为画面打分数,分为3个等级可以为0、0.5或是1分。

除了使用人工制造的训练资料,微软也使用了大量来自这些图像的特征,来训练增强树回归模型(Boosted Trees Regression Model),这个模型使用这些资料推测影片上的其他画面,并且输出0到1之间的分数,来帮助后续选出最佳的影片缩图。微软提到,采用图像的特征非常广泛,包括对比度、模糊度、噪声等级等核心图像品质特征外,还有使用脸部侦测,以侦测图像脸部数量、脸部大小以及位置等特征。另外,也使用了动作侦测以及画面差异特征,视觉相似与位置相同的画面,会被集结成序列称为场景,场景和相对应画面也被当作训练的特征。

有了这些特征,微软使用深度神经网络,在图像品质标签上训练高维度图像向量,这些向量被用来捕捉画面布局的品质,而得分最高的推测画面,将被用来作为代表影片的主要缩图。

第二步则要产生4帧一组的缩图,微软提到,这4张缩图的重点在于全面性与代表性,而这反而相对于前一步来说,更具技术挑战,微软除了无法单纯使用最高分的4个画面来当缩图,因为这些画面可能都来自于相同场景,再来,他们也无法要求人工产生训练资料,因为很难要使用者从一千帧的影片中,选出最具代表性的4帧。

为了处理缩图的综合性,微软在目标函数引入相似因子,尝试最大化缩图集的图像品质总分,并且加入参数来调整相似度。微软提到,他们将问题转为贪婪最佳化的问题,以解决运算复杂性,由于他们无法列举所有4帧画面组合的可能性,也由于在计算主缩图,花费了许多心力,因此微软也决定将主缩图纳入4帧缩图组之一,有了第一张缩图作为起点,接下来选择3张缩图来最大化总分,而大幅简化了这项工作的复杂度。

微软提供两组缩图供人类评委判断最佳的组合,一组是从影片随机截取画面,另一组则由最佳化方法产生,人类需要选择较好的一组,而这个训练资料将被用来训练新的目标函数,以导出缩图集模型。

微软于Bing影片搜寻部署了这项更新,以4帧计算出来的缩图,减少使用者搜索图片的时间,并花更多的时间在观看影片上。

2018-08-29 18:31:00

相关文章