APP下载

微软影片索引器VideoIndexer更新,可从语音、字幕及人物辨识推理影片主题

消息来源:baojiabao.com 作者: 发布时间:2024-05-13

报价宝综合消息微软影片索引器VideoIndexer更新,可从语音、字幕及人物辨识推理影片主题

微软的影片索引器服务(Video Indexer)以多模态主题推理(Multi-modal Topic Inferencing),为使用者提供更直觉的影片分类方法,还能最佳化其内容探索功能。微软提到,由于影片索引器可以理解媒体中的内部关系,因此比手动标记影片内容更加高效且低成本。

大型媒体服务常会面临媒体内容管理的问题,而且要对媒体进行内容探索,也会因规模的关系变得更加困难,虽然将影片按主题分类是一个好方法,但是内容分类是需要演绎推理的,影片中不一定会明确的显示,微软举例,像是医疗保健相关的影片,内容并不一定会出现医疗保健这个词。有不少企业转而手动标记内容,但微软表示,手动不只成本高昂且耗时,容易发生错误并且无法有效扩展。

为了解决这个问题,微软在其影片索引器加入了多模态主题推理,该功能使用跨频道模型,索引媒体内容以自动推理主题。该模型会将影片概念投影到3个本体(Ontology),并以3大讯号包含转译影词组音还有字幕OCR的文本,以及对影片进行名人人脸辨识结果,来推论影片主题。

影片索引器用于推理影片主题的本体包括IPTC、维基百科和影片索引器分层主题。IPTC本体在媒体企业中很受欢迎,提供超过1,100个术语的媒体主题分类。而维基百科的170万个类别,也可用作主题标签,优点是这些类别受到良好的维护,主题与文章采用的类图连结,使其成为一种高解析的本体。影片索引器分层主题本体则是一个最大深度为3层,拥有超过2万条目的专有的分层本体。

影片索引器过去使用关键字萃取模型,强调经转译与字幕OCR的重要词汇,微软以Build 2018开发人员大会的开幕主题演讲为例,透过萃取关键字索引主题,会出现网页开发、单词嵌入、无服务器运算等关键字。微软提到,关键字萃取与主题推理模型最大的差异在于,关键字是影片中明确提到的术语,而主题是推论出来的,像是使用知识图透过(Knowledge Graph)汇整相似的概念,以推论出高阶内隐概念。

影片索引器应用两个模型来萃取主题,第一个是深度神经网络,根据大型专有资料集,直接对原始文本进行评分和排名,该模型会将影片转译文本,映射至影片索引器本体与IPTC。第二个模型则是对影片中提到的命名实体,使用光谱图算法(Spectral Graph Algorithms),该算法利用经辨识名人的维基百科ID,以及OCR和翻译文本的讯号。

由于这两类讯号分属结构化和非结构化的资料,因此微软使用ELIS(Entity Linking Intelligent Service)会在自由格式文本中识别命名实体,将非结构化资料转成结构化,以便之后能完全利用结构化资料进行主题撷取。

微软利用维基百科页面实体的相似度,以及从影片页面撷取到的不同概念,建置出图,并在最后阶段,根据后验概率(Posteriori Probability)排名维基百科类别,以找出适合的主题。

2019-01-10 19:33:00

相关文章