微软影片索引器VideoIndexer更新，可从语音、字幕及人物辨识推理影片主题最新消息

微软影片索引器VideoIndexer更新，可从语音、字幕及人物辨识推理影片主题

消息来源:baojiabao.com 作者: 发布时间：2024-05-13

报价宝综合消息微软影片索引器VideoIndexer更新，可从语音、字幕及人物辨识推理影片主题

微软的影片索引器服务（Video Indexer）以多模态主题推理（Multi-modal Topic Inferencing），为使用者提供更直觉的影片分类方法，还能最佳化其内容探索功能。微软提到，由于影片索引器可以理解媒体中的内部关系，因此比手动标记影片内容更加高效且低成本。

大型媒体服务常会面临媒体内容管理的问题，而且要对媒体进行内容探索，也会因规模的关系变得更加困难，虽然将影片按主题分类是一个好方法，但是内容分类是需要演绎推理的，影片中不一定会明确的显示，微软举例，像是医疗保健相关的影片，内容并不一定会出现医疗保健这个词。有不少企业转而手动标记内容，但微软表示，手动不只成本高昂且耗时，容易发生错误并且无法有效扩展。

为了解决这个问题，微软在其影片索引器加入了多模态主题推理，该功能使用跨频道模型，索引媒体内容以自动推理主题。该模型会将影片概念投影到3个本体（Ontology），并以3大讯号包含转译影词组音还有字幕OCR的文本，以及对影片进行名人人脸辨识结果，来推论影片主题。

影片索引器用于推理影片主题的本体包括IPTC、维基百科和影片索引器分层主题。IPTC本体在媒体企业中很受欢迎，提供超过1,100个术语的媒体主题分类。而维基百科的170万个类别，也可用作主题标签，优点是这些类别受到良好的维护，主题与文章采用的类图连结，使其成为一种高解析的本体。影片索引器分层主题本体则是一个最大深度为3层，拥有超过2万条目的专有的分层本体。

影片索引器过去使用关键字萃取模型，强调经转译与字幕OCR的重要词汇，微软以Build 2018开发人员大会的开幕主题演讲为例，透过萃取关键字索引主题，会出现网页开发、单词嵌入、无服务器运算等关键字。微软提到，关键字萃取与主题推理模型最大的差异在于，关键字是影片中明确提到的术语，而主题是推论出来的，像是使用知识图透过（Knowledge Graph）汇整相似的概念，以推论出高阶内隐概念。

影片索引器应用两个模型来萃取主题，第一个是深度神经网络，根据大型专有资料集，直接对原始文本进行评分和排名，该模型会将影片转译文本，映射至影片索引器本体与IPTC。第二个模型则是对影片中提到的命名实体，使用光谱图算法（Spectral Graph Algorithms），该算法利用经辨识名人的维基百科ID，以及OCR和翻译文本的讯号。

由于这两类讯号分属结构化和非结构化的资料，因此微软使用ELIS（Entity Linking Intelligent Service）会在自由格式文本中识别命名实体，将非结构化资料转成结构化，以便之后能完全利用结构化资料进行主题撷取。

微软利用维基百科页面实体的相似度，以及从影片页面撷取到的不同概念，建置出图，并在最后阶段，根据后验概率（Posteriori Probability）排名维基百科类别，以找出适合的主题。

2019-01-10 19:33:00