APP下载

【台湾中文知识库实例:中研院中文词知识库小组】4年将建百万词规模,中研院要打造本土语音应用最大军火库

消息来源:baojiabao.com 作者: 发布时间:2024-04-26

报价宝综合消息【台湾中文知识库实例:中研院中文词知识库小组】4年将建百万词规模,中研院要打造本土语音应用最大军火库

中研院广义知网可以清楚地呈现出每个中文词的知识图谱。

若在Google搜寻网页,输入“奥巴马的身高多少”,不会跳出一篇文章或是一串连结,而是Google会直接告诉你,答案就是1.85米。这个让搜索引擎摇身变成知识解答者的关键,就是2012年亮相的Google知识图谱(Google Knowledge Graph)。一个记录了大量词汇、物件,以及它们彼此间关连性的结构化资料集,这正是让搜索引擎更主动提供答案,看起来更聪明的关键。可是Google把这套知识图谱视为他们自己的秘密武器,只用于自家产品,而没有释出给第三方。

但是在台湾,中央研究院早从30年前就成立了一个跨所合作的中文计算语言研究小组,称为中文词知识库小组(简称词库小组),要来打造一套台湾的中文自然语言处理技术。2003年时,更展开了一项庞大计划,要建立一套中文知识图谱,称为广义知网(E-HowNet)),在2011年正式上线,比Google知识图谱还早了一年现身。

中央研究院资讯科学研究所助研究员马伟云是词库小组计划负责人,率领了10人团队,来打造这个已有9万多个词条,中文世界少见的知识图谱数据库,目前已经发展到了2.0版。

马伟云指出,中文自然语言理解可分为几个层次,第一步是断词,接着是语法理解、语意理解,最后是要达到对背景知识的理解。其中,背景知识又可以分成两种,包括了词汇知识以及世界的背景知识。“因为人们对一个词汇有共同的知识,所我们才能沟通。”

同样的道理,对各种与语言相关的AI应用而言,“AI需要有知识,才能够进行推论,甚至能够解释,这套广义知网正是为了这样的目的而设。”他说。在广义知网中,采用了知识概念图来描述一个词与相关物之间的关系,而彼此连结的关系线也具有属性的概念。

例如,查询“学生”的知识图谱,会列出与“学生”相关的概念,以及不同属性上的意义,像是“学生”的定义属性是“人”,动作属性是“学习”,领域属性是“教育”。学生与其他词之间的关连也会并列列出,例如“留学生”和“学生”两个词,会视为是同样的概念,只是场所属性不一样,“留学生”就是场所属性是“国外”的“学生”。一个词汇,往往会有数百,甚至是上千笔相关说明,可以清楚地呈现出对一个词汇相关的属性和概念意义。简单来说,就像把人们对“学生”这的词的所有常识知识,都一目了然地记录在知识图谱上。

过去,学界开发语料库时,常找来语言学家、专家来标记这些语料或词汇,透过专家们人工的判断,来建立这套描述词汇彼此间关系的数据库,就是所谓的知识图谱。中研院词库小组从2003年至今,投入大量专业人力,来建立这套标记系统和机制,也人工标记出9万多个中文词汇各自的知识图谱,而且还每年持续更新内容,或修正这些词汇所用的知识图谱架构,还提供一套知识图谱API,可以透过程式自动套用广义知网的内容和架构,成为了一个可用来理解各种中文内容所需的知识库。

例如在词库小组网站上,就展示了一套中研院自制的舆情分析系统,输入想要搜寻的关键词,例如柯文哲,舆情分析系统会先汇整目标媒体中特定期间内所有的柯文哲报导,再进行中文语言理解分析,运用广义知识图谱提供的词汇关连知识,可以判断出这些文章每篇文中具有的情感分布,可列出哪些报导带有喜悦、羡慕、感激或惋惜、懊悔、失望、不满等更细致的不同情绪。

金融、电商等多家台湾企业开始采用

中研院近两年开始对外释出这套广义知网,不只学术可用,也可供企业申请授权来转移技术,企业还能自行添加各自专业领域的知识词汇,例如自建的财金词汇等,来扩充广义知网对特定领域的知识。去年已有5家台湾企业开始采用,如寿险业者、银行、网络电商、消费电子产品商、网络内容业者等。

不过,中研院的目标不只如此,马伟云已经提出了新的发展计划,要用4年时间,来扩大广义知网的词汇规模,“尽可能累积所有词,甚至包括专有名词,来打造一个中文知识库。”他计划利用现有9万词汇所建立的知识图谱架构,发展相关的自然语言处理工具,来将中文维基百科上的百万词汇,一一自动建立其知识图谱,“广义知网未来就可以成为一个具有百万中文词库的知识库。”如此一来,这个百万词知识库,不只可来强化Chatbot对中文语意理解的能力,或像是中文或华语教学等,也可成为中文语料库,用于各种文本分析上,成了中文语音应用最大的军火库。

2019-02-22 12:36:00

相关文章