APP下载

清华人工智能研究院成立知识智慧研究中心 释出四大知识平台_语言

消息来源:baojiabao.com 作者: 发布时间:2024-05-03

报价宝综合消息清华人工智能研究院成立知识智慧研究中心 释出四大知识平台_语言

机器之心报道

作者:贾伟

2019 年 1 月 21 日,清华大学人工智能研究院知识智慧研究中心(以下简称知识中心)成立仪式暨知识计算开放平台释出会在清华大学 FIT 楼举行。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。清华大学人工智能研究院常务副院长孙茂松教授主持成立仪式。

知识中心在成立仪式上释出了清华大学知识计算开放平台,内容涵盖语言知识、常识知识、世界知识和科技知识库,包括:(1)在我国著名机器翻译专家董振东先生毕三十年之功建立的语言和常识知识库《知网》(HowNet)基础上所研制的 OpenHowNet;(2)中英文跨语言百科知识图谱 XLORE;(3)科技知识挖掘平台 AMiner。董强先生、李涓子教授、唐杰教授、黄民烈副教授、刘知远副教授分别介绍了知识计算开放平台本次释出的相关资源及应用案例。成立仪式上,还发布了基于 AMiner 的《清华大学人工智能技术系列报告》(THUAITR)。

一、知识智慧研究中心成立

清华大学人工智能研究院成立于 2018 年 6 月,由清华大学计算机系教授、中国科学院院士张钹出任首任院长,清华大学交叉资讯研究院院长、图灵奖获得者姚期智担任学术委员会主任。“知识中心”则是清华人工智能研究院成立的首个研究中心。

张钹院士在致辞中谈及成立“知识中心”的三个使命,简单来讲即:一个核心、两个融合。

张钹院士认为人工智能的研究大致可以分为两个阶段。第一个阶段为从人工智能研究出现到上世纪末,一般称为”传统人工智能时代”,这个阶段主要以知识为基础。第二阶段为从本世纪初到现在,以神经网络和深度学习为基础,这一阶段的特点即人工智能技术在社会中的大量应用。然而,目前的人工智能方法仍然缺乏可信性和鲁棒性。张钹院士指出知识是人类智慧的重要特征,我们现在已经进入后深度学习时代,让计算机拥有大规模、高质量的形式化知识,是实现安全可信人工智能的重要使命,知识表示、获取、推理与计算将是新一代人工智能研究面临的核心问题。因此,知识中心将紧密围绕人工智能原创性基础理论研究,探索支援鲁棒可解释人工智能的大规模知识的表示、获取、推理与计算的理论和方法,打造国际一流的知识智慧创新高地。

另一方面,张钹院士指出,目前我国研究学者对知识表示、知识推理和建立知识库的重视还不够。在人工智能顶级国际会议 IJCAI 上,关于深度学习的论文只占全部论文的 1/3,其中 60% 的论文来自中国;而另外 2/ 3 的关于知识表示、知识推理等的论文中,则几乎没有来自中国的论文。张钹院士认为我们的研究不能只是集中在某一个热点上,科学研究必须多样化,因此”知识中心”将建设知识计算服务平台,平台将包含语言知识、常识知识、世界知识、认知知识的大规模知识图谱以及典型行业知识库;同时也将举办开放的、国际化的与知识智慧相关的学术活动,以增进学术交流,普及知识智慧技术,促进产、学合作。

知识中心将聘请清华大学李涓子教授为知识中心主任,“知网”创始人董振东为学术顾问。知识中心的学者将包括孙茂松、朱小燕、李涓子、唐杰、许斌、刘洋、黄民烈、刘知远等知名学者。

二、清华大学知识计算开放平台(THUKC)

知识智慧研究中心成立之后,由知识中心主任李涓子教授主持,释出了 XLORE、OpenHowNet、AMiner、THUAITR 四个知识计算平台。

XLORE:中英文跨语言百科知识图谱

网址:https://xlore.org/

XLORE 是中英文知识规模平衡的大规模跨语言百科知识图谱。该图谱通过融合维基百科和百度百科,并对百科知识进行结构化和跨语言连结构建而成。该图谱以结构化形式描述客观世界中的概念、例项、属性及其丰富语义关系。XLORE 目前包含约 247 万概念、44.6 万属性/关系、1628 万例项和 260 万跨语言连结。XLORE 作为世界知识图谱,将为包括搜索引擎、智慧问答等人工智能应用提供有力支撑。

XLORE 集成了多项创新研究成果:(1)利用基于连结因子图模型的知识连结方法,实现对不同语言知识资源之间的实体知识关联;(2)利用跨语言概念层次关系的验证保证生成跨语言本体中概念关系的质量,并进一步研究了跨语言知识图谱的概念层次剪枝和优化演算法以规范知识分类体系;(3)利用因子图模型建立跨语言属性间的对应关系,减少知识图谱的冗余;(4)联合使用 DBpedia 分类树、维基分类体系、百度百科词条标签对未分类实体进行类别标注。相关成果发表在 WWW、IJCAI、ACL、EMNLP 等人工智能和自然语言处理领域重要国际会议上。

与著名知识图谱 DBpedia 相比,XLORE 的中文实体数量是其的 3.6 倍,中英文跨语言连结增加 39%。XLORE 还提供多样化资料 API 服务,系统累计访问次数过亿次,访问来自 53 个不同国家或地区;2018 年 API 响应呼叫 160 万余次。XLORE 专案计划于 2019 年正式释出跨语言实体连结服务 XLINK。

在世界知识的获取、表示与计算方面,中心还研制释出了很多开源工具和评测资料集,如知识表示学习工具包 OpenKE(https://github.com/thunlp/OpenKE)、神经网络关系抽取工具包 OpenNRE(https://github.com/thunlp/OpenNRE)、Few shot learning 关系抽取资料集 FewRel(https://github.com/thunlp/FewRel)等,自发布以来获得学术界与产业界广泛使用。

OpenHowNet:基于义原的开放语言知识库

网址:openhownet.thunlp.org/

HowNet 是由董振东先生、董强先生父子毕三十年之功建立的一个以汉语和英语的词语所代表的概念为描述物件,以揭示概念与概念之间、以及概念所具有的属性之间的关系为基本内容的语言和常识知识库。知网 HowNet 秉承还原论思想,认为词义概念可以用更小的语义单位来描述,这种语义单位被称为“义原”(Sememe),是最基本的、不易于再分割的意义的最小单位。在不断标注的过程中,HowNet 逐渐构建出了一套精细的义原体系(约 2000 个义原)。HowNet 基于该义原体系累计标注了数十万词汇/词义的语义资讯,自 1999 年正式释出以来引起了中文资讯处理领域极大的研究热情,在词汇相似度计算、文字分类、资讯检索等方面探索了 HowNet 的重要应用价值,建立了广泛而深远的学术影响力。

2017 年以来,清华大学研究团队系统探索 HowNet 知识库在深度学习时代的应用价值,并在词汇语义表示、句子语义表示、词典扩充套件等任务上均得到了验证。研究发现,HowNet 通过统一的义原标注体系直接精准刻画语义资讯,一方面能够突破词汇屏障,深入了解词汇背后丰富语义资讯;另一方面每个义原含义明确固定,可被直接作为语义标签融入机器学习模型,使自然语言处理深度学习模型具有更好的鲁棒可解释性。相关成果均发表在 AAAI、IJCAI、ACL、EMNLP 等人工智能和自然语言处理领域顶级国际会议上。

为了让 HowNet 知识库及其学术思想得到更广泛的应用,知识中心联合董氏父子共同开源 HowNet 知识库核心资料,研制了知识库的访问与计算工具包,并将在清华大学知识计算平台上持续地维护、更新和扩充套件。此外,董强等人建立的语知科技也以 HowNet 为核心,将其应用于各种自然语言理解任务。

AMiner:科技知识挖掘平台

网址:https://aminer.cn/

AMiner 作为科技情报网络大资料探勘平台,包含超过 2 亿篇学术论文和专利以及 1.36 亿科研人员学术网络。该平台于 2006 年上线,已经累计吸引全球 220 个国家和地区的 800 多万 独立 IP 访问,资料下载量 230 万次,年度访问量超过 1000 万,成为学术搜寻和社会网络挖掘 研究的重要资料和实验平台。

AMiner 专案团队与中国工程科技知识中心、微软学术搜寻、ACM、IEEE、DBLP、美国艾伦研究所、英国南安普顿大学等机构建立了良好的合作关系,专案成果及核心技术应用 于中国工程院、科技部、国家自然科学基金委、华为、腾讯、阿里巴巴等国内外 20 多家企 事业单位,为各单位的专家系统建设及产品升级提供了重要资料及技术支撑。

AMiner 旨在为研究人员社交网络提供全面的搜寻和资料探勘服务,主要关注:

(1) 通过从分散式 Web 中提取资讯为每个研究人员建立基于语义的配置档案;

(2) 从多个来源整合学术资料 (例如,书目资料和研究人员简介);

(3) 准确搜寻异构网络;

(4) 从学术社交网络中分析和发现有价值的模式。

THUAITR:清华大学人工智能技术系列报告

网址:https://reports.aminer.cn/

THUAITR 以 AMiner 全球科技情报大资料探勘服务平台为基础,聘请领域专家作为顾问,结合人工智能自动生成技术,以严谨、严肃、负责的态度制作释出的人工智能技术评论及人才分析。报告内容涵盖技术趋势、前沿预测、人才分布、实力对比、以及洞察情报等。

2018 年共释出 14 份技术报告(主题包括:自动驾驶 [基础版]、机器人、区块链、行为经济学、机器翻译、通讯与人工智能、自动驾驶、自然语言处理、计算机图形学、超级计算机、3D 打印、智慧机器人、人脸识别、人工智能芯片),累计阅读量超过 120 万人次。本次将新发布“知识图谱研究报告”和“资料探勘研究报告”。

本文为机器之心报道,转载请联络本公众号获得授权。

2019-01-22 02:38:00

相关文章