APP下载

千呼万唤十多年!中研院终于开源释出国产自动化中文断词工具

消息来源:baojiabao.com 作者: 发布时间:2024-05-17

报价宝综合消息千呼万唤十多年!中研院终于开源释出国产自动化中文断词工具

中研院近日正式开源释出了自行研发多年的自动化中文断词程式,并已放上GitHub。

图片来源: 

GitHub

从事中文自然语言处理(NLP)研究的中研院CKIP Lab中文词知识库小组,近日正式开源释出了自行研发多年的一套中文断词程式,提供给台湾从事中文自然语言领域的学术研究者或开发者来使用,这也意谓著,台湾终于有了一套国产的自动化中文断词工具可以拿来用,而且完全开源,目前已放上GitHub平台上,开放给大家试用。

中文NLP研究常用到的自动化中文断词工具,实际上,中研院CKIP Lab中文词知识库小组自己也有一套国产品,但以前没有开源,仅提供安装执行档,并未提供源代码,因此,过去使用上一直不如中国开源的中文断词工具Jieba(结巴)好用。

不过,这次中研院决定将自己的中文断词工具开源释出,并放上程式代管平台GitHub上,对于台湾中文NLP开发者或研究者来说,无疑是一大福音。现在使用者已经可以透过该平台来安装使用该工具,并可以依据自己需求,来修改源代码,增加自己想要的新功能或特色。

根据该工具的文件说明,这套CkipTagger中文处理工具,不只提供繁体中文断词的功能,也加入词性标注和18类专有名词的实体辨识(Named entity recognition)等功能,甚至当以多达5万句的ASBC 4.0汉语语料库测试集,来进行中文断词测试时,CkipTagger表现远高于中国的结巴,中研院在中文断词准确度可达到97.49%,相较之下,中国的结巴只有90.51%。

新版本也提供几大特色,包括了加强断词表现、可以不自动删/改字,并且能够支援不限长度的句子,另外,新版也加入使用者自订功能,提供参考/强制 词典的自订功能。

不只开源中文断词程式,我们今年初采访该词库小组计划负责人马伟云时,他也提到,接下来,将用4年的时间,将中文维基百科上的百万词汇,自动建立其知识图谱,来打造成为一个具有百万中文词库的知识库。他更计划以现有9万词汇所建立的知识图谱架构,发展相关的自然语言处理工具,可以自动建立其知识图谱。

2019-09-04 15:48:00

相关文章