APP下载

Ansj与hanlp分词工具对比

消息来源:baojiabao.com 作者: 发布时间:2024-05-17

报价宝综合消息Ansj与hanlp分词工具对比

一、Ansj

1、利用DicAnalysis可以自定义词库:

2、但是自定义词库存在局限性,导致有些情况无效:

比如:“不好用“的正常分词结果:“不好,用”。

(1)当自定义词库”好用“时,词库无效,分词结果不变。

(2)当自定义词库

“不好用”时,分词结果为:“不好用”,即此时自定义词库有效。

3、由于版本问题,可能DicAnalysis, ToAnalysis等类没有序列化,导致读取hdfs资料出错

此时需要继承序列化界面

1|case class myAnalysis() extends DicAnalysis with Serializable

2|val seg = new myAnalysis()

二、HanLP

同样可以通过CustomDictionary自定义词库:

但是在统计分词中,并不保证自定义词典中的词一定被切分出来,因此使用者可在理解后果的情况下通过

1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)强制生效

并发问题:

CustomDictionary是全域性变数,不能在各节点中更改,否则会出现并发错误。

但是HanLP.segment(sentence),只有一个引数,不能指定CustomDictionary,导致在各个excutors计算的时候全域性CustomDictionary无效。

由于CustomDictionary是全域性变数,因此我采用一个方式:每个分割槽都对CustomDictionary加锁并新增一次词库,效能影响较小:

2019-10-28 22:57:00

相关文章