This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | |||
info:nlp:chinese_word_segmentation [2022/11/12 04:42] zhwiki |
info:nlp:chinese_word_segmentation [2022/11/12 04:54] (current) zhwiki [分词库] |
||
---|---|---|---|
Line 23: | Line 23: | ||
* [[ https://github.com/HIT-SCIR/pyltp | pyltp ]],pyltp 是 语言技术平台(Language Technology Platform, LTP)的 Python 封装。目前基于Pytorch的LTP4 已经发布,而PyLTP将会只有非常有限的维护。 | * [[ https://github.com/HIT-SCIR/pyltp | pyltp ]],pyltp 是 语言技术平台(Language Technology Platform, LTP)的 Python 封装。目前基于Pytorch的LTP4 已经发布,而PyLTP将会只有非常有限的维护。 | ||
* [[ https://github.com/HIT-SCIR/ltp | LTP 4 ]],哈工大社会计算与信息检索研究中心(HIT-SCIR)的LTP(Language Technology Platform) 提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。持续更新。 | * [[ https://github.com/HIT-SCIR/ltp | LTP 4 ]],哈工大社会计算与信息检索研究中心(HIT-SCIR)的LTP(Language Technology Platform) 提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。持续更新。 | ||
+ | * [[https://github.com/duanhongyi/genius | Genius ]],Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。个人项目,五年前更新。 | ||
+ | * [[https://github.com/rockyzhengwu/FoolNLTK | FoolNLTK ]],中文处理工具包,基于BiLSTM模型训练而成,包含分词,词性标注,实体识别。个人项目,三年前更新。 | ||
通常前三个是比较经常见到的,主要在易用性/准确率/性能都还不错。我个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。 | 通常前三个是比较经常见到的,主要在易用性/准确率/性能都还不错。我个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。 |