User Tools

Site Tools


info:nlp:chinese_word_segmentation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
info:nlp:chinese_word_segmentation [2022/11/12 04:42]
zhwiki
info:nlp:chinese_word_segmentation [2022/11/12 04:54] (current)
zhwiki [分词库]
Line 23: Line 23:
   *  [[ https://​github.com/​HIT-SCIR/​pyltp | pyltp ]],pyltp 是 语言技术平台(Language Technology Platform, LTP)的 Python 封装。目前基于Pytorch的LTP4 已经发布,而PyLTP将会只有非常有限的维护。   *  [[ https://​github.com/​HIT-SCIR/​pyltp | pyltp ]],pyltp 是 语言技术平台(Language Technology Platform, LTP)的 Python 封装。目前基于Pytorch的LTP4 已经发布,而PyLTP将会只有非常有限的维护。
   * [[ https://​github.com/​HIT-SCIR/​ltp | LTP 4 ]],哈工大社会计算与信息检索研究中心(HIT-SCIR)的LTP(Language Technology Platform) 提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。持续更新。   * [[ https://​github.com/​HIT-SCIR/​ltp | LTP 4 ]],哈工大社会计算与信息检索研究中心(HIT-SCIR)的LTP(Language Technology Platform) 提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。持续更新。
 +  * [[https://​github.com/​duanhongyi/​genius | Genius ]],Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。个人项目,五年前更新。
 +  * [[https://​github.com/​rockyzhengwu/​FoolNLTK | FoolNLTK ]],中文处理工具包,基于BiLSTM模型训练而成,包含分词,词性标注,实体识别。个人项目,三年前更新。
  
 通常前三个是比较经常见到的,主要在易用性/​准确率/​性能都还不错。我个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。 通常前三个是比较经常见到的,主要在易用性/​准确率/​性能都还不错。我个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。
info/nlp/chinese_word_segmentation.1668246139.txt.gz · Last modified: 2022/11/12 04:42 by zhwiki