User Tools

Site Tools


info:nlp:chinese_word_segmentation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
info:nlp:chinese_word_segmentation [2022/11/11 23:09]
zhwiki created
info:nlp:chinese_word_segmentation [2022/11/12 04:54] (current)
zhwiki [分词库]
Line 10: Line 10:
     文本聚类,根据内容生成分类(行业分类)     文本聚类,根据内容生成分类(行业分类)
  
-分词库+===== 分词库 ​=====
  
 Python的中文分词库有很多,常见的有: Python的中文分词库有很多,常见的有:
  
-    ​jieba(结巴分词) +  * [[https://​github.com/​nltk/​nltk | nltk]],NLTK(the Natural Language Toolkit)是一套自然语言处理工具集,包括Python模块,数据集。 
-    THULAC(清华大学自然语言处理与社会人文计算实验室) +  * [[ https://​github.com/​fxsjy/​jieba ​ | jieba(结巴分词)]],支持四种分词模式:精确模式、全模式、搜索引擎模式、paddle模式,支持繁体分词,支持自定义词典。三年前更新。 
-    pkuseg(北京大学语言计算与机器学习研究组) +  ​* ​ [[ http://​thulac.thunlp.org/​ |  ​THULAC(清华大学自然语言处理与社会人文计算实验室)]],一个高效的中文词法分析工具包。Python版4年前更新。 
-    SnowNLP +  ​* ​ [[ https://​github.com/​lancopku/​pkuseg-python ​ | pkuseg(北京大学语言计算与机器学习研究组)]],一个多领域中文分词工具包 支持细分领域分词,支持用户自训练模型。两年前更新。 
-    pynlpir +  ​* ​ [[ https://​github.com/​isnowfy/​snownlp | SnowNLP ​]],个人项目,六年前更新。 
-    CoreNLP +  ​* ​ [[ https://​github.com/​tsroten/​pynlpir ​| pynlpir]],PyNLPIR 是 NLPIR/​ICTCLAS 中文分词软件的Python封装。 ​ 
-    pyltp+  ​* ​ [[ https://​github.com/​Lynten/​stanford-corenlp | CoreNLP(斯坦福CoreNLP) ]],需要Java 1.8以上支持。五年前更新。 
 +  ​* ​ [[ https://​github.com/​HIT-SCIR/​pyltp | pyltp ]],pyltp 是 语言技术平台(Language Technology Platform, LTP)的 Python 封装。目前基于Pytorch的LTP4 已经发布,而PyLTP将会只有非常有限的维护。 
 +  * [[ https://​github.com/​HIT-SCIR/​ltp | LTP 4 ]],哈工大社会计算与信息检索研究中心(HIT-SCIR)的LTP(Language Technology Platform) 提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。持续更新。 
 +  * [[https://​github.com/​duanhongyi/​genius | Genius ]],Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。个人项目,五年前更新。 
 +  * [[https://​github.com/​rockyzhengwu/​FoolNLTK | FoolNLTK ]],中文处理工具包,基于BiLSTM模型训练而成,包含分词,词性标注,实体识别。个人项目,三年前更新。
  
 通常前三个是比较经常见到的,主要在易用性/​准确率/​性能都还不错。我个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。 通常前三个是比较经常见到的,主要在易用性/​准确率/​性能都还不错。我个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。
info/nlp/chinese_word_segmentation.1668226147.txt.gz · Last modified: 2022/11/11 23:09 by zhwiki