Differences

This shows you the differences between two versions of the page.

--- info:nlp:chinese_word_segmentation [2022/11/11 23:09]
zhwiki created
+++ info:nlp:chinese_word_segmentation [2022/11/12 04:54] (current)
zhwiki [分词库]
@@ Line 10: / Line 10: @@
     文本聚类，根据内容生成分类（行业分类）
-分词库
+===== 分词库 =====
 Python的中文分词库有很多，常见的有：
-    jieba（结巴分词）
+  * [[https://github.com/nltk/nltk | nltk]]，NLTK（the Natural Language Toolkit）是一套自然语言处理工具集，包括Python模块，数据集。
-    THULAC（清华大学自然语言处理与社会人文计算实验室）
+  * [[ https://github.com/fxsjy/jieba  | jieba（结巴分词）]]，支持四种分词模式：精确模式、全模式、搜索引擎模式、paddle模式，支持繁体分词，支持自定义词典。三年前更新。
-    pkuseg（北京大学语言计算与机器学习研究组）
+  *  [[ http://thulac.thunlp.org/ |  THULAC（清华大学自然语言处理与社会人文计算实验室）]]，一个高效的中文词法分析工具包。Python版4年前更新。
-    SnowNLP
+  *  [[ https://github.com/lancopku/pkuseg-python  | pkuseg（北京大学语言计算与机器学习研究组）]]，一个多领域中文分词工具包 支持细分领域分词，支持用户自训练模型。两年前更新。
-    pynlpir
+  *  [[ https://github.com/isnowfy/snownlp | SnowNLP ]]，个人项目，六年前更新。
-    CoreNLP
+  *  [[ https://github.com/tsroten/pynlpir | pynlpir]]，PyNLPIR 是 NLPIR/ICTCLAS 中文分词软件的Python封装。
-    pyltp
+  *  [[ https://github.com/Lynten/stanford-corenlp | CoreNLP（斯坦福CoreNLP） ]]，需要Java 1.8以上支持。五年前更新。
+  *  [[ https://github.com/HIT-SCIR/pyltp | pyltp ]]，pyltp 是 语言技术平台（Language Technology Platform, LTP）的 Python 封装。目前基于Pytorch的LTP4 已经发布，而PyLTP将会只有非常有限的维护。
+  * [[ https://github.com/HIT-SCIR/ltp | LTP 4 ]]，哈工大社会计算与信息检索研究中心（HIT-SCIR）的LTP（Language Technology Platform） 提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。持续更新。
+  * [[https://github.com/duanhongyi/genius | Genius ]]，Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。个人项目，五年前更新。
+  * [[https://github.com/rockyzhengwu/FoolNLTK | FoolNLTK ]]，中文处理工具包，基于BiLSTM模型训练而成，包含分词，词性标注，实体识别。个人项目，三年前更新。
 通常前三个是比较经常见到的，主要在易用性/准确率/性能都还不错。我个人常用的一直都是结巴分词（比较早接触），最近使用pkuseg，两者的使用后面详细讲。

zhwiki

User Tools

Site Tools

Differences

Page Tools