This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
info:nlp:chinese_word_segmentation [2022/11/11 23:09] zhwiki created |
info:nlp:chinese_word_segmentation [2022/11/12 04:54] (current) zhwiki [分词库] |
||
---|---|---|---|
Line 10: | Line 10: | ||
文本聚类,根据内容生成分类(行业分类) | 文本聚类,根据内容生成分类(行业分类) | ||
- | 分词库 | + | ===== 分词库 ===== |
Python的中文分词库有很多,常见的有: | Python的中文分词库有很多,常见的有: | ||
- | jieba(结巴分词) | + | * [[https://github.com/nltk/nltk | nltk]],NLTK(the Natural Language Toolkit)是一套自然语言处理工具集,包括Python模块,数据集。 |
- | THULAC(清华大学自然语言处理与社会人文计算实验室) | + | * [[ https://github.com/fxsjy/jieba | jieba(结巴分词)]],支持四种分词模式:精确模式、全模式、搜索引擎模式、paddle模式,支持繁体分词,支持自定义词典。三年前更新。 |
- | pkuseg(北京大学语言计算与机器学习研究组) | + | * [[ http://thulac.thunlp.org/ | THULAC(清华大学自然语言处理与社会人文计算实验室)]],一个高效的中文词法分析工具包。Python版4年前更新。 |
- | SnowNLP | + | * [[ https://github.com/lancopku/pkuseg-python | pkuseg(北京大学语言计算与机器学习研究组)]],一个多领域中文分词工具包 支持细分领域分词,支持用户自训练模型。两年前更新。 |
- | pynlpir | + | * [[ https://github.com/isnowfy/snownlp | SnowNLP ]],个人项目,六年前更新。 |
- | CoreNLP | + | * [[ https://github.com/tsroten/pynlpir | pynlpir]],PyNLPIR 是 NLPIR/ICTCLAS 中文分词软件的Python封装。 |
- | pyltp | + | * [[ https://github.com/Lynten/stanford-corenlp | CoreNLP(斯坦福CoreNLP) ]],需要Java 1.8以上支持。五年前更新。 |
+ | * [[ https://github.com/HIT-SCIR/pyltp | pyltp ]],pyltp 是 语言技术平台(Language Technology Platform, LTP)的 Python 封装。目前基于Pytorch的LTP4 已经发布,而PyLTP将会只有非常有限的维护。 | ||
+ | * [[ https://github.com/HIT-SCIR/ltp | LTP 4 ]],哈工大社会计算与信息检索研究中心(HIT-SCIR)的LTP(Language Technology Platform) 提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。持续更新。 | ||
+ | * [[https://github.com/duanhongyi/genius | Genius ]],Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。个人项目,五年前更新。 | ||
+ | * [[https://github.com/rockyzhengwu/FoolNLTK | FoolNLTK ]],中文处理工具包,基于BiLSTM模型训练而成,包含分词,词性标注,实体识别。个人项目,三年前更新。 | ||
通常前三个是比较经常见到的,主要在易用性/准确率/性能都还不错。我个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。 | 通常前三个是比较经常见到的,主要在易用性/准确率/性能都还不错。我个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。 |