[ 源代码: python-jieba ]
软件包:python3-jieba(0.39-4)
结巴中文文本分词工具(Python 3)
“结巴”(Jieba)是一款基于 HMM 模型和 Viterbi 算法的高精确度中文文本分词工具。它使用了动态规划算法以基于单词频率寻找最可能的组合方式。
它支持以下类型的分词模式:
* 精确模式,试图将句子分为最精确的分段,适合文本分析。 * 完整模式,从句子中获取所有可能的文本。快速但是不精确。 * 搜索引擎模式,基于精确模式,视图将长单词切分为数个短单词,可能使召回率提升。适合搜索引擎。同样支持繁体中文和自定义词典。
本软件包将安装用于 Python 3 的库。
其他与 python3-jieba 有关的软件包
|
|
|
|
-
- dep: python3
- 交互式高级面向对象语言(默认 python3 版本)
-
- sug: python-jieba-doc
- Jieba Chinese text segmenter (common documentation)