python - 如何让 *logger 和 *ology 这样的词词干/词形还原为相同的词根?

标签 python nltk stemming lemmatization

我一直在 NLTK 中使用一堆词干分析器和词形还原器。 ,但没有人做我想要的。我有一堆词,比如“放射科医生”、“放射学”、“心脏病学家”、“心脏病学”等等……我想让*学者与*学处于同一桶中。我已经在 Python 中尝试过 PorterStemmer、SnowballStemmer 和 WordNet 的 Lemmatizer,但没有任何方法将它们发送到同一个存储桶。似乎词干应该可以实现这一点,而且这些词并不是非常罕见。您将如何实现预期的结果?

最佳答案

你看过Morfessor吗?它具有一系列变形分割算法。显然,使用此工具可以实现您正在寻找的分析类型。这是链接[1]:http://asr.aalto.fi/morfessordemo/

关于python - 如何让 *logger 和 *ology 这样的词词干/词形还原为相同的词根?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36464366/

相关文章:

algorithm - 在 Porter Stemming 算法中,包含 SS -> SS 等身份规则的目的是什么?

python - 德语词干分析器不会删除女性后缀 "-in"和 "-innen"

python - letsencrypt 失败,ImportError : No module named interface

python - mypy:如何解决这个元组困惑

python - Matplotlib:如何添加图例以散点图颜色?

python - 使用 NLTK 将分词器组合成语法和解析器

python - CondaHTTPError - 安装 NLTK 时出现 SSL 错误

python - 如何通过 python 源脚本

python - 如何在 Anaconda 中安装 nltk_contrib

python - 如何通过对嵌套列表中的单词进行词干处理来获取嵌套列表?