我一直在 NLTK 中使用一堆词干分析器和词形还原器。 ,但没有人做我想要的。我有一堆词,比如“放射科医生”、“放射学”、“心脏病学家”、“心脏病学”等等……我想让*学者与*学处于同一桶中。我已经在 Python 中尝试过 PorterStemmer、SnowballStemmer 和 WordNet 的 Lemmatizer,但没有任何方法将它们发送到同一个存储桶。似乎词干应该可以实现这一点,而且这些词并不是非常罕见。您将如何实现预期的结果?
最佳答案
你看过Morfessor吗?它具有一系列变形分割算法。显然,使用此工具可以实现您正在寻找的分析类型。这是链接[1]:http://asr.aalto.fi/morfessordemo/
关于python - 如何让 *logger 和 *ology 这样的词词干/词形还原为相同的词根?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36464366/