我有一些法语文本需要以某种方式处理。为此,我需要:
- 首先,将文本标记为单词
- 然后对这些词进行词形还原以避免多次处理同一个词根
据我所知,NLTK 中的 wordnet lemmatizer 仅适用于英语。当我给它“voudrais”等时,我想要一些可以返回“vouloir”的东西。由于撇号,我也无法正确标记。任何指针将不胜感激。 :)
最佳答案
我找到的最好的解决方案是 spacy,它似乎可以完成这项工作
安装:
pip3 install spacy
python3 -m spacy download fr_core_news_md
使用方法:
import spacy
nlp = spacy.load('fr_core_news_md')
doc = nlp(u"voudrais non animaux yeux dors couvre.")
for token in doc:
print(token, token.lemma_)
结果:
voudrais vouloir
non non
animaux animal
yeux oeil
dors dor
couvre couvrir
查看文档了解更多详情:https://spacy.io/models/fr && https://spacy.io/usage
关于python - Lemmatize 法语文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13131139/