python - Lemmatize 法语文本

我有一些法语文本需要以某种方式处理。为此，我需要:

首先，将文本标记为单词
然后对这些词进行词形还原以避免多次处理同一个词根

据我所知，NLTK 中的 wordnet lemmatizer 仅适用于英语。当我给它“voudrais”等时，我想要一些可以返回“vouloir”的东西。由于撇号，我也无法正确标记。任何指针将不胜感激。 :)

最佳答案

我找到的最好的解决方案是 spacy，它似乎可以完成这项工作

安装:

pip3 install spacy
python3 -m spacy download fr_core_news_md

使用方法:

import spacy
nlp = spacy.load('fr_core_news_md')

doc = nlp(u"voudrais non animaux yeux dors couvre.")
for token in doc:
    print(token, token.lemma_)

结果:

voudrais vouloir
non non
animaux animal
yeux oeil
dors dor
couvre couvrir

查看文档了解更多详情:https://spacy.io/models/fr && https://spacy.io/usage

关于python - Lemmatize 法语文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13131139/

上一篇：python - 如何在 Python 中跳出 while 循环？

下一篇：python - 子类 - 来自父类(super class)的参数

相关文章：

java - 如何在 Java 中检索词素的所有变体？

python - 如何使用重复键在 Pandas 中旋转此数据框？

python - 如何检查数组是否在 Python 中的数组列表中？

python - 反混淆:简化 Python3 表达式

python - nltk 语料库 tweeter_sample 按类别

postgresql - PostgreSQL 的 to_tsvector 函数可以返回标记/单词而不是词素吗？

python - 如何从词干提取中排除某些名称和术语 (Python NLTK SnowballStemmer (Porter2))

python - Pandas 数据清理

python - NLTK 停用词删除问题

python - R 或 python 中的 Lemmatizer(am，are，is -> be？)