python - Lemmatize 法语文本

标签 python nltk lemmatization

我有一些法语文本需要以某种方式处理。为此,我需要:

  • 首先,将文本标记为单词
  • 然后对这些词进行词形还原以避免多次处理同一个词根

据我所知,NLTK 中的 wordnet lemmatizer 仅适用于英语。当我给它“voudrais”等时,我想要一些可以返回“vouloir”的东西。由于撇号,我也无法正确标记。任何指针将不胜感激。 :)

最佳答案

我找到的最好的解决方案是 spacy,它似乎可以完成这项工作

安装:

pip3 install spacy
python3 -m spacy download fr_core_news_md

使用方法:

import spacy
nlp = spacy.load('fr_core_news_md')

doc = nlp(u"voudrais non animaux yeux dors couvre.")
for token in doc:
    print(token, token.lemma_)

结果:

voudrais vouloir
non non
animaux animal
yeux oeil
dors dor
couvre couvrir

查看文档了解更多详情:https://spacy.io/models/fr && https://spacy.io/usage

关于python - Lemmatize 法语文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13131139/

相关文章:

java - 如何在 Java 中检索词素的所有变体?

python - 如何使用重复键在 Pandas 中旋转此数据框?

python - 如何检查数组是否在 Python 中的数组列表中?

python - 反混淆:简化 Python3 表达式

python - nltk 语料库 tweeter_sample 按类别

postgresql - PostgreSQL 的 to_tsvector 函数可以返回标记/单词而不是词素吗?

python - 如何从词干提取中排除某些名称和术语 (Python NLTK SnowballStemmer (Porter2))

python - Pandas 数据清理

python - NLTK 停用词删除问题

python - R 或 python 中的 Lemmatizer(am,are,is -> be?)