python - 使用 python 查找希腊语中的单词类别(POS 标签)

标签 python nlp nltk wordnet pos-tagger

我目前正在开发一个文档分类应用程序。我将 python 与 NLTK 和 wordnet 一起用于英语,这使我能够找到单词的类别。我的问题是,我目前还没有找到在其他语言(例如希腊语)中执行相同操作的方法。

我在http://wordnet.okfn.gr/downloads/中找到了希腊语Wordnet 。 我将该文件夹保存在 NLTK 语料库文件夹中,并尝试使用以下命令加载它:

from nltk.corpus import wordnet-master

但我遇到了语法错误

SyntaxError: invalid syntax

如果我将名称更改为 wordnet_master,则会收到导入错误

ImportError: cannot import name 'wordnet_master'

对于如何导入希腊语 Wordnet 有什么建议吗?提前致谢

最佳答案

NLTK 的 wordnet 接口(interface)默认使用英语。调用 synsets() 时,可以使用附加的 lang 参数来指定您感兴趣的语言。与 wn 中的可用语言一起使用时.lang() 似乎工作正常。

以下是希腊语、西类牙语和意大利语的一些示例。

>>> from nltk.corpus import wordnet as wn
>>> wn.synsets('ενοχλώ', lang='ell')
[Synset('irritate.v.02'), Synset('harass.v.01'), Synset('tease.v.01')]
>>> wn.synsets('molestar', lang='spa')
[Synset('interrupt.v.02'), Synset('tease.v.02'), Synset('disturb.v.01'), Synset('faze.v.01'), Synset('annoy.v.01'), Synset('tease.v.01'), Synset('chafe.v.01'), Synset('trouble.v.02')]
>>> wn.synsets('annoiare', lang='ita')
[Synset('tire.v.02'), Synset('tire.v.01'), Synset('bore.v.01')]

a previous similar post ,使用包装类来强制执行默认语言,这可能对您的使用有好处。

关于python - 使用 python 查找希腊语中的单词类别(POS 标签),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40853150/

相关文章:

python - 检查变量是否为 SRE_Match

python - sklearn中CountVectorizer(binary=True)和n CountVectorizer(binary=False)有什么区别

python - 如何根据文档相似度对文本数据进行分组?

python 错误: ModuleNotFoundError: No module named 'NLTK'

python - 绘制词频和 NLTK

python - 使用Python Year 0的时间序列超出范围

python - 池映射未使用所有可用资源的可能原因

python - 在输入提示符下测试 python stdout

python - BERT 中变压器编码器和解码器的输入是什么?

ios - 语言标注器错误地标注为 'OtherWord'