python - 如何提取葡萄牙语的名词/动词短语?

标签 python nlp text-mining spacy textblob

我找到了各种提取英语动词和名词短语的工具,包括 stackoverflow 中的一些问题。然而,我发现的技术似乎只适用于英文文本。我尝试过 spacy 和 textblob,但它们不会为葡萄牙语文本返回任何内容(在英语中完美运行)。

这是我尝试过的葡萄牙语: Spacy to extract specific noun phrase doc.noun_chunks 中的 block 非常适合英语,但是有人知道葡萄牙语中已有的技术吗?我正在搜索我所知道的所有地方。

最佳答案

noun_chunks 是针对每种语言单独实现的,因为基本名词短语看起来会有所不同:限定词和形容词出现的顺序是什么,相关的依赖关系和词性标记是什么,等等.

一些小细节可能有所不同,但我猜葡萄牙语名词 block 与西类牙语名词 block 非常相似,因此您可以使用 Spanish noun chunks iterator作为起点。西类牙语和葡萄牙语都使用依赖关系和通用依赖关系中的简单 POS 标签,因此我希望它很容易适应。

Spacy 没有任何内置的动词短语提取器,但基本思想与名词 block 类似:根据 POS 标签和依存关系树定义模式来识别要提取的短语。

关于python - 如何提取葡萄牙语的名词/动词短语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59533218/

相关文章:

java - JButton运行主方法

python - 重新分配从 Python 中的函数返回的值

python - 无法从 AWS Cloud9 上的 bs4 导入 BeautifulSoup

python - 将数据从 Django View 传递到 D3

java - 不使用正则表达式识别电子邮件字段

machine-learning - 我是否正确使用了词嵌入?

android - Android中是否有类似tidyverse package(R)的文本挖掘和数据分析插件?

string - RapidMiner 情绪分析

javascript - JS 发送带有 django 标签的 html

python - 如何把一个句子串拆分成单词,还要让标点符号成为一个单独的元素