semantic-markup - 查找与名词输入相关的形容词

标签 semantic-markup wordnet semantic-analysis part-of-speech

我想尝试根据用户在搜索框中输入的词来确定用户的个性特征。下面是一个例子:

搜索词 : “电脑”

检测到的个性/描述 : 分析的、逻辑的、系统的、有条理的

我知道这项任务非常重要。我以前使用过 WordNet,但我不确定它是否包含每个名词节点的形容词云。词性标注本身就是一个野兽,所以我不确定建立自己的语料库并搜索与关键字共存的形容词词频是最好的主意,但我将在下面解释。

我目前正在使用 Wikipedia 转储,在删除停用词(和、或、of、to、a 等...)后处理每篇文章的词频。我的想法是可能在整个语料库中搜索形容词(使用 WordNet 进行词性标注)和名词的共存(例如,形容词 逻辑 经常与名词 计算机 共存) ,并根据词干形容词的相对频率,判断它是否与名词在语义上相关。潜在的应用是巨大的。

另一个想法是对名词进行词干,搜索以该词干开头的形容词,然后搜索该形容词的同义词。例子:

搜索词 : “电脑”

阀杆 :“计算-”

带词干的形容词 : 计​​算

同义词 :???

问题是名词的形容词形式并不总是有形容词形式,有些名词词干会与非常错误的形容词相匹配。 *坏*示例:

搜索词 :“运行”(严格来说是动名词,但仍然是名词)

阀杆 : “跑-”

带词干的形容词 : 流鼻涕

同义词 : 不是我想要的词。想找到诸如“运动”、“上进”、“纪律严明”之类的词

这是以前做过的事情吗?你对我如何处理这个问题有什么建议吗?这几乎就像我正在寻求为文档中的“重要”词生成形容词云。

编辑:我意识到这个问题没有“正确”的答案。我将奖励任何提出具有最佳理论潜力的方法的人。

最佳答案

WordNet 没有你需要的东西——它(几乎)不包含关于不是同义词或没有分层链接(椅子->家具)等的词之间关系的信息。

只需使用 OpenNLP (http://opennlp.apache.org) 并解析大量文本 - OpenNLP 解析器将检测句子中的动词-形容词/名词-形容词,让您可以构建关系数据库。
此时剩下的就是根据预定义的形容词列表过滤数据库。

关于semantic-markup - 查找与名词输入相关的形容词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11504940/

相关文章:

php - 使用 SimpleXML 解析 PHP 中嵌套的 XML/RDF 命名空间元素

python - NLTK——WordNet : list of long words

nlp - Brown Corpus在基于WordNet的语义相似度测量中的作用是什么

c - 语义规则/抽象语法树规则

html - 在导航栏上使用 `aria-expanded` 是否有意义?

html - 语义标记 : Why &lt;header&gt; instead of <div id ="header">?

html - CSS 网格和语义 HTML

python - 从 NLTK for Python 中的同义词集列表中提取单词

python - 如何在 Python 中使用 WordNet 获取词域?

stanford-nlp - 斯坦福 NLP 解析器是否有语义角色标记方法?