r - 定义单词的类别

标签 r nlp

我有一组 20'000 个单词和简单短语。我需要选择每个单词并定义它的一般概念或类别。

因此,如果我选择“曲棍球”,它应该属于一个大的“体育”类别。如果是“巴拉克·奥巴马”,那么就是“政治”。这是我的单词列表中的示例:

israel
illness
face
experts
throat
tory
moments
numerous

所有奇怪的东西都可以归入“常规”类别。

这就是我的问题。以下是我的想法,你可能会忽略,因为我不知道如何处理这个问题。

可能我正在寻找某种可以定义单词的一般概念的开放式词典或 API。我正在考虑使用一本简单的字典,并通过它运行每个单词来解析它的经济学类别。但并不是所有的词都有它。

最佳答案

我可以给你指http://dbpedia.org/ 。它是许多维基百科信息框数据的本体,并且具有用于查询的 sparql 端点。我两年前用过它,但是api似乎已经改变了,所以我现在不能给你一个例子。但它有一个非常好的文档。

关于r - 定义单词的类别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39511102/

相关文章:

r - 如何编写dplyr组以分隔文件?

r - 一组内的多个箱线图

nlp - 如何比较语料库的复杂度?

python - 使用 Python Spacy 从简单被动语态句子中提取实体

Shiny 中的 R 大型数据表显示

r - 基于一个条形图对并排条形图进行排序,ggplot2

python - 无需安装即可使用 NLTK

nlp - scikit-learn TfidfVectorizer 是如何计算 TF-IDF 的

python - 如何在句子级别对段落中的文本进行热编码?

r - 在ggplot中的x轴上添加假刻度