r - 为什么词干提取对于情感分析很重要

标签 r sentiment-analysis text-analysis stemming

我正在使用七个词典来计算包含论坛帖子的数据集的情感分数。除了消除所有噪音(例如空格、特殊字符、数字和停用词)之外,为什么词干也很重要?

我正在使用 SentimentAnalysis 软件包中的Harvard.IV、Qdap、Henry's Financial 词典和 Loughran-McDonald Financial 词典,以及 AFINN、NRC 和 BING 词典。

最佳答案

词干提取对于情感分析很重要,这是一个有争议的说法。

首先,具有不同情感值或意义的不同术语形成相同的词干。您可以查看Porter Stemmer on Harvard General Inquirer 。页面中的一个示例是 closenessclose 源于同一个术语,其中一个术语具有积极意义第一个位置,另一个位置为负。

人们可以争论词干提取对于情感分析很重要的另一点是,词干提取后句法和语义处理几乎是不可能的。例如,如果想要对术语进行后置标记,为句子创建解析树或查找否定的触发器和范围;词干提取不是被视为应用的过程。

例如,如果我们的句子中有术语 pretty,并且我们想要确定该术语是形容词还是副词,其中 < em>漂亮女人是积极的,相当糟糕是消极的,应用词干中断后标记。

干杯

关于r - 为什么词干提取对于情感分析很重要,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53145840/

相关文章:

r - 包的功能列表

python - 如何为 "not"、 "no"和 "never"之后的字符串中的否定词添加标签

java - 检索 Java 中函数执行的代码

algorithm - 性别检测算法如何工作?

python - 如何在用于主题建模的引导式 LDA 中生成术语矩阵?

r - 检查向量是否至少包含 R 中另一个向量的一个元素

r - 根据 dplyr 中多个数据帧中的值将列添加到数据帧

java - 如何让斯坦福 CoreNLP 使用您创建的训练模型?

python - 在 PySpark 中使用字典进行情感分析

python - 在 ElasticNetCV 中使用相当于 lambda 属性的 python 时遇到问题