我正在使用七个词典来计算包含论坛帖子的数据集的情感分数。除了消除所有噪音(例如空格、特殊字符、数字和停用词)之外,为什么词干也很重要?
我正在使用 SentimentAnalysis 软件包中的Harvard.IV、Qdap、Henry's Financial 词典和 Loughran-McDonald Financial 词典,以及 AFINN、NRC 和 BING 词典。
最佳答案
词干提取对于情感分析很重要,这是一个有争议的说法。
首先,具有不同情感值或意义的不同术语形成相同的词干。您可以查看Porter Stemmer on Harvard General Inquirer 。页面中的一个示例是 closeness 和 close 源于同一个术语,其中一个术语具有积极意义第一个位置,另一个位置为负。
人们可以争论词干提取对于情感分析很重要的另一点是,词干提取后句法和语义处理几乎是不可能的。例如,如果想要对术语进行后置标记,为句子创建解析树或查找否定的触发器和范围;词干提取不是被视为应用的过程。
例如,如果我们的句子中有术语 pretty,并且我们想要确定该术语是形容词还是副词,其中 < em>漂亮女人是积极的,相当糟糕是消极的,应用词干中断后标记。
干杯
关于r - 为什么词干提取对于情感分析很重要,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53145840/