美好的一天, 我正在尝试用 python 编写一个情感分析应用程序(使用朴素贝叶斯分类器),目的是将新闻中的短语分类为正面或负面。 我在为此找到合适的语料库时遇到了一些麻烦。 我尝试使用“General Inquirer”(http://www.wjh.harvard.edu/~inquirer/homecat.htm),它工作正常,但我有一个大问题。 由于它是单词列表,而不是短语列表,因此在尝试标记以下句子时我发现了以下问题:
He is not expected to win.
这句话归类为正面,是错误的。其原因在于“赢”是肯定的,而“不”没有任何意义,因为“不赢”是一个短语。 任何人都可以建议语料库或解决该问题的方法吗? 非常感谢您的帮助和洞察力。
最佳答案
例如,参见 Councll、McDonald 和 Velikovich 的“什么是好的,什么不是:学习对否定的范围进行分类以改进情绪分析”
http://dl.acm.org/citation.cfm?id=1858959.1858969
和跟进,
http://scholar.google.com/scholar?cites=3029019835762139237&as_sdt=5,33&sciodt=0,33&hl=en
例如作者:莫兰特等人,2011 年
关于python - 用于情感分析的短语语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10789834/