python - 用于情感分析的短语语料库

标签 python nlp nltk

美好的一天, 我正在尝试用 python 编写一个情感分析应用程序(使用朴素贝叶斯分类器),目的是将新闻中的短语分类为正面或负面。 我在为此找到合适的语料库时遇到了一些麻烦。 我尝试使用“General Inquirer”(http://www.wjh.harvard.edu/~inquirer/homecat.htm),它工作正常,但我有一个大问题。 由于它是单词列表,而不是短语列表,因此在尝试标记以下句子时我发现了以下问题:

He is not expected to win.

这句话归类为正面,是错误的。其原因在于“赢”是肯定的,而“不”没有任何意义,因为“不赢”是一个短语。 任何人都可以建议语料库或解决该问题的方法吗? 非常感谢您的帮助和洞察力。

最佳答案

例如,参见 Councll、McDonald 和 Velikovich 的“什么是好的,什么不是:学习对否定的范围进行分类以改进情绪分析”

http://dl.acm.org/citation.cfm?id=1858959.1858969

和跟进,

http://scholar.google.com/scholar?cites=3029019835762139237&as_sdt=5,33&sciodt=0,33&hl=en

例如作者:莫兰特等人,2011 年

http://eprints.pascal-network.org/archive/00007634/

关于python - 用于情感分析的短语语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10789834/

相关文章:

python - 使用 Python 自然语言工具包阅读孟加拉语

nlp - 将一阶逻辑表达式映射到数据库条目(从 FOL 表达式中提取信息)

python - 如何提取句子中的主语及其各自的从属短语?

python - numpy unique 总是一样的吗?

python - 在 tkinter 中离开消息框后按下按钮

python - 使用上一列中的值填充 pandas 数据框中的 "None"值

python - 斯坦福依赖解析器设置和 NLTK

python - python 中的快速/优化 N-gram 实现

Python:NLTK 或其他包中的布朗聚类?

python - Django,自定义模板过滤器 - 正则表达式问题