我正在做一个关于 Twitter 情绪分析的项目,但有一些事情我在思考。
由于推文非常短(少于 140 个字符),文本分析技术最适用。例如。词干提取是否与 - 让我们说 - 长篇文章一样有效?
n-gram 呢?简短的推文对他们来说是好是坏?
k-nearest 会比词性标注更准确吗?
随着时间的推移,我的自定义 Twitter 数据集会变得无关紧要/损坏吗?由于 Twitter 及其上的信息变化如此之快,这也是我的主要担忧。
非常感谢您的宝贵时间。
PS:您有什么好的 Twitter 情绪数据集吗?如果能定期更新就好了。
最佳答案
我做了一些类作业,分析名人的推文并比较他们的相似之处。
您认为最重要的是推文的长度。在 140 个字符时,很多单词都被缩短了,或者是不寻常的“txt-speech”。因此,即使是众所周知的词干分析器,如 Porter会给出一些奇怪的结果。最好保留几乎所有内容,并仅在字数、向量等之后归一化。
对于从单词进行推断,n-gram 和后续链接是质量推断的重要因素。我只能忍受 4-gram 的空间和时间要求,但即使创建简单的 2-gram 也有很大的改进。
如果您注意到我之前说过“几乎所有”。在我只关注流行的名人推文的情况下,我遇到了一个问题,即他们的很多推文都是链接或对他们的事件或赞助商等的喊叫。所以很大一部分是删除大量重复的垃圾邮件。
对于提取准确情绪或您正在寻找的任何度量的方法,我会首先尝试基于朴素贝叶斯的方法。它对于基线来说简单且相对准确。 K-means 会做得相当好,但请记住,它不考虑方差和协方差,但仍然是另一个值得尝试的基线。
希望能提供一些见解。
关于python - 推特情绪分析技术,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13713817/