我即将开始一个项目,我的最终目标是将短文本分类为:“可能对访问地点 X 感兴趣”:“不感兴趣或中性”。地方由一组关键字描述(例如膳食或里程类型,如“中国食品”)。所以理想情况下,我需要一些方法来基于短文本分析来模拟用户的欲望——然后根据欲望分数或欲望概率进行分类——这个领域有什么最先进的吗?谢谢
最佳答案
这个问题和文本的情感分析完全一样。但是,您似乎有一个“中立”的意见,而不是传统的二元分类。最先进的情感分析高度依赖于领域。例如,在电影分类方面表现出色的技术在商业产品上表现不佳。
此外,即使是特征选择也高度依赖于领域。例如,unigrams 在电影评论分类方面效果很好,但 unigrams 和 bigrams 的组合在 Twitter 文本分类方面表现更好。
我最好的建议是“尝试”不同的功能。由于您正在查看短文本,因此推特可能是一个很好的激励示例。我会从 unigrams 和 bigrams 作为我的特征开始。确切的算法不是很重要。 SVM 通常在正确调整参数的情况下表现非常好。在对更大的数据集进行实验之前,使用少量保留数据来调整这些参数。
这个问题更有趣的部分是排名!最近在以下论文中为此目的使用了“纯度分数”(我想说它们是最先进的):
- 情绪总结:评估和了解用户偏好。勒曼、布莱尔-戈登森和麦克唐纳。 EACL。 2009.
- 网络衍生极性词典的可行性。 Velikovich、Blair-Goldensohn、Hannan 和 McDonald。 NAACL。 2010.
关于nlp - 短文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10281893/