nlp - 短文本分类

我即将开始一个项目，我的最终目标是将短文本分类为:“可能对访问地点 X 感兴趣”:“不感兴趣或中性”。地方由一组关键字描述(例如膳食或里程类型，如“中国食品”)。所以理想情况下，我需要一些方法来基于短文本分析来模拟用户的欲望——然后根据欲望分数或欲望概率进行分类——这个领域有什么最先进的吗？谢谢

最佳答案

这个问题和文本的情感分析完全一样。但是，您似乎有一个“中立”的意见，而不是传统的二元分类。最先进的情感分析高度依赖于领域。例如，在电影分类方面表现出色的技术在商业产品上表现不佳。

此外，即使是特征选择也高度依赖于领域。例如，unigrams 在电影评论分类方面效果很好，但 unigrams 和 bigrams 的组合在 Twitter 文本分类方面表现更好。

我最好的建议是“尝试”不同的功能。由于您正在查看短文本，因此推特可能是一个很好的激励示例。我会从 unigrams 和 bigrams 作为我的特征开始。确切的算法不是很重要。 SVM 通常在正确调整参数的情况下表现非常好。在对更大的数据集进行实验之前，使用少量保留数据来调整这些参数。

这个问题更有趣的部分是排名!最近在以下论文中为此目的使用了“纯度分数”(我想说它们是最先进的):

关于nlp - 短文本分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10281893/