nlp - 短文本分类

标签 nlp classification message

我即将开始一个项目,我的最终目标是将短文本分类为:“可能对访问地点 X 感兴趣”:“不感兴趣或中性”。地方由一组关键字描述(例如膳食或里程类型,如“中国食品”)。所以理想情况下,我需要一些方法来基于短文本分析来模拟用户的欲望——然后根据欲望分数或欲望概率进行分类——这个领域有什么最先进的吗?谢谢

最佳答案

这个问题和文本的情感分析完全一样。但是,您似乎有一个“中立”的意见,而不是传统的二元分类。最先进的情感分析高度依赖于领域。例如,在电影分类方面表现出色的技术在商业产品上表现不佳。

此外,即使是特征选择也高度依赖于领域。例如,unigrams 在电影评论分类方面效果很好,但 unigrams 和 bigrams 的组合在 Twitter 文本分类方面表现更好。

我最好的建议是“尝试”不同的功能。由于您正在查看短文本,因此推特可能是一个很好的激励示例。我会从 unigrams 和 bigrams 作为我的特征开始。确切的算法不是很重要。 SVM 通常在正确调整参数的情况下表现非常好。在对更大的数据集进行实验之前,使用少量保留数据来调整这些参数。

这个问题更有趣的部分是排名!最近在以下论文中为此目的使用了“纯度分数”(我想说它们是最先进的):

  • 情绪总结:评估和了解用户偏好。勒曼、布莱尔-戈登森和麦克唐纳。 EACL。 2009.
  • 网络衍生极性词典的可行性。 Velikovich、Blair-Goldensohn、Hannan 和 McDonald。 NAACL。 2010.

关于nlp - 短文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10281893/

相关文章:

c++ - 停止 zmq 消息

python - tfidfvectorizer 在保存的分类器中预测

java - 斯坦福解析器java错误

nlp - 模糊句子搜索算法

java - 从 stanford corenlp 的大数据集中查找特征

python-2.7 - 在NLTK中使用我自己的语料库而不是movie_reviews语料库进行分类

Android OpenCV 3.1 从文件加载 SVM 分类器

file - 从 awk 脚本打印文本 block 到文件 [banner like]

message - Telegram Bot 对成员(member)耳语

python - 如何进行编码(阿拉伯语 إعراب Parsing)Python?