我想编写一个脚本来解析用户的推文并将其分类到先前指定的类别中。例如:
"Ed Miliband will lose election if he is 'seduced' by Blairites, says union chief http://bit.ly/145CRAD"
将在领域政治中分类。
"Dear Sachin, you're 40. Buy a sports car, have flings with 20 yr old blondes. Enjoy your midlife crisis. Leave IPL for the boys - your fan"
将归入 Cricket 领域。
执行此操作的最佳方法是什么?
最佳答案
您正在寻找 ' Topic Model '.技术包括 Latent Dirichlet Allocation 等。维基百科文章包含指向资源的链接,例如 Mallet这应该对你有帮助。
您没有指定要使用的语言,也没有指定“最佳”的含义?最容易实现、最快还是最好的结果?
另一种选择是使用人工(例如 Amazon Mechanical Turk),这可能会为您提供推文的“最佳”结果,鉴于所有缩写、讽刺和哈希标签,这些推文众所周知难以分类……#notAnEasyProblem。
关于python - 将推文分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16198508/