我有一组文档及其相应的分数,这些分数与 SO 上的赞成/反对票数非常相似。我想建立一个能够预测给定文档分数的系统。一些用于回归的机器学习方法以及用于从文档中导出有用特征的自然语言处理技术可能会有所帮助。
有没有解决这个问题的最先进的方法?我在谷歌学术上进行了一些搜索,但未能找到令人满意的结果。
谢谢。
最佳答案
预测答案的质量或有用性仍然非常困难。这些算法与其他机器学习问题没有什么不同:人们只是使用基于标准回归的技术。这实际上取决于大量的特征提取。例如,要预测某个新闻聚合器(如 reddit 或 digg)上某个故事的投票数,您可能想查看该帖子的主题是否与热门新闻故事有关。如果趋势结束了,它可能不会得到很多选票。
您必须发挥创意,了解哪些功能对您工作的领域有用。您可以尝试诸如作者所使用的语言的复杂性之类的事情。您可以通过每个句子的平均单词数、单词的平均长度或者文档中的单词总数来衡量。您可以尝试通过拼写检查器运行它:也许有很多拼写错误的文档会被否决。
Google 学术搜索有多个研究领域:
- 自动论文评分
- 预测 Digg 上故事的受欢迎程度
- 预测一条推文将获得的转发次数
最近,kaggle.com 上还举办了几场与此主题相关的数据科学竞赛。用户论坛通常有关于他们如何处理这些事情的非常好的信息。这是 automated essay scoring 上的一个.
关于machine-learning - 预测文档的分数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16651544/