machine-learning - 预测文档的分数?

标签 machine-learning nlp

我有一组文档及其相应的分数,这些分数与 SO 上的赞成/反对票数非常相似。我想建立一个能够预测给定文档分数的系统。一些用于回归的机器学习方法以及用于从文档中导出有用特征的自然语言处理技术可能会有所帮助。

有没有解决这个问题的最先进的方法?我在谷歌学术上进行了一些搜索,但未能找到令人满意的结果。

谢谢。

最佳答案

预测答案的质量或有用性仍然非常困难。这些算法与其他机器学习问题没有什么不同:人们只是使用基于标准回归的技术。这实际上取决于大量的特征提取。例如,要预测某个新闻聚合器(如 reddit 或 digg)上某个故事的投票数,您可能想查看该帖子的主题是否与热门新闻故事有关。如果趋势结束了,它可能不会得到很多选票。

您必须发挥创意,了解哪些功能对您工作的领域有用。您可以尝试诸如作者所使用的语言的复杂性之类的事情。您可以通过每个句子的平均单词数、单词的平均长度或者文档中的单词总数来衡量。您可以尝试通过拼写检查器运行它:也许有很多拼写错误的文档会被否决。

Google 学术搜索有多个研究领域:

  • 自动论文评分
  • 预测 Digg 上故事的受欢迎程度
  • 预测一条推文将获得的转发次数

最近,kaggle.com 上还举办了几场与此主题相关的数据科学竞赛。用户论坛通常有关于他们如何处理这些事情的非常好的信息。这是 automated essay scoring 上的一个.

关于machine-learning - 预测文档的分数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16651544/

相关文章:

python - 神经网络反向传播算法在 Python 中不起作用

machine-learning - 使用哪个斯坦福 NLP 包进行内容分类

python - torch.jit.save 中 _extra_files arg 的正确用法是什么

matlab - 梯度下降矢量化计算维度不正确

matlab - 理解高斯混合模型的概念

java - 为单词词形还原和类似任务创建自己的规则的工具

python - 如何将句子拆分成相关的词(术语提取)?

python - 如何修复名称错误: name 'X_train' is not defined?

nlp - 如何预测一个句子的概率?

java - 检查字符串中的单词是否包含在集合中