machine-learning - 从文本中找到的单词进行机器学习

我想使用监督机器学习算法根据句子中是否存在单词来预测一组句子的二元函数(真或假)。

理想情况下，我希望避免对用于决定输出的单词集进行硬编码，以便算法自动学习哪些单词(一起？)最有可能触发特定输出。

http://shop.oreilly.com/product/9780596529321.do (编程集体智能)在第 4 章中有一个很好的部分，标题为“从点击中学习”，它描述了如何通过在神经网络中使用 1 层隐藏节点来实现这一点，并为每个新的输入单词组合一个新的隐藏节点。

类似地，可以为训练数据集中的每个单词创建一个特征，并使用这些特征训练几乎任何经典的机器学习算法。添加新的训练数据将生成新的功能，这将需要我从头开始重新训练算法。

这让我想到了我的问题:

最佳答案

如果您想查找通常一起出现的单词，您可以查看主题建模的一般领域。

最简单的方法是使用潜在语义分析 ( http://en.wikipedia.org/wiki/Latent_semantic_analysis )，这只是将 SVD 应用于术语文档矩阵。然后，您需要进行一些额外的事后分析，以使其适合您的特定结果。

更复杂、更复杂的方法是使用潜在狄利克雷分配 ( http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation )

就添加新功能(单词)而言，只要您要重新训练就可以了。您还可以在表示矩阵时使用 TF/IDF 为该特定单词赋予一个值(而不仅仅是 1 或 0)。

我不知道你想用什么编程语言来做到这一点，但我知道 Java 和 Python 中有一些库可以完成上述所有操作。

关于machine-learning - 从文本中找到的单词进行机器学习，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11878872/