machine-learning - LDA 文本分类的良好训练数据？

我根据 LDA 将内容分类为通用主题，例如音乐、技术、艺术、科学

这是我正在使用的过程，

9个主题 -> 音乐、技术、艺术、科学等>.

9 个文档 -> Music.txt、Technology.txt、Arts.txt、Science.txt等等等等

我在每个文档(.txt 文件)中填充了大约 10,000 行我认为是“纯”分类内容的内容

然后我对测试文档进行分类，看看分类器的训练效果如何

我的问题是，

a.) 这是一种有效的文本分类方法(使用上述步骤)吗？

b.) 我应该在哪里寻找“纯”主题内容来填充每个文件？不太大的来源(文本数据> 1GB)

分类仅针对上述“通用”主题

最佳答案

a) 您描述的方法听起来不错，但一切都取决于您正在使用的标记 LDA 的实现。我所知道的最好的实现之一是 Stanford Topic Modeling Toolbox 。它不再被积极开发，但当我使用它时效果很好。

b) 您可以在 DBPedia 上查找主题内容，它具有主题/实体的结构化本体，以及有关这些主题/实体的维基百科文章的链接。

关于machine-learning - LDA 文本分类的良好训练数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29575700/