我根据 LDA 将内容分类为通用主题,例如音乐、技术、艺术、科学
这是我正在使用的过程,
9个主题 -> 音乐、技术、艺术、科学 等>.
9 个文档 -> Music.txt、Technology.txt、Arts.txt、Science.txt等等等等
我在每个文档(.txt 文件)中填充了大约 10,000 行我认为是“纯”分类内容的内容
然后我对测试文档进行分类,看看分类器的训练效果如何
我的问题是,
a.) 这是一种有效的文本分类方法(使用上述步骤)吗?
b.) 我应该在哪里寻找“纯”主题内容来填充每个文件?不太大的来源(文本数据> 1GB)
分类仅针对上述“通用”主题
最佳答案
a) 您描述的方法听起来不错,但一切都取决于您正在使用的标记 LDA 的实现。我所知道的最好的实现之一是 Stanford Topic Modeling Toolbox 。它不再被积极开发,但当我使用它时效果很好。
b) 您可以在 DBPedia 上查找主题内容,它具有主题/实体的结构化本体,以及有关这些主题/实体的维基百科文章的链接。
关于machine-learning - LDA 文本分类的良好训练数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29575700/