machine-learning - LDA 文本分类的良好训练数据?

标签 machine-learning nlp classification text-classification document-classification

我根据 LDA 将内容分类为通用主题,例如音乐、技术、艺术、科学

这是我正在使用的过程,

9个主题 -> 音乐技术艺术科学 >.

9 个文档 -> Music.txtTechnology.txtArts.txtScience.txt等等等等

我在每个文档(.txt 文件)中填充了大约 10,000 行我认为是“纯”分类内容的内容

然后我对测试文档进行分类,看看分类器的训练效果如何

我的问题是,

a.) 这是一种有效的文本分类方法(使用上述步骤)吗?

b.) 我应该在哪里寻找“纯”主题内容来填充每个文件?不太大的来源(文本数据> 1GB)

分类仅针对上述“通用”主题

最佳答案

a) 您描述的方法听起来不错,但一切都取决于您正在使用的标记 LDA 的实现。我所知道的最好的实现之一是 Stanford Topic Modeling Toolbox 。它不再被积极开发,但当我使用它时效果很好。

b) 您可以在 DBPedia 上查找主题内容,它具有主题/实体的结构化本体,以及有关这些主题/实体的维基百科文章的链接。

关于machine-learning - LDA 文本分类的良好训练数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29575700/

相关文章:

python - 在 jupyter nb v5、win 10、p2.7 中导入 XGBOOST 时出错。通过 conda mndrake 安装

R - arules 和 arulesViz 包中的错误

python - 如何解决此分类报告警告?

python - 使用 Spacy 处理语法错误

python - 在火车测试拆分操作(scikit)后使数据平衡?

python - 来自 scikit-learn 的具有自己的距离函数的 k-NN 算法

prolog - 你能在 Prolog 中推荐一个 NLP 工具包吗?

java - 创建 StanleyCoreNLP 对象时出现错误 - "java.lang.NoClassDefFoundError"

r - e1071 包 : naiveBayes prediction is slow

opencv - 车辆分割和跟踪