machine-learning - 用于文档分类的监督潜在狄利克雷分配？

标签 machine-learning nlp classification document-classification lda

我在某些组中有一堆已经人类分类的文档。

是否有 lda 的修改版本，我可以用它来训练模型，然后用它对未知文档进行分类？

最佳答案

就其值(value)而言，LDA 作为分类器会相当弱，因为它是一个生成模型，而分类是一个判别问题。 LDA 有一个变体，称为 supervised LDA它使用更具辨别力的标准来形成主题(您可以在不同的地方获取源代码)，还有一篇带有 max margin 的论文我不知道源代码的状态。我会避免使用带标签的 LDA 公式，除非您确定这就是您想要的，因为它对分类问题中主题和类别之间的对应关系做出了强有力的假设。

但是，值得指出的是，这些方法都没有直接使用主题模型来进行分类。相反，他们采用文档，而不是使用基于单词的特征，而是使用主题的后验(由文档推理产生的向量)作为其特征表示，然后将其输入到分类器(通常是线性 SVM)。这将为您提供基于主题模型的降维，然后是强大的判别性分类器，这可能就是您所追求的。该管道可用在大多数语言中使用流行的工具包。

关于machine-learning - 用于文档分类的监督潜在狄利克雷分配？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13555021/

上一篇：machine-learning - 适合新手的 WEKA 教程/示例

下一篇：machine-learning - 序数分类包和算法

相关文章：

python - 每个训练数据的类标签分布不均匀的多标签文本分类

python - 根据输入形状计算是否有差异？ (使用 Tensorflow 的 Python 中的 CNN)

python - scikit-learn - 使用 svm.svc 分类器进行多标签分类，是否可以在没有probability=True的情况下进行？

python-2.7 - 使用 k 均值进行图像分割

python - Tensorflow 中密集层的偏差可以设置为零吗？

python - ML - 特征选择后获取特征名称 - SelectPercentile，python

python - 为什么 Doc2vec 为相同的文本提供 2 个不同的向量

python - 在 Python 中存储和访问大型(~10 GB)列表的方法？

nlp - 使用 Hadoop : best practices for generating keys 解析批量文本

r - 通过创建附加列将 R data.table 从 4 个 id 列转换为 1 个 id 列