我有几百万个实体,每个实体都有 1 到 10 个属性来描述,还有大约十万个类要对它们进行分类。
是否有任何机器学习算法(最好在 SQL Server、Azure 上或作为 .NET 库提供)或用于大规模多类分类的独立工具能够为每个实体建议前几个最佳匹配类?
我发现了这项研究:Learning compact class codes for fast inference in large multi class classification ,但找不到任何实现。
目前我有一个 K-nearest neighbours基于Full-Text Search其他几个维度的权重各为 1/3,以改善结果。我正在寻找提高性能和准确性的方法。
最佳答案
您尝试过集成学习吗?这一切都是为了构建多个“弱”多类分类器并通过多数投票达成共识。主要优点是因为您可以随机选择数据集的样本,并且每个分类器可以从不同的集合中学习。您还可以尝试使用 TensorFlow 或 Theano 实现的卷积神经网络进行深度学习(我推荐最后一个)。如果您有 GPU,则可以利用其处理能力来改进训练步骤。此代码在这里 https://github.com/attardi/CNN_sentence使用 GPU 处理、theano 库和多类分类(用于 NLP 应用程序),但它不是按照您的要求使用 C# 编写的。
关于.net - 数千个类的机器学习多类分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37386779/