machine-learning - 矢量数据的受限玻尔兹曼机的替代方案(而不是二进制)

我有一个非常大的语料库，每个元素都包含大量高维数据。元素不断被添加到语料库中。可能每次交互只需要考虑语料库的一部分。元素被标记，可能带有多个标签以及与这些标签的强度相关的权重。据我了解，数据并不稀疏。

输入数据是一组参数，范围在 -1...1 之间，大约为 (10-1000) 个输入。这可能有些灵活，具体取决于最合适的机器学习方法。

我的目标是高端智能手机设备。理想情况下，处理可以在同一设备上完成，但我愿意将其传输到适度的服务器。

对于这种情况，合适的机器学习方法是什么？

我一直在阅读有关随机福雷斯特决策树、受限玻尔兹曼机、深度学习玻尔兹曼机等的内容，但我真的可以利用经验丰富的人的建议来指导我采取一些有效的研究方法条件。

如果我的描述看起来不可靠，请告诉我，因为我仍在掌握这些想法，并且可能从根本上误解了某些方面。

最佳答案

尝试使用最简单的 k-近邻算法。您可以使用曼哈顿距离函数来获得快速距离函数。然后，您可以根据最近的点采取加权平均或多数类别。

这也类似于内核回归。我建议使用 k-d 树等数据结构来有效地存储您的点。

关于machine-learning - 矢量数据的受限玻尔兹曼机的替代方案(而不是二进制)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12547074/