machine-learning - 能够切换数据集的随机森林算法

标签 machine-learning random-forest supervised-learning unsupervised-learning

我很好奇是否已经对随机森林进行了研究,该随机森林将无监督学习与监督学习相结合,允许单个算法在多个不同的数据集中查找模式并使用多个不同的数据集。我用谷歌搜索了所有可能的方法来找到这方面的研究,但一无所获。谁能指出我正确的方向?

注意:我已经在数据科学论坛中问过这个问题,但它基本上是一个死论坛,所以我来到这里。

最佳答案

(另请阅读评论并将内容合并到我的答案中)

从字里行间我读到的是,你想在迁移学习设置中使用深度网络。然而,这不会基于决策树。 http://jmlr.csail.mit.edu/proceedings/papers/v27/mesnil12a/mesnil12a.pdf

您的问题中有很多要素:

1.) 机器学习算法通常不关心数据集的来源。所以基本上你可以给学习算法提供 20 个不同的数据集,它会使用所有这些数据集。但是,数据应该具有相同的基本概念(除了迁移学习案例,请参见下文)。这意味着:如果将猫/狗数据与账单数据结合起来,这将不起作用或使算法变得更加困难。至少所有输入特征需要相同(存在异常(exception)),例如,很难将图像与文本结合起来。

2.) 标记/未标记:两个重要术语:数据集是一组具有固定维数的数据点。数据点 i 可以被描述为 {Xi1,...Xin},其中每个 Xi 可以是一个像素。标签 Yi 来自另一个域,例如猫和狗

3.) 没有任何标签的无监督学习数据。 (我直觉这不是你想要的。

4.) 半监督学习:这个想法基本上是将有标签的数据与没有标签的数据结合起来。基本上,您有一组标记为猫和狗 {Xi1,..,Xin,Yi} 的图像,第二组包含带有猫/狗但没有标签 {Xj1,..,Xjn} 的图像。该算法可以使用这些信息来构建更好的分类器,因为未标记的数据提供了有关图像总体外观的信息。

3.) 迁移学习(我认为这最接近你想要的)。这个想法是你提供一个猫和狗的数据集并学习一个分类器。然后你想用猫/狗/仓鼠的图像训练分类器。训练不需要从头开始,而是可以使用猫/狗分类器来更快地收敛

4.) 特征生成/特征构造 这个想法是算法学习“眼睛”等特征。该特征将在下一步中用于学习分类器。我主要在深度学习的背景下意识到这一点。算法在第一步中学习边缘等概念,并构建越来越复杂的特征,例如不容忍猫的脸,它可以描述诸如“大象上的人”之类的东西。这与迁移学习相结合可能就是你想要的。然而深度学习是除了一些异常(exception)之外,基于神经网络。

5.) 异常值检测您提供猫/狗的数据集作为已知图像。当您提供猫/狗/仓鼠分类器时。分类器告诉您它以前从未见过像仓鼠这样的东西。

6.) 主动学习 这个想法是,您不必事先为所有示例(数据点)提供标签,但算法会要求您标记某些数据点。这样您需要标记的数据就会少得多。

关于machine-learning - 能够切换数据集的随机森林算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34537698/

相关文章:

python - 按组监督学习随机森林

python - 使用 Sidekit 进行 UBM 扬声器适配时出现错误

r - 栅格和 randomForest::predict() 中的 NA

machine-learning - from_model.py 中的 SelectFromModel() 如何工作?

machine-learning - 误差项 e 的含义

python - Sklearn.model_selection GridsearchCV ValueError : C <= 0

python - sklearn 管道中的 set_params() 不适用于 TransformedTargetRegressor

r - 无法在 R 中使用插入符号来 extractPrediction

machine-learning - 神经网络或任何其他监督学习算法可以学习特殊的统计方法吗?

machine-learning - 如何在Keras中实现自定义加权MSE损失函数?