machine-learning - 在机器学习中,可以采取哪些措施来限制所需训练样本的数量?

标签 machine-learning

在许多应用程序中,创建大型训练数据集即使不是完全不可能,也是非常昂贵的。那么可以采取哪些步骤来限制获得良好准确度所需的大小呢?

最佳答案

嗯,机器学习有一个分支专门致力于解决这个问题(标记数据集的成本很高):semi-supervised learning

老实说,根据我的经验,计算时间非常长,而且与完全标记的数据集相比,结果显得苍白......但是最好在大型未标记数据集上进行训练,而不是什么都没有!

<小时/>

编辑:嗯,我首先将问题理解为“标记数据集很昂贵”,而不是“无论如何,数据集的大小都会很小”

嗯,除其他外,我会:

  • 使用 leave one out cross validation 调整我的参数。计算成本最高,但却是最好的。

  • 选择收敛速度相当快的算法。 (你需要一个对照表,我现在没有)

  • 需要非常好的泛化特性。在这种情况下,弱分类器的线性组合非常好。 kNN(k 个最近邻)非常糟糕。

  • 偏置“泛化”参数。大多数算法都是在泛化(规律性)和质量(训练集是否被分类器很好地分类?)之间进行折衷。如果您的数据集很小,您应该使算法偏向于泛化(在通过交叉验证调整参数之后)

关于machine-learning - 在机器学习中,可以采取哪些措施来限制所需训练样本的数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7011971/

相关文章:

machine-learning - 在进行k-means算法时,如何识别球树中所有包含点都在一个簇中的内部节点?

python - 测试准确度为无

r - 没有默认值的错误 : argument "x" is missing,?

machine-learning - GPU 在参数服务器上进行数据并行训练是否高效?

python - mlxtendplot_decision_regions 模型适合 Pandas DataFrame?

python - 如何找到拟合指数函数的 x ?

python - 用于特征选择的 Sklearn Chi2

matlab - 神经网络的输出值

python-3.x - SkLearn SVM - 如何获得按概率排序的多个预测?

c# - 如何在 Accord.net 中保存“学习状态”?