machine-learning - 我如何知道训练数据足以用于机器学习

标签 machine-learning classification sample-data

例如:如果我想训练一个分类器(也许是SVM),我需要收集多少样本?有没有衡量方法?

最佳答案

要知道需要收集多少样本并不容易。但是您可以按照以下步骤操作:

解决典型的机器学习问题:

  1. 构建一个包含几个样本的数据集 a,有多少个?这取决于您遇到的问题类型,现在不要花太多时间。
  2. 将数据集拆分为训练、交叉、测试和构建模型。
  3. 既然您已经构建了机器学习模型,您需要评估它的好坏。计算您的测试误差
  4. 如果您的测试错误率低于您的预期,请收集新数据并重复步骤 1-3,直到达到您满意的测试错误率。

如果您的模型没有遭受“高偏差”,则此方法将起作用。

This video from Coursera's Machine Learning course, explains it .

关于machine-learning - 我如何知道训练数据足以用于机器学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24752941/

相关文章:

c# - C# 中的强化学习

amazon-web-services - 如何将 Amazon Machine Learning 与多值数据结合使用

c++ - 如何使用 C++ 查找 WAV 文件的最高音量级别

python - Pandas:在 500 万行上使用 Apply 和正则表达式字符串匹配

python - CNN 模型比 CNN-SVM 组合模型具有更好的精度

google-analytics - 如何从Google Analytics(分析)API中获取非抽样数据-即使是一天?

r - 在 R 中创建样本矩阵

python - 拟合 sklearn GridSearchCV 模型

tensorflow - 训练模型以实现 DLib 的面部标志,例如手部特征点及其标志

python - Scikit-学习 GridSearchCV : Avoid function to copy data for each process in parallel