machine-learning - 我如何知道训练数据足以用于机器学习

标签 machine-learning classification sample-data

例如:如果我想训练一个分类器(也许是SVM)，我需要收集多少样本？有没有衡量方法？

最佳答案

要知道需要收集多少样本并不容易。但是您可以按照以下步骤操作:

解决典型的机器学习问题:

构建一个包含几个样本的数据集 a，有多少个？这取决于您遇到的问题类型，现在不要花太多时间。
将数据集拆分为训练、交叉、测试和构建模型。
既然您已经构建了机器学习模型，您需要评估它的好坏。计算您的测试误差
如果您的测试错误率低于您的预期，请收集新数据并重复步骤 1-3，直到达到您满意的测试错误率。

如果您的模型没有遭受“高偏差”，则此方法将起作用。

This video from Coursera's Machine Learning course, explains it .

关于machine-learning - 我如何知道训练数据足以用于机器学习，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24752941/

上一篇：machine-learning - 智能代码完成？有没有AI可以通过学习写代码？

下一篇：machine-learning - 了解多层感知器网络

相关文章：

c# - C# 中的强化学习

amazon-web-services - 如何将 Amazon Machine Learning 与多值数据结合使用

c++ - 如何使用 C++ 查找 WAV 文件的最高音量级别

python - Pandas:在 500 万行上使用 Apply 和正则表达式字符串匹配

python - CNN 模型比 CNN-SVM 组合模型具有更好的精度

google-analytics - 如何从Google Analytics(分析)API中获取非抽样数据-即使是一天？

r - 在 R 中创建样本矩阵

python - 拟合 sklearn GridSearchCV 模型

tensorflow - 训练模型以实现 DLib 的面部标志，例如手部特征点及其标志

python - Scikit-学习 GridSearchCV : Avoid function to copy data for each process in parallel

©2024 IT工具网联系我们