将数据分成两个不相交的集合(一个用于训练,一个用于测试)的一种方法是将前 80% 作为训练集,其余作为测试集。是否有另一种方法将数据分为训练集和测试集?
** 例如,我有一个数据包含20个属性和5000个对象。因此,我将取 12 个属性和 1000 个对象作为我的训练数据,并从 12 个属性中选择 3 个属性作为测试集。这个方法正确吗?
最佳答案
不,这是无效的。您将始终使用所有数据集中的所有功能。您按“对象”(示例)进行拆分。
目前尚不清楚为什么您只采用 1000 个对象并尝试从中提取训练集。你扔掉的另外 4000 个去哪儿了?
在 4000 个对象/20 个特征上进行训练。对 500 个对象/20 个特征进行交叉验证。评估剩余 500 个对象/20 个特征的性能。
关于database - 如何将数据分成训练集和测试集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23125313/