database - 如何将数据分成训练集和测试集?

标签 database machine-learning weka

将数据分成两个不相交的集合(一个用于训练,一个用于测试)的一种方法是将前 80% 作为训练集,其余作为测试集。是否有另一种方法将数据分为训练集和测试集?

** 例如,我有一个数据包含20个属性和5000个对象。因此,我将取 12 个属性和 1000 个对象作为我的训练数据,并从 12 个属性中选择 3 个属性作为测试集。这个方法正确吗?

最佳答案

不,这是无效的。您将始终使用所有数据集中的所有功能。您按“对象”(示例)进行拆分。

目前尚不清楚为什么您只采用 1000 个对象并尝试从中提取训练集。你扔掉的另外 4000 个去哪儿了?

在 4000 个对象/20 个特征上进行训练。对 500 个对象/20 个特征进行交叉验证。评估剩余 500 个对象/20 个特征的性能。

关于database - 如何将数据分成训练集和测试集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23125313/

相关文章:

sql - 维基数据库,有吗?

mysql - 插入后 MySQL 出现 CDbCommand 失败错误

php - 简单的数据库设计问题

python - pytorch/torchtext 中的单热编码

java - 登录表单 : Compare username & password from database

machine-learning - 机器学习中方法的 "flexibility"的定义是什么?

python - 这些机器学习输出文件的用途和意义是什么?

machine-learning - 用于检测异常值的一类 SVM

java - 如何在Matlab中使用weka java API时创建字符串属性

java - Weka - 加载 UTF-8 编码的 csv