python - 机器学习中的测试和训练数据

我有 2000 多个 ANN 数据集。我在其中应用了 MLPRegressor。我的代码工作正常。但是对于测试，我想修复我的测试值，例如我有 50 个数据集。由此我想测试前 20 个值。我如何在代码中解决这个问题？我使用了以下代码。

import pandas as pd

import matplotlib.pyplot as plt

from sklearn.neural_network import MLPRegressor

df = pd.read_csv("0.5-1.csv")
df.head()

X = df[['wavelength', 'phase velocity']]
y = df['shear wave velocity']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2)

from sklearn.neural_network import MLPClassifier
from sklearn.metrics import mean_absolute_error

mlp = MLPRegressor(hidden_layer_sizes=(30,30,30))

mlp.fit(X_train,y_train)

最佳答案

如果您希望获得可重现的结果，您可以向 train_test_split 传递一个固定的随机种子，以便在每次运行中使用相同的训练/测试样本。使用 train_test_split 的好处是无需进一步的努力就可以选择干净整洁的训练/测试拆分。

但是如果你坚持像你说的那样手动选择train/test split，你可以这样做:

X_test, y_test = X[:20], y[:20]  # first 20 samples for test
X_train, y_train = X[20:], y[20:]  # rest of samples for train

关于python - 机器学习中的测试和训练数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57944577/

上一篇：python - 如何在 autograd 反向传播中禁用某些模块的梯度更新？

下一篇：python - 打开并读取多个文本文件并匹配单词

相关文章：

python - 如何复制 dask 数据框？

python - 每个用户的 Celery PeriodicTask

python - 我如何测试我的 Tic Tac Toe A.I.是完美的？

python - 使用 GridsearchCV 提取管道中最佳模型的 MLPRegressor 属性 (n_iter_ )？

python - urllib3 如何确定使用哪些 TLS 扩展？

python - 是否可以在 Python 中访问 GetLongPathName() Win32 API？

machine-learning - 朴素贝叶斯算法

machine-learning - Q-学习(多目标)

python - LIME 功能解释产生无效 key 错误

python - 通过哪种适应时间序列的技术可以替换 Python 中的 Keras MLP 回归模型中的交叉验证