machine-learning - Azure 机器学习中的随机种子是什么？

我正在学习 Azure 机器学习。我经常在某些步骤中遇到随机种子，例如，

拆分数据
未经训练的算法模型，如二类回归、多类回归、树、森林......

在教程中，他们选择随机种子为“123”；训练好的模型具有很高的准确性，但是当我尝试选择其他随机整数(例如 245、256、12、321...)时，效果不佳。

<小时/>

问题

什么是随机种子整数？
如何从整数值范围中仔细选择随机种子？选择它的关键或策略是什么？
为什么随机种子会显着影响训练模型的机器学习评分、预测和质量？

<小时/>

借口

我有Iris-Sepal-Petal-Dataset带有萼片(长度和宽度)和花瓣(长度和宽度)
数据集中的最后一列是“二项式类名”
我正在使用多类决策森林算法训练数据集，并按顺序使用不同的随机种子 321、123 和 12345 分割数据
它会影响训练模型的最终质量。随机种子#123 是最佳预测概率得分:1。

<小时/>

观察

<强>1。随机种子:321

<强>2。随机种子:123

<强>3。随机种子:12345

最佳答案

What is a Random Seed Integer?

不会详细介绍随机种子的一般含义；通过简单的网络搜索即可获得大量 Material (例如，参见 this SO thread )。

随机种子仅用于初始化(伪)随机数生成器，主要是为了使机器学习示例可重现。

How to carefully choose a Random Seed from range of integer values? What is the key or strategy to choose it?

可以说，上面已经隐含地回答了这个问题:您根本不应该选择任何特定的随机种子，并且您的结果在不同的随机种子中应该大致相同。

Why does Random Seed significantly affect the ML Scoring, Prediction and Quality of the trained model?

现在，谈谈你问题的核心。这里的答案(即虹膜数据集)是小样本效应...

首先，不同随机种子的报告结果并没有那么不同。尽管如此，我同意，乍一看，0.9 和 0.94 的宏观平均精度差异可能似乎很大；但仔细观察就会发现，差异实际上并不是问题。为什么？

使用(仅)150 个样本数据集的 20%，您的测试集(执行评估的地方)中只剩下 30 个样本；这是分层的，即每个类别大约有 10 个样本。现在，对于这么小的数据集，不难想象，仅 1-2 个样本的正确分类差异就会在性能上产生如此明显的差异报告的指标。

让我们尝试使用决策树分类器在 scikit-learn 中验证这一点(问题的本质并不取决于所使用的特定框架或 ML 算法):

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=321, stratify=y)
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

结果:

[[10  0  0]
 [ 0  9  1]
 [ 0  0 10]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.90      0.95        10
           2       0.91      1.00      0.95        10

   micro avg       0.97      0.97      0.97        30
   macro avg       0.97      0.97      0.97        30
weighted avg       0.97      0.97      0.97        30

让我们重复上面的代码，仅更改 train_test_split 中的 random_state 参数；对于 random_state=123 我们得到:

[[10  0  0]
 [ 0  7  3]
 [ 0  2  8]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       0.78      0.70      0.74        10
           2       0.73      0.80      0.76        10

   micro avg       0.83      0.83      0.83        30
   macro avg       0.84      0.83      0.83        30
weighted avg       0.84      0.83      0.83        30

而对于 random_state=12345 我们得到:

[[10  0  0]
 [ 0  8  2]
 [ 0  0 10]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.80      0.89        10
           2       0.83      1.00      0.91        10

   micro avg       0.93      0.93      0.93        30
   macro avg       0.94      0.93      0.93        30
weighted avg       0.94      0.93      0.93        30

查看 3 个混淆矩阵的绝对数字(在小样本中，百分比可能具有误导性)，您应该能够让自己相信差异并没有那么大，并且可以通过整个过程中固有的随机元素来证明它们是合理的(这里是将数据集精确划分为训练和测试)。

如果您的测试集明显更大，这些差异实际上可以忽略不计......

最后通知；我使用了与您完全相同的种子数，但这实际上并不意味着什么，因为一般来说，跨平台和语言的随机数生成器并不相同，因此相应的种子实际上并不兼容。请参阅 Are random seeds compatible between systems? 中自己的答案进行演示。

关于machine-learning - Azure 机器学习中的随机种子是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56848293/

machine-learning - Azure 机器学习中的随机种子是什么？

上一篇：python - 需要将数据框的列值转换为单独的列，并使用 panda 填充每个单元格的计数值

下一篇：node.js - 我无法从 Watson Discovery 收到任何答复