python - 使用总体样本的分类器 : scaling the population and then sampling/scaling the sample/scaling the X_TRAIN split of the sample?

标签 python data-science sampling

我正在构建一个逻辑回归分类器。

我从一组 500.000 条记录开始,我只想使用其中的一个样本。

你有什么建议:

1) 缩放总体然后采样 2)缩放样本 3) 仅缩放样本的 X_TRAIN 分割?

为什么?

我的考虑是:

1)如果样本代表总体,这可能有意义(我应该测试它吗?)

2)这并不令人信服,因为我会选择多个样本来查看分类器的泛化水平,并且每次都使用稍微不同的缩放器听起来不太好。另外,它还会使 X_train、X_test 分割产生偏差

3)这不会使X_train,X_test分割产生偏差,但对点有同样的疑问2)

您会推荐什么以及为什么?

最佳答案

很好的问题。几年前刚开始的​​时候,我心里也有类似的问题。让我试着给出我的两分钱。

我建议创建一个用于缩放 X_train 的缩放器,存储该缩放器并查看是否使用它来转换 X_test。根据中心性定理,如果进行了随机抽样,则应该具有与总体属性相似的均值和方差。在大多数情况下,缩放器基于这两个参数工作。如果它代表总体参数,只要测试数据来自同一总体,缩放器就应该起作用。如果它不起作用,您需要更多样本进行训练或进行另一次采样尝试以使 X_train 代表总体。

通过这样做,您可以确定该模型也适用于新样本,只要它是由相同过程生成的。毕竟,该模型不是为了测试而构建的,而是为了在生产中做一些有用的工作。

我的建议是使用 3) 缩放 X_train 并使用缩放器来转换 X_test。

关于python - 使用总体样本的分类器 : scaling the population and then sampling/scaling the sample/scaling the X_TRAIN split of the sample?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56148094/

相关文章:

python - Pandas DataFrame 替换不适用于 inplace=True

Matlab:拒绝抽样

python - 无法获取所有子项(动态加载)selenium python

python - pyaudio 改变调用回调函数的样本数

python - 当我尝试以朴素的贝叶斯分类器形式https://github.com/muatik/naive-bayes-classifier我得到错误

python - 如何在Python中计算趋势的陡度

python - 将整数转换为二进制,然后在 python 中进行左移

python - Pymongo 批量删除

python - 给定现有分布,如何绘制大小为 N 且 std 为 X 的样本?

python - Python 中的贝叶斯网络 : both construction and sampling