python - 使用总体样本的分类器 : scaling the population and then sampling/scaling the sample/scaling the X_TRAIN split of the sample?

标签 python data-science sampling

我正在构建一个逻辑回归分类器。

我从一组 500.000 条记录开始，我只想使用其中的一个样本。

你有什么建议:

1) 缩放总体然后采样 2)缩放样本 3) 仅缩放样本的 X_TRAIN 分割？

为什么？

我的考虑是:

1)如果样本代表总体，这可能有意义(我应该测试它吗？)

2)这并不令人信服，因为我会选择多个样本来查看分类器的泛化水平，并且每次都使用稍微不同的缩放器听起来不太好。另外，它还会使 X_train、X_test 分割产生偏差

3)这不会使X_train，X_test分割产生偏差，但对点有同样的疑问2)

您会推荐什么以及为什么？

最佳答案

很好的问题。几年前刚开始的时候，我心里也有类似的问题。让我试着给出我的两分钱。

我建议创建一个用于缩放 X_train 的缩放器，存储该缩放器并查看是否使用它来转换 X_test。根据中心性定理，如果进行了随机抽样，则应该具有与总体属性相似的均值和方差。在大多数情况下，缩放器基于这两个参数工作。如果它代表总体参数，只要测试数据来自同一总体，缩放器就应该起作用。如果它不起作用，您需要更多样本进行训练或进行另一次采样尝试以使 X_train 代表总体。

通过这样做，您可以确定该模型也适用于新样本，只要它是由相同过程生成的。毕竟，该模型不是为了测试而构建的，而是为了在生产中做一些有用的工作。

我的建议是使用 3) 缩放 X_train 并使用缩放器来转换 X_test。

关于python - 使用总体样本的分类器 : scaling the population and then sampling/scaling the sample/scaling the X_TRAIN split of the sample?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56148094/

上一篇：python - Flask-Ask:如何修复 'flask.debughelpers.FormDataRoutingRedirect' 错误？

下一篇：python - 如何将具有像 ResNet 这样的非序列架构的 Keras 模型拆分为子模型？

Matlab:拒绝抽样

python - 无法获取所有子项(动态加载)selenium python

python - pyaudio 改变调用回调函数的样本数

python - 当我尝试以朴素的贝叶斯分类器形式https://github.com/muatik/naive-bayes-classifier我得到错误

python - 如何在Python中计算趋势的陡度

python - 将整数转换为二进制，然后在 python 中进行左移

python - Pymongo 批量删除

python - 给定现有分布，如何绘制大小为 N 且 std 为 X 的样本？

python - Python 中的贝叶斯网络 : both construction and sampling