python-2.7 - 使用 Python 进行计算逻辑回归,不同的样本大小

标签 python-2.7 machine-learning statistics logistic-regression

目前,我正在尝试用 Python 实现一个基本的逻辑回归算法来区分 A 和 B。

对于我的训练和测试数据,我有大约 50,000 个 A 样本和 1000 个 B 样本。如果我使用每个数据的一半来训练算法,另一半作为测试数据(25000 个训练数据),这会是一个问题吗? A、500 次训练 B 等用于测试准确性)。

如果是这样,我该如何克服这个问题。我是否应该考虑重新采样,做一些其他“花哨的事情”。

最佳答案

问题的严重程度取决于数据的性质。更大的问题是你的类别存在巨大的不平衡(每个 B 对应 50 个 As)。如果无论如何你最终都获得了良好的分类准确率,那就很好——没什么可做的。接下来做什么取决于您的数据、问题的性质以及解决方案中可接受的内容。对于这个问题,确实没有一个“这样做”的固定答案。

关于python-2.7 - 使用 Python 进行计算逻辑回归,不同的样本大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32281130/

相关文章:

python - 从 Python 以 `.cpp` 格式保存 LGBM 模型

r - 按列名将表转换为矩阵

Python 关于舍入的奇怪行为

python - 如何以有效的方式将具有 MultiIndex 的数据帧合并到另一个数据帧中?

python - 使用 Python 获取 Outlook 待办事项列表

javascript - 为什么我的神经网络训练方法没有被调用? (ML5.JS)

image - 如何从头开始创建和格式化图像数据集以用于机器学习?

r - stata (11) 中逐个因子交互的语法是什么?

c++ - 任何用于 Johansen 协整检验的 C++ 库?

Python 无需批处理即可读取 unicode stdin