machine-learning - 线性回归分类器的收敛和正则化

标签 machine-learning mathematical-optimization linear-regression

我正在尝试使用逻辑回归对从 2 个点集(类 y (-1, 1))提取的数据实现二元分类器。如下所示,我们可以使用参数a来防止过拟合。

target_function

现在我不确定如何选择a的“好”值。 我不确定的另一件事是如何为此类问题选择“良好”的收敛标准。

最佳答案

“a”的值

选择“好”的东西是一种元回归:为a选择任何看起来合理的值。运行回归。将 a 值放大或缩小 3 倍,再试一次。如果其中一个比原始效果更好,请在该方向尝试另一个 3 倍 - 但为了可读性,将其从 9 倍舍入到 10 倍。

你明白了……尝试一下直到你进入正确的范围。除非您确实尝试优化结果,否则您可能不需要将其缩小到比 3 更接近的范围。

数据集分区

机器学习人员花了很多时间来分析最佳分割。最佳分割很大程度上取决于您的数据空间。作为全局启发式,使用一半或更多一点进行训练;其余的,不超过一半用于测试,其余用于验证。例如,50:20:30 是 train:test:validate 的可行近似值。

同样,您可以稍微尝试一下......除了错误率的任何真实测试都将是全新的数据。

收敛

这在很大程度上取决于最佳解决方案附近以及低梯度局部区域附近的经验误差空间的特征。

首先要考虑的是选择一个可能是凸的并且没有平坦区域的误差函数。第二个是对所需解决方案区域中梯度的大小有一些感觉(标准化数据将有助于此);用它来帮助选择收敛半径;您可能也想在这里尝试一下 3 倍缩放。最后一个是调整学习率,以便将其缩放到标准化数据。

这些有帮助吗?

关于machine-learning - 线性回归分类器的收敛和正则化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41472373/

相关文章:

python - 如何检测实心圆网格?

python - 从随机生成的数字中计算出一个始终为正的值

ios - iOS 建议的 GRG 非线性约束求解器

algorithm - 成本最小化算法(时间有限)

python - Python 中关于 mlpy.dtw 包的两个问题?

python - Pybrain 神经网络阶跃传递函数

python - sklearn 中的流水线问题

r - 获取 "mlm"返回的 `lm()` 对象的回归系数的标准误差

R:plm——年固定效应——年和季度数据

python - 我的代码中有什么错误,随着梯度下降的每次迭代,误差不断增加?