machine-learning - 在在线机器学习算法线性回归随机梯度中,当新的训练数据到来时,我们是否必须将其与以前的数据混合?

标签 machine-learning computer-vision linear-regression

假设我有 10 亿个数据集点,我们已经用这些数据集训练了我们的机器学习模型并获得了我们的参数/权重。现在我收到另外 100 个数据集点,我如何训练这个新数据集?与线性回归不同,如果我们已经训练了 20 亿封邮件,我们如何在垃圾邮件过滤中训练垃圾邮件/非垃圾邮件的新示例?

最佳答案

在我看来,您应该使用不同的算法(即 online algorithm )。

我从未在实践中尝试过这一点,但这里有一篇来自 NIPS(备受推崇的 ML session )的论文,您可能会觉得有用:Online Linear Regression and Its Application to Model-Based Reinforcement Learning 。 (在对 a similar question on Cross Validated 的回答中建议了相同的算法。)

关于machine-learning - 在在线机器学习算法线性回归随机梯度中,当新的训练数据到来时,我们是否必须将其与以前的数据混合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36034639/

相关文章:

python - 使用predict_generator和VGG16的内存错误

algorithm - 在一系列图像中检测公共(public)区域的方法

python - Normal equation 和 Numpy 'least-squares' , 'solve' 回归方法的区别?

c++ - Opencv 过滤器导致图像上出现黑色衬里

python - 在 Pandas 中创建虚拟变量期间 drop_First=true

pandas - sklearn : Found input variables with inconsistent numbers of samples: [1, 99]

python - 如何将 gplearn 的输出导出为 sympy 表达式或其他可读格式?

algorithm - 判断无监督学习算法是否正确的方法或常用方法有哪些

machine-learning - 神经网络发散而不是收敛

c++ - 使用 convertTo 从 CV_16SC1 转换为 CV_32FC1