假设我有 10 亿个数据集点,我们已经用这些数据集训练了我们的机器学习模型并获得了我们的参数/权重。现在我收到另外 100 个数据集点,我如何训练这个新数据集?与线性回归不同,如果我们已经训练了 20 亿封邮件,我们如何在垃圾邮件过滤中训练垃圾邮件/非垃圾邮件的新示例?
最佳答案
在我看来,您应该使用不同的算法(即 online algorithm )。
我从未在实践中尝试过这一点,但这里有一篇来自 NIPS(备受推崇的 ML session )的论文,您可能会觉得有用:Online Linear Regression and Its Application to Model-Based Reinforcement Learning 。 (在对 a similar question on Cross Validated 的回答中建议了相同的算法。)
关于machine-learning - 在在线机器学习算法线性回归随机梯度中,当新的训练数据到来时,我们是否必须将其与以前的数据混合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36034639/