我正在开展一个机器学习项目,我试图预测客户会购买什么特定产品(购买产品是我的目标变量)。我有很多关于客户的特征和足够的历史数据。 我的问题是我的目标变量具有很强的季节性——大部分产品在 12 月销售,其他月份销量很少。 我必须做什么来弥补这种不平衡?目标变量是否需要一些调整?我需要模型在所有月份都具有一致的性能。谢谢
最佳答案
最简单的选择是以某种方式将月份作为一项功能。执行此操作的一些选项:
- 单热编码月。优点:非常简单,导致特征集相当稀疏
- 创建一个朴素贝叶斯类型特征,对给定月份的销售先验概率进行编码。例如如果 60% 的销售额发生在 12 月,而其他月份的销售额统一为 3.6%,则该特征对于 12 月的每笔销售额的值为 0.6,对于其他月份的销售额为 0.036
对于这两种方法,您都需要确保拥有完整 12 个月期间的训练数据以及完整 12 个月期间的单独评估集。
关于machine-learning - 机器学习项目 - 我的目标变量在时间上分布不均匀,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59667381/