machine-learning - 机器学习项目 - 我的目标变量在时间上分布不均匀

标签 machine-learning

我正在开展一个机器学习项目,我试图预测客户会购买什么特定产品(购买产品是我的目标变量)。我有很多关于客户的特征和足够的历史数据。 我的问题是我的目标变量具有很强的季节性——大部分产品在 12 月销售,其他月份销量很少。 我必须做什么来弥补这种不平衡?目标变量是否需要一些调整?我需要模型在所有月份都具有一致的性能。谢谢

最佳答案

最简单的选择是以某种方式将月份作为一项功能。执行此操作的一些选项:

  • 单热编码月。优点:非常简单,导致特征集相当稀疏
  • 创建一个朴素贝叶斯类型特征,对给定月份的销售先验概率进行编码。例如如果 60% 的销售额发生在 12 月,而其他月份的销售额统一为 3.6%,则该特征对于 12 月的每笔销售额的值为 0.6,对于其他月份的销售额为 0.036

对于这两种方法,您都需要确保拥有完整 12 个月期间的训练数据以及完整 12 个月期间的单独评估集。

关于machine-learning - 机器学习项目 - 我的目标变量在时间上分布不均匀,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59667381/

相关文章:

machine-learning - 处理机器学习中的地理空间坐标

python - Pandas 中使用 iloc 和负整数进行切片

python - keras:如何阻止卷积层权重

python - 关于如何预测 future 时间序列数据的建议

python - RandomizedSearchCV 使用相同的 random_state 给出不同的结果

amazon-web-services - 如何调用 AWS SageMaker 终端节点来获取推理?

python - Keras 模型给出的测试精度为 1.0

c++ - 如何使用某种统计方法匹配软聚合特征(眼睛、 Nose 、嘴巴)?

machine-learning - 提取属性时发生意外异常 Open Vino

matlab - TreeBagger() (MATLAB) 以及训练集和测试集上不同数量的变量