machine-learning - 机器学习项目 - 我的目标变量在时间上分布不均匀

标签 machine-learning

我正在开展一个机器学习项目，我试图预测客户会购买什么特定产品(购买产品是我的目标变量)。我有很多关于客户的特征和足够的历史数据。我的问题是我的目标变量具有很强的季节性——大部分产品在 12 月销售，其他月份销量很少。我必须做什么来弥补这种不平衡？目标变量是否需要一些调整？我需要模型在所有月份都具有一致的性能。谢谢

最佳答案

最简单的选择是以某种方式将月份作为一项功能。执行此操作的一些选项:

单热编码月。优点:非常简单，导致特征集相当稀疏
创建一个朴素贝叶斯类型特征，对给定月份的销售先验概率进行编码。例如如果 60% 的销售额发生在 12 月，而其他月份的销售额统一为 3.6%，则该特征对于 12 月的每笔销售额的值为 0.6，对于其他月份的销售额为 0.036

对于这两种方法，您都需要确保拥有完整 12 个月期间的训练数据以及完整 12 个月期间的单独评估集。

关于machine-learning - 机器学习项目 - 我的目标变量在时间上分布不均匀，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59667381/

上一篇：machine-learning - 使用多个种子的 K 折交叉验证来评估模型的正确方法是什么？

下一篇：python - Keras的evaluate_generator准确率和scikit learn的accuracy_score不一致

相关文章：

machine-learning - 处理机器学习中的地理空间坐标

python - Pandas 中使用 iloc 和负整数进行切片

python - keras:如何阻止卷积层权重

python - 关于如何预测 future 时间序列数据的建议

python - RandomizedSearchCV 使用相同的 random_state 给出不同的结果

amazon-web-services - 如何调用 AWS SageMaker 终端节点来获取推理？

python - Keras 模型给出的测试精度为 1.0

c++ - 如何使用某种统计方法匹配软聚合特征(眼睛、 Nose 、嘴巴)？

machine-learning - 提取属性时发生意外异常 Open Vino

matlab - TreeBagger() (MATLAB) 以及训练集和测试集上不同数量的变量