我有一堆联系数据,列出了哪些优惠联系了哪些成员(member),总结如下:
为了理解它(并使其更具可扩展性),我正在考虑为每个优惠创建虚拟变量,然后使用逻辑模型来查看不同的优惠如何影响性能:
在我踏上这段旅程之前,我想获得一些意见,如果这是解决这个问题的明智方法(我已经开始尝试,但得到了模型输出,但尚未深入研究)。有人建议我使用线性回归,但我不太确定在这种情况下的方法。
我希望得到的是可解释的系数 - 所以我可以看到,在 3d 邮件中邮寄 50% 的折扣优惠并不像 25 美元的礼品卡等那样有影响力,然后大规模地这样做(很多包含许多不同优惠的邮件),以得出有关不同优惠的时间影响的一些结论。
我担心的是,我最终会得到一个相当稀疏的矩阵,其中仅表示许多可能的组合,以及由此可能产生的问题。我已经学习了一些 ML 在线类(class),但对它还很陌生,这是我第一次直接使用它的机会之一,所以我希望我可以从中创建一些有用的东西。我可以访问大量的数据,这只是获取一些可以显示一些值(value)的基本内容的问题。也许已经有一些关于这方面的工作,甚至是我可以使用的某种库?
感谢您的帮助!
最佳答案
如果您的目标变量是二进制(1 或 0)(如第二个图表所示),则分类模型是合适的。逻辑回归是一个不错的第一个选择,您也可以使用基于树的模型,例如决策树分类器或随机森林。
创建虚拟变量是一个很好的举措;如果您想将折扣保留在单列中,您也可以将它们转换为数值,但这对于像逻辑回归这样的线性模型可能不太有效,因为相关性可能不是线性的。
如果您想直接对第一个图表进行建模,您可以使用线性回归来预测转化率,我不确定这样做的区别,这实际上是我一段时间以来一直想知道的事情,你激励我post a question on stats.stackexchange.com
关于python - 使用逻辑回归进行多点触摸响应模型(python/pandas)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40227773/