R 预测模型 预测原因和倾向 %

标签 r machine-learning random-forest prediction rpart

对 R 和机器学习非常陌生,但是我必须开展一个项目来根据许多变量(例如,预测客户流失率)来预测客户流失。服务期限、发行的信用票据数量、错过交货的数量、价格上涨的数量等。

我正在使用 rpart 和 randomforest,并获得了一个数据集,其中包含针对每个数据集的流失预测。我能够生成一个置信矩阵并查看哪些是重要指标。然而,输出的目的是作为要处理的“风险”客户列表发送给销售团队。

对此真正重要的是,将置信度/倾向/可能性%附加到客户流失率上,这样我就可以按风险顺序进行排名,而且,有没有一种方法可以为每个客户附加一个类别/摘要/原因,例如为什么他们被预测会流失 - 即客户 abc - 在价格上涨方面得分很高,因此我们需要谨慎定价。客户定义 - 错过交货率很高 - 需要修复我们的服务吗?

非常感谢您的帮助。

最佳答案

  1. 如果您想预测流失概率,可以训练逻辑回归模型并使用该模型预测流失概率。您还可以找出导致客户流失的显着预测变量(请参阅 http://www.duplication.net.au/ANZMAC09/papers/ANZMAC2009-678.pdf ),您可以使用方差分析来查找由显着预测变量解释的方差。
  2. 如果你想找到特定客户流失的原因,你可以学习一个决策树(CART/rpart)模型,然后沿着决策树中从根到客户所属的叶节点的路径学习了。
  3. 最后,randomForest 集成分类器可用于根据 OOB 误差估计找到最重要的流失预测因子。

关于R 预测模型 预测原因和倾向 %,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39611286/

相关文章:

apache-spark - Spark MLlib 中的 HashingTF 中的 numFeatures 与文档中的实际术语数之间有什么关系?

RF : high OOB accuracy by one class and very low accuracy by the other, 类别不平衡严重

r - 处理 R 重新编码中缺少的系统?

r - 合并数据框并将列合并为一

machine-learning - 使用感知器进行分类

python - 如何降低二进制数据的维数?

r - 从另一个数据帧更新数据帧行和列的子集

r - 1 的最小倍数 :20 - How can I make it quicker?

python - 使用 R-Squared 评估随机森林性能

python - 我的 R 平方分数为负,但使用 k 倍交叉验证的准确度分数约为 92%