R 预测模型预测原因和倾向 %

标签 r machine-learning random-forest prediction rpart

对 R 和机器学习非常陌生，但是我必须开展一个项目来根据许多变量(例如，预测客户流失率)来预测客户流失。服务期限、发行的信用票据数量、错过交货的数量、价格上涨的数量等。

我正在使用 rpart 和 randomforest，并获得了一个数据集，其中包含针对每个数据集的流失预测。我能够生成一个置信矩阵并查看哪些是重要指标。然而，输出的目的是作为要处理的“风险”客户列表发送给销售团队。

对此真正重要的是，将置信度/倾向/可能性%附加到客户流失率上，这样我就可以按风险顺序进行排名，而且，有没有一种方法可以为每个客户附加一个类别/摘要/原因，例如为什么他们被预测会流失 - 即客户 abc - 在价格上涨方面得分很高，因此我们需要谨慎定价。客户定义 - 错过交货率很高 - 需要修复我们的服务吗？

非常感谢您的帮助。

最佳答案

如果您想预测流失概率，可以训练逻辑回归模型并使用该模型预测流失概率。您还可以找出导致客户流失的显着预测变量(请参阅 http://www.duplication.net.au/ANZMAC09/papers/ANZMAC2009-678.pdf )，您可以使用方差分析来查找由显着预测变量解释的方差。
如果你想找到特定客户流失的原因，你可以学习一个决策树(CART/rpart)模型，然后沿着决策树中从根到客户所属的叶节点的路径学习了。
最后，randomForest 集成分类器可用于根据 OOB 误差估计找到最重要的流失预测因子。

关于R 预测模型预测原因和倾向 %，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39611286/

上一篇：r - 在 caret::train 函数中使用 bagImpute 预处理时出现缺失值错误

下一篇：python - 将 Scaler 与 LassoCV、RidgeCV 一起使用

RF : high OOB accuracy by one class and very low accuracy by the other, 类别不平衡严重

r - 处理 R 重新编码中缺少的系统？

r - 合并数据框并将列合并为一

machine-learning - 使用感知器进行分类

python - 如何降低二进制数据的维数？

r - 从另一个数据帧更新数据帧行和列的子集

r - 1 的最小倍数 :20 - How can I make it quicker?

python - 使用 R-Squared 评估随机森林性能

python - 我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92%

R 预测模型 预测原因和倾向 %

上一篇：r - 在 caret::train 函数中使用 bagImpute 预处理时出现缺失值错误

下一篇：python - 将 Scaler 与 LassoCV、RidgeCV 一起使用

R 预测模型预测原因和倾向 %