python - 异常值处理部分零值过多怎么办?

标签 python machine-learning data-science outliers

我正在从事一个关于客户流失分析(客户是否离开)的数据科学项目。我正在尝试处理离群值,但我有一个问题,即当我的数据有很多零值时我需要如何思考。我知道它可能包含一个意思,但请看下面的结果。 Results , Value Counts , z score-hard edges and outliers

我想问一下我应该怎么做才能获得更好的结果,我应该保留所有零值吗?有什么建议吗? 异常值处理部分零值过多怎么办?

最佳答案

这个问题太宽泛了,不能在这里问。 Stackoverflow主要是针对编程问题,我建议你在stats上发布你的问题。或 data-science因为您的问题更有可能以更广泛的方式得到回答。

我猜 0 值并没有像@yatu 怀疑的那样丢失,从 colname 推断,这意味着收入没有变化。此外,0 不是离群值。

引用this类似的讨论。

我可以建议再读一读,但这篇论文在没有明确讨论您的问题的地方会传达直觉。然而,您可能会发现它很有用。当然,不要忘记搜索引用资料。

进一步阅读:A Statistical Model for Big Data with Excessive Zero-Inflated Problem

关于python - 异常值处理部分零值过多怎么办?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64499646/

相关文章:

python - 为 Flask 应用程序单元测试设置(模拟)请求 header

python - 不同环境下搜索结果不同

适用于 Python 程序员的 PHP : UTF-8 Issues

machine-learning - 我如何确定应该使用哪种评估指标来进行机器学习中的分类问题陈述?

使用未导出函数的 R foreach 并行处理(以 C50 为例)

r - R 中的神经网络预测(nnet 包)

javascript - 如何在 D3.js 中输入数组?

machine-learning - 时间序列预测的最佳算法?

python - 将正则表达式与文件输入一起使用

python - 如何为图像添加高斯噪声?