我正在从事一个关于客户流失分析(客户是否离开)的数据科学项目。我正在尝试处理离群值,但我有一个问题,即当我的数据有很多零值时我需要如何思考。我知道它可能包含一个意思,但请看下面的结果。 Results , Value Counts , z score-hard edges and outliers
我想问一下我应该怎么做才能获得更好的结果,我应该保留所有零值吗?有什么建议吗? 异常值处理部分零值过多怎么办?
最佳答案
这个问题太宽泛了,不能在这里问。 Stackoverflow主要是针对编程问题,我建议你在stats上发布你的问题。或 data-science因为您的问题更有可能以更广泛的方式得到回答。
我猜 0 值并没有像@yatu 怀疑的那样丢失,从 colname 推断,这意味着收入没有变化。此外,0 不是离群值。
引用this类似的讨论。
我可以建议再读一读,但这篇论文在没有明确讨论您的问题的地方会传达直觉。然而,您可能会发现它很有用。当然,不要忘记搜索引用资料。
进一步阅读:A Statistical Model for Big Data with Excessive Zero-Inflated Problem
关于python - 异常值处理部分零值过多怎么办?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64499646/