我找到了 2 种方法来替换 python 中的 nan 值, 一个使用 sklearn 的 imputer 类,另一个使用 df.fillnan() 后者似乎很容易,代码更少。 但效率明智哪个更好。 任何人都可以解释每个的用例吗?
最佳答案
我觉得 imputer 类有它自己的好处,因为你可以简单地提到 mean 或 median 来执行一些操作,这与 fillna 不同,在 fillna 中你需要提供值。但是在 imputer 中你需要拟合和转换数据集,这意味着更多的代码行。但它可能会给你比 fillna 更快的速度,但除非数据集非常大,否则这无关紧要。
但是 fillna 有一些非常酷的东西。您甚至可以使用有时可能需要的自定义值来填充 na。这使 fillna 更好,恕我直言,即使它可能执行得更慢。
关于python - Sklearn imputer vs df.fillna 用列的平均值替换 nan 值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47114021/