python - 如何使用多个值更改 Spark 中 DataFrame 的 na 值

标签 python apache-spark-sql

我有一个有时包含空值的数据框,我想将其替换为一系列值(例如从 0 到 100 的随机整数)中的单个值,而不是始终相同的值。

na.fill()函数似乎不允许这样做,而且我找不到手动执行此操作的好方法。
我使用 Python 和 Spark 2.2

最佳答案

逐一检查每个单元格,检查值是否为空,如果为空,则将其更改为随机数。

首先,导入随机。然后是这样的:

df = df.where(df.a.isNull()).replace(null, random.randrange(min, max+1))

关于python - 如何使用多个值更改 Spark 中 DataFrame 的 na 值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47784223/

相关文章:

python - 创建 python3 virtualenvwrapper 时出错

python - Pandas groupby 分别制作两列列表

python - Catboost:为什么多类分类内部转化为回归/单类分类问题

java - 将spark中的现有行添加到另一个数据集(Spark Java 2.3.1)

csv - 将 Spark 数据帧写为带有分区的 CSV

python - 如何在 Odoo 表单 View 中显示相关字段的其他字段的值

python - 在 for 循环中需要范围

apache-spark - Pyspark udf 对于不带参数的函数失败,但对于不带参数的 lambda 有效

hadoop - 使用EMR中的Spark无法从S3读取Avro

pyspark - 我想将数据框中的一列月份数字更改为月份名称(pyspark)