python - 用 pyspark 替换数据框中一列的所有值

标签 python apache-spark pyspark apache-spark-sql

我希望用特定值替换 spark 数据框中列的所有值。我正在使用 pyspark。我试过类似的东西-

new_df = df.withColumn('column_name',10)

这里我想将 column_name 列中的所有值替换为 10。在 Pandas 中,这可以通过 df['column_name']=10。我无法弄清楚如何在 Spark 中执行相同的操作。

最佳答案

使用 lit 可能更容易,如下所示:

from pyspark.sql.functions import lit
new_df = df.withColumn('column_name', lit(10))

关于python - 用 pyspark 替换数据框中一列的所有值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36295739/

相关文章:

apache-spark - Pyspark Dataframe 中的 Cache()

python - SpaCy 将新行 (\n) 标记为 GPE 命名实体

python - 在python中解析带有多个分隔符的csv

python - 当 Django models 字段为空时,将值设置为默认值

scala - 如何使用 Spark 创建用于文本分类的 TF-IDF?

apache-spark - UDF 将单词映射到 Spark 中的术语索引

android - 如何在 Kivy 中检测 Android 上的屏幕旋转?

python - 将数据插入数据库时​​PySpark NoSuchMethodError : sun. nio.ch.DirectBuffer.cleaner

hadoop - 来自 SequenceFile 的 Spark DataFrame

python - 将大表的一部分读取到 AWS GLUE 的最佳方法