apache-spark - 在 PySpark 数据框中修剪字符串列

标签 apache-spark pyspark apache-spark-sql trim

从 CSV 文件创建 Spark DataFrame 后,我想修剪一列。我试过了:

df = df.withColumn("Product", df.Product.strip())
df是我的数据框,Product是我表中的一列
但我收到错误:
Column object is not callable
有什么建议?

最佳答案

from pyspark.sql.functions import trim

df = df.withColumn("Product", trim(col("Product")))

关于apache-spark - 在 PySpark 数据框中修剪字符串列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35155821/

相关文章:

python - 从 Pyspark DataFrame 中的选定行获取特定字段

python - Apache Spark 查询仅针对 "dd/mm/yyyy"格式的 YEAR

apache-spark - Spark矩阵乘法代码需要花费大量时间来执行

python - PySpark:在窗口上加盐并倾斜的 CumSum

apache-spark - PySpark,决策树(Spark 2.0.0)

scala - 如何在Spark中对嵌套的数据框进行平面映射

jdbc - Spark作业服务器错误类未找到异常

scala - 使用 Spark 读取欧洲格式的 .csv 数据

eclipse - Spark 应用程序在 Eclipse 中使用 Scala 和 SBT

python - Pyspark DataFrame 选择具有不同值的行和具有非不同值的行