apache-spark - 在 PySpark 数据框中修剪字符串列

标签 apache-spark pyspark apache-spark-sql trim

从 CSV 文件创建 Spark DataFrame 后，我想修剪一列。我试过了:

df = df.withColumn("Product", df.Product.strip())

df是我的数据框，Product是我表中的一列
但我收到错误:

Column object is not callable

有什么建议？

最佳答案

from pyspark.sql.functions import trim

df = df.withColumn("Product", trim(col("Product")))

关于apache-spark - 在 PySpark 数据框中修剪字符串列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35155821/

上一篇：NHibernate 在使用 Fetch 时返回子集合中的重复对象

下一篇：ruby-on-rails-3.1 - Formastic Bootstrap Rails 错误 - 没有这样的文件来加载 ButtonsHelpers

相关文章：

python - 从 Pyspark DataFrame 中的选定行获取特定字段

python - Apache Spark 查询仅针对 "dd/mm/yyyy"格式的 YEAR

apache-spark - Spark矩阵乘法代码需要花费大量时间来执行

python - PySpark:在窗口上加盐并倾斜的 CumSum

apache-spark - PySpark，决策树(Spark 2.0.0)

scala - 如何在Spark中对嵌套的数据框进行平面映射

jdbc - Spark作业服务器错误类未找到异常

scala - 使用 Spark 读取欧洲格式的 .csv 数据

eclipse - Spark 应用程序在 Eclipse 中使用 Scala 和 SBT

python - Pyspark DataFrame 选择具有不同值的行和具有非不同值的行

©2024 IT工具网联系我们