apache-spark - 如何将数据框的所有列转换为字符串

标签 apache-spark pyspark apache-spark-sql

我有一个混合类型的数据框。
我正在使用从 hive 表中读取此数据框spark.sql('select a,b,c from table')命令。

一些列是 int 、 bigint 、 double ,而其他列是字符串。共有 32 列。
pyspark 中是否有任何方法可以将数据框中的所有列转换为字符串类型?

最佳答案

只是:

from pyspark.sql.functions import col

table = spark.sql("table")

table.select([col(c).cast("string") for c in table.columns])

关于apache-spark - 如何将数据框的所有列转换为字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42080730/

相关文章:

sql - Spark SQL : Extract String before a certain character

apache-spark - 不支持 spark sql 上下文中的 WITH 子句

scala - Spark 数据帧 : operate on groups

java - 使用独立的本地 spark java 程序读取 GCS 文件

java - apache spark2.3.0以master作为 yarn 启动时,失败并出现错误无法找到或加载主类org.apache.spark.deploy.yarn.ApplicationMaster

tensorflow - Spark Dataframe to Tensorflow Dataset (tf.data API)

apache-spark - Spark Parquet 分区 : Large number of files

python - pyspark 行列表的 RDD 到 DataFrame

json - AWS Glue Crawler将json文件分类为UNKNOWN

apache-spark - Spark 数据帧 : explode list column