python - 在 pyspark 中将行转置为列

标签 python apache-spark pyspark

如何转置只有一列和多行的 Dataframe 表,例如:

1
2
3
5
6
7
...

只有一行和多列的数据框,例如:

1,2,3,4,5,6,7,8,9,10,...

最佳答案

只需执行 pivot :

df = spark.range(10)

df.show()
+---+                                                                           
| id|
+---+
|  0|
|  1|
|  2|
|  3|
|  4|
|  5|
|  6|
|  7|
|  8|
|  9|
+---+


df.groupBy().pivot("id").count().show()                                                                            
+---+---+---+---+---+---+---+---+---+---+                                       
|  0|  1|  2|  3|  4|  5|  6|  7|  8|  9|
+---+---+---+---+---+---+---+---+---+---+
|  1|  1|  1|  1|  1|  1|  1|  1|  1|  1|
+---+---+---+---+---+---+---+---+---+---+

df.groupBy().pivot("id").agg(F.first(F.col("id"))).show()                                                          
+---+---+---+---+---+---+---+---+---+---+                                       
|  0|  1|  2|  3|  4|  5|  6|  7|  8|  9|
+---+---+---+---+---+---+---+---+---+---+
|  0|  1|  2|  3|  4|  5|  6|  7|  8|  9|
+---+---+---+---+---+---+---+---+---+---+

关于python - 在 pyspark 中将行转置为列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58286818/

相关文章:

python - 如果存在BooleanField,则NgramField无法正常工作……Haystack + Elasticsearch的问题

apache-spark - Spark提交失败,返回码为13,例如wordCount

apache-spark - Spark中使用中位数代替均值作为聚合函数

python - PySpark DataFrames - 使用不同类型的列之间的比较进行过滤

java - 如何在 Java 中使用 MLeap DenseTensor

python - 从元组列表生成邻接矩阵的更优雅的方法

python - 如何在QTest中的QGraphicsWidget上生成鼠标点击?

python - 有没有办法从不同长度的 Pandas 数据框中移动多行?

java - 在 Kubernetes 上使用 Kafka 进行 Spark 作业

json - 如何在 Spark 2 中解压 LZ4 JSON