我正在尝试将一个数组类型的列乘以一个标量。此标量也是来自同一 PySpark 数据帧的值。
例如,我有这个数据框:
df = sc.parallelize([([1, 2],3)]).toDF(["l","factor"])
+------+------+
| l|factor|
+------+------+
|[1, 2]| 3|
+------+------+
我想实现的是:
+------+------+
| l|factor|
+------+------+
|[3, 6]| 3|
+------+------+
这是我试过的:
df.withColumn("l", lit("factor") * df.l)
它返回类型不匹配错误。 如何将数组类型的列乘以数字?
最佳答案
从 spark-2.4
使用 transform
spark.sql(""" select l, factor, transform(l,x -> x * factor) as result from tmp """).show(10,False)
#+------+------+------+
#|l |factor|result|
#+------+------+------+
#|[1, 2]|3 |[3, 6]|
#+------+------+------+
使用 dataframe API:
df.withColumn("res",expr("""transform(l,x -> x*factor)""")).show()
#+------+------+------+
#| l|factor| res|
#+------+------+------+
#|[1, 2]| 3|[3, 6]|
#+------+------+------+
关于apache-spark - 将 PySpark 数组列乘以标量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62478107/