python - 如何在pyspark中将DenseMatrix转换为spark DataFrame?

标签 python apache-spark apache-spark-sql

除了下面使用 Scala 的示例之外,我没有找到任何将矩阵转换为 Spark 数据帧的 pyspark 代码。有谁知道如何使用 python 代替吗?

How to convert a mllib matrix to a spark dataframe?

最佳答案

我们可以使用toArray()方法将DenseMatrix转换为numpy ndarray,并使用tolist()方法将数组转换为列表。

>>> m = DenseMatrix(2, 2, range(4))
>>> m
DenseMatrix(2, 2, [0.0, 1.0, 2.0, 3.0], False)
>>> rows = m.toArray().tolist()
>>> rows
[[0.0, 2.0], [1.0, 3.0]]
>>> df = spark.createDataFrame(rows,['col1','col2'])
>>> df.show()
+----+----+
|col1|col2|
+----+----+
| 0.0| 2.0|
| 1.0| 3.0|
+----+----+

关于python - 如何在pyspark中将DenseMatrix转换为spark DataFrame?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54103400/

相关文章:

python - 将指针值从 python 传递给 C 函数

python - 如何连续改变正弦声音的频率?

python - 如何返回列标题,其中该行包含 Pandas Dataframe 中的最大值

Scala代码使用java.util.NoSuchElementException : next on empty iterator崩溃

hadoop - 如何使用 Spark 协调器获取每小时计划 Spark 工作的特定时间

apache-spark - 在 PySpark 数据框中修剪字符串列

python - 如何在 gekko 中动态构建约束?

python - 在Python中将一列spark数据帧转换为由管道字符分隔的单个字符串

apache-spark - 将 DataFrame 写入 parquet 会创建空文件

json - 如何将行合并到 Spark 数据框的列中作为有效的json以将其写入mysql