python - 如何将 spark sql 数据帧转换为 numpy 数组?

标签 python arrays numpy apache-spark dataframe

我正在使用 pyspark 并将配置单元表导入到数据框中。

df = sqlContext.sql("from hive_table select *") 

我需要有关将此 df 转换为 numpy 数组的帮助。您可以假设 hive_table 只有一列。

你能推荐一下吗?先感谢您。

最佳答案

您可以:

sqlContext.range(0, 10).toPandas().values  # .reshape(-1) for 1d array
array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

但您不太可能真的想要。创建的 array 将在驱动程序节点本地,因此它很少有用。如果您正在寻找类似分布式数组的数据结构的某种变体,Apache Spark 中有许多可能的选择:

并且独立于 Apache Spark:

关于python - 如何将 spark sql 数据帧转换为 numpy 数组?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41770712/

相关文章:

javascript数组似乎改变了我自己

javascript - 在javascript中展平嵌套对象

python - 为另一个数组中的每个元素向量化查找数组中最接近的值

python - python 中的乘法顺序何时重要?

python - 一些与 Python 中的语法、标记、词干提取和词义消歧有关的 NLP 内容

类中的 C++ 2d "dynamic"数组?

python - 比较两个以上的 numpy 数组

python - 如何初始化列表对象的 Numpy 数组

jquery tablesorter自定义顺序

python - 处理 Python 套接字中的超时错误