python - 将 HDF5 (.h5) 转换为 spark 数据帧

标签 python pyspark apache-spark-sql hdf5

我刚刚开始学习 spark(更准确地说是 pyspark)。

如何将 HDF5 文件转换为 spark 数据帧?

可以 dask help on that or dask dataframes 与 spark dataframes 有什么不同?

最佳答案

读取 pandas 中的 Dataframe。然后你可以将 pandas dataframe 转换为 spark Dataframe。我就是这样做的。此代码将帮助您:

import pandas as pd

store = pd.HDFStore('/mypath')
wav = store.select('mykey')
spark_df = sqlContext.createDataFrame(wav, mySchema) //mySchema is optional
spark_df.take(1)

希望对您有所帮助!

关于python - 将 HDF5 (.h5) 转换为 spark 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39774426/

相关文章:

hadoop - 在 Spark 上进行 rank() 的有效方法?

apache-spark - Spark + Parquet "database"的设计

python - 属性 setter 在 Python 类中不起作用

regex - 在 Pyspark 中使用正则表达式函数计算日期

python - python中带有EOF的字符串

sql - pyspark 将列转换为行

apache-spark - 如何在PySpark中进行爆炸?

apache-spark - 在独立集群中的 Spark 中加载文件

c# - 使用 OpenCV 感知二维图像中长方体的尺寸(或突出点)

python - 在 Python 中使用带线程的全局字典