我刚刚开始学习 spark(更准确地说是 pyspark)。
如何将 HDF5 文件转换为 spark 数据帧?
可以 dask help on that or dask dataframes 与 spark dataframes 有什么不同?
最佳答案
读取 pandas 中的 Dataframe。然后你可以将 pandas dataframe 转换为 spark Dataframe。我就是这样做的。此代码将帮助您:
import pandas as pd
store = pd.HDFStore('/mypath')
wav = store.select('mykey')
spark_df = sqlContext.createDataFrame(wav, mySchema) //mySchema is optional
spark_df.take(1)
希望对您有所帮助!
关于python - 将 HDF5 (.h5) 转换为 spark 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39774426/