我尝试使用 python pandas 从 GCP 存储桶中可用的所有子文件夹递归加载所有 csv 文件。
目前我使用dask加载数据,但速度很慢。
import dask
path = "gs://mybucket/parent_path + "*/*.csv"
getAllDaysData = dask.dataframe.read_csv(path).compute()
有人可以帮助我更好的方法吗?
最佳答案
我建议改为读取 Parquet 文件。
并使用 pd.read_parquet(file, engine = 'pyarrow')
将其转换为 pandas 数据帧。
关于python - 使用 python 从 GCP 存储桶中递归读取所有子文件夹中的 csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73870641/