python - 使用 python 从 GCP 存储桶中递归读取所有子文件夹中的 csv 文件

标签 python pandas csv google-cloud-platform

我尝试使用 python pandas 从 GCP 存储桶中可用的所有子文件夹递归加载所有 csv 文件。

目前我使用dask加载数据,但速度很慢。

import dask
path = "gs://mybucket/parent_path + "*/*.csv"
getAllDaysData = dask.dataframe.read_csv(path).compute()

有人可以帮助我更好的方法吗?

最佳答案

我建议改为读取 Parquet 文件。 并使用 pd.read_parquet(file, engine = 'pyarrow') 将其转换为 pandas 数据帧。

关于python - 使用 python 从 GCP 存储桶中递归读取所有子文件夹中的 csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73870641/

相关文章:

python - 属性错误: module 'tox.config' has no attribute 'parseini'

python - 使用 NLTK 删除停用词时对象没有属性

python - pd.Series.str.lower.replace ('str' , 'replace_str' ) 不起作用但 pd.Series.str.replace。 ('STR' , 'replace_str' ) 呢?

python - 使用 Python 从 CSV 文件中提取信息/清理数据

python - 从 CSV 为 Google map 创建 KML 文件

python - Pandas:解析 CSV,区分缺失值哨兵和恰好等于它的字符串

python - 使用 cssutils python 模块时 [dir=rtl] 的样式表解析错误

python - lxml etree 获取元素之前的所有文本

python - 如何跳过 Pandas 数据框中的页眉和页脚数据?

python - 无法将值转换为轴单位' - 在为 df 创建绘图时