python - 如何使用 boto3 将 S3 中的单个 Parquet 文件读入 Pandas 数据帧?

标签 python pandas dataframe amazon-s3 boto3

我正在尝试读取存储在 S3 存储桶中的单个 Parquet 文件,并使用 boto3 将其转换为 pandas 数据帧。

最佳答案

对于 python 3.6+ AWS 有一个名为 aws-data-wrangler 的库这有助于 Pandas/S3/Parquet 之间的集成

安装做;

pip install awswrangler

要使用 awswrangler 1.x.x 及更高版本从 s3 读取单个 Parquet 文件,请执行;

import awswrangler as wr
df = wr.s3.read_parquet(path="s3://my_bucket/path/to/data_folder/my-file.parquet")

关于python - 如何使用 boto3 将 S3 中的单个 Parquet 文件读入 Pandas 数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51027645/

相关文章:

python - 创建单行 python pandas 数据框

python - 如何根据不同的数据帧部分绘制(plotly.express)多条线

python - 太多的值无法在产量中解压

python - 为什么 Pandas 提示 'n' 是 split 函数的无效关键字参数?

python - Pandas 中最简单的分组/求和

r - 使用鼠标功能时出错 : nothing left to impute

python - 如何检查脚本是从终端调用还是从另一个脚本调用

Python 函数在定义之前调用

python - 将列表映射到 1 和 0

python - 有条件地格式化 Python pandas 单元格