python - 在 Python 中读取位于 S3 子文件夹下的文件的内容

标签 python amazon-web-services amazon-s3

我正在尝试从 S3 存储桶读取文件内容(而不是下载)。问题是该文件位于多级文件夹下。例如,完整路径可以是 s3://s3-bucket/folder-1/folder-2/my_file.json。如何获取该特定文件,而不是使用列出所有对象的迭代方法?

这是我要更改的代码:

import boto3

s3 = boto3.resource('s3')
bucket = s3.Bucket('s3-bucket')
for obj in my_bucket.objects.all():
   key = obj.key
   if key == 'folder-1/folder-2/my_file.json':
      return obj.get()['Body'].read()

能否以更简单、更直接的方式完成?

最佳答案

是的 - 无需枚举存储桶。

使用 s3.Object 直接读取文件,提供存储桶名称作为第一个参数,对象键作为第二个参数。

“文件夹”在 S3 中并不存在 - Amazon S3 不使用层次结构来组织其对象和文件。为了组织简单起见,Amazon S3 控制台将“文件夹”显示为对对象进行分组的一种方式,但它们最终会融入您的对象键中。

这应该可行:

import boto3
s3 = boto3.resource('s3')
obj = s3.Object("s3-bucket", "folder-1/folder-2/my_file.json")
body = obj.get()['Body'].read()

关于python - 在 Python 中读取位于 S3 子文件夹下的文件的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69882380/

相关文章:

python - 如何通过计算解决 'four points, two distance, unique shapes' 问题

python - 如何使用 python Selenium 单击单选按钮

amazon-web-services - AWS Dynamo无法自动缩减

amazon-web-services - 大 JSON 文件(4000 个对象)不写入 dynamodb 但小文件(10 个对象)可以工作是否有原因

elasticsearch - Logstash 一直在执行 s3 输入任务但从未发送输出事件

python - 如何更改此脚本以包含重命名功能?

python - 运行 pytest 时 more-itertools 中的语法无效

java - Amazon Simple Workflow 和子工作流程

amazon-web-services - AWS S3 操作不适用于声明中的任何资源

amazon-web-services - Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密