dataframe - pyspark 列出 s3 存储桶中文件夹的子文件夹

标签 dataframe amazon-s3 pyspark s3-bucket

我有一个 s3我在其中存储要由我的 pyspark 代码处理的数据文件的存储桶。
我要访问的文件夹是:

s3a://bucket_name/data/

此文件夹包含文件夹。我的目标是访问此目录中最后添加的文件夹的内容。
由于某些原因,我不想使用 boto。
有什么方法可以访问文件夹列表,以便我可以选择我想访问的文件夹。
如果我指定文件夹,我可以访问文件,但我想让它动态。

最佳答案

我建议使用 s3fs,它是 boto3 上的文件系统样式包装器。文档在这里:http://s3fs.readthedocs.io/en/latest/

这是您关心的部分(您可能需要传入或以其他方式配置您的 AWS 凭证):

import s3fs
fs = s3fs.S3FileSystem(anon=True)
fs.ls('my-bucket')

关于dataframe - pyspark 列出 s3 存储桶中文件夹的子文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47157393/

相关文章:

python - 使用另一列的值获取某一列的值

python - dataprep.eda TypeError : Please provide npartitions as an int, 或如果指定 chunksize 则可能为 None

amazon-web-services - 在亚马逊服务器中收到错误“[BucketAlreadyOwnedByYou]您先前创建命名存储桶的请求成功,并且您已经拥有它”

javascript - 如何将音频/视频数据 uri 从浏览器发送到 S3 中的文件

ruby-on-rails - 使用Carrierwave从S3下载图像(无需打开)

python - 检查 Pandas 数据框是否是其他数据框的子集

python - 将数据帧的部分内容复制到另一个数据帧中

python - 数据源用完时如何停止 Spark 流

python - 在 pyspark 数据帧上用逗号替换点

python - 如何计算 PySpark DataFrame 中与先前值变化的时间差