python-3.x - 无法使用 pyarrow 从目录中读取 Parquet 文件

我正在使用 pyarrow(0.12.1) 从 s3 读取 parquet 对象

这是我正在使用的代码:

s3 = s3fs.S3FileSystem()
base_pya_dataset = ParquetDataset('s3://bucket1/source/schema/table_name/2019_10_31_19_59_16', filesystem=s3)

尝试创建 ParquetDataset 时出现以下错误:

"errorMessage": "Corrupted file, smaller than file footer",
  "errorType": "ArrowIOError",

我做错了什么？让我感到非常困惑的是我之前(昨天)就已经开始工作了。除了我正在使用的 Parquet 文件之外，我发现没有任何变化。 Parquet 文件必须是某种类型吗？

我已经尝试过: - 添加尾部正斜杠

当我向它提供一个文件的路径时，它就可以工作。显然，它尝试从我提供的目录中获取文件的方式有问题。

最佳答案

我知道这是一个老问题，但这个错误最近出现在我身上。我相信如果您包含文件系统参数，您的文件路径上不应有 "s3://" 前缀。

关于python-3.x - 无法使用 pyarrow 从目录中读取 Parquet 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58770562/