amazon-s3 - Snowflake - 如何从 S3 中的 Parquet 文件中读取元数据

标签 amazon-s3 snowflake-cloud-data-platform parquet

我们在 Snowflake 数据库中使用外部表,以便从某些 AWS S3 存储桶中读取数据。存储桶包含分布在多个分区上的各种 Parquet 文件。

我们可以使用 Snowflake 的阶段存储集成文件格式从外部表中读取数据。

但是,我们也想从 parquet 文件中读取一些元数据,例如数字数据类型的精度(例如,找出有多少我们必须处理的小数位)。

为简单起见,假设我们正在从一个 parquet 文件中读取数据。

有没有什么方法可以直接从 Snowflake 中检索关于数值数据类型精度的 Parquet 文件元数据?

或者您更愿意从 Glue Catalog 或任何其他外部工具中提取元数据?

最佳答案

最近有一个公共(public)预览版可以推断将执行此操作的架构:

INFER_SCHEMA(
  LOCATION => '{ internalStage | externalStage }'
  , FILE_FORMAT => '<format_name>'
)

https://docs.snowflake.com/en/sql-reference/functions/infer_schema.html

关于amazon-s3 - Snowflake - 如何从 S3 中的 Parquet 文件中读取元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69284694/

相关文章:

c# - 从 S3 获取图像

snowflake-cloud-data-platform - 雪花中的值对 : variant or object?

json - 雅典娜 : use only a subset of JSON fields

javascript - 上传后从AWS S3获取上传的文件

css - S3 CSS 资源未加载,但之前已加载。为什么会停下来呢?

snowflake-cloud-data-platform - 如何创建 csv 文件格式定义以将数据加载到雪花表中

python - 如何从按月分区的 Parquet 文件中删除特定月份

sql-server - 为什么此 T-SQL 查询在 Synapse 中不起作用?

ruby-on-rails - Rails 4、Paperclip、Amazon S3 - 上传到特定文件夹

sql - 如何将 VARIANT 数据插入雪花表?