snowflake-cloud-data-platform - 雪花 Parquet 加载模式生成

标签 snowflake-cloud-data-platform parquet

正在从 S3 位置将 Parquet 文件加载到雪花表。这就是我正在做的事情:

  1. 已创建目标表
CREATE TABLE myschema.target_table(
 col1 DATE,
 col2 VARCHAR);
  • 使用以下命令创建阶段表
  • CREATE OR REPLACE TEMPORARY STAGE myschema.stage_table 
       url = 's3://mybucket/myfolder1/' 
     storage_integration = My_int 
     fileformat = (type = 'parquet')
    
  • 从阶段表加载目标表
  • COPY INTO myschema.target_table FROM(
      SELECT $1:col1::date,
             $1:col2:varchar
      FROM myschema.stage_table)
    

    这工作正常,我的问题是,我有 10 个表和 10 个列。有没有办法优化第 3 步,我不必显式提及列名,这样代码就会变得通用:

     COPY INTO myschema.target_table FROM(
      SELECT *
      FROM myschema.stage_table)
    

    最佳答案

    你尝试过吗 MATCH_BY_COLUMN_NAME = CASE_SENSITIVE |不区分大小写 |无

    文档:https://docs.snowflake.com/en/sql-reference/sql/copy-into-table.html#type-parquet

    关于snowflake-cloud-data-platform - 雪花 Parquet 加载模式生成,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63929910/

    相关文章:

    sql - 合并雪花 - 不匹配、更新和插入

    snowflake-cloud-data-platform - 如何使约束在雪花中起作用?

    python - 为什么 Pyarrow 可以读取额外的索引列,而 Pandas dataframe 却不能?

    scala - 无法读取 Parquet 支持的区分大小写的 Glue 表

    azure - 从 Azure Blob 存储下载 parquet 文件。同名的文件和文件夹

    postgresql - 如何将 Postgresql 中带有多个参数的 ARRAY_AGG 移植到 Snowflake

    sql - 使用雪花连接器在雪花中通过 python 执行 SQL 查询时,列名称为 0、1、2、3

    sql - 如何转换此 mysql 查询以在 Snowflake/mpp 上运行

    python - 为什么 Dask 读取 parquet 文件的速度比 Pandas 读取相同 parquet 文件的速度慢很多?

    java - org.apache.parquet.io.InputFile 的 S3 实现?