sql - Snowflake 中 COPY INTO 命令中的正则表达式

我在 azure blob 存储中只有几个 CSV 文件，我们正在使用 COPY INTO 命令来加载雪花表中的文件。问题是: 文件系统是:容器>>文件夹(例如:帐户)>>文件数量，例如2011-09.csv 2011-10.csv 同样，帐户文件夹还有一个子文件夹“快照”，其中也有类似的文件数据但名称不同，例如 2019-11_1654478715.csv 因此，在使用 COPY INTO 命令时，Snowflake 中的目标表会填充重复的行。

我正在使用这个:

从“azure://abc.blob.core.windows.net/abc-abc/account”复制到 BINGO_DWH_DEV.LANDING.CRM_ACCOUNT_TEMP 凭证=(azure_sas_token= 'abc') ON_ERROR='CONTINUE' FILE_FORMAT=(type =csv field_delimiter=','FIELD_OPTIONALLY_ENCLOSED_BY='"');

有什么想法可以使用带有正则表达式的 COPY INTO 命令，该命令只能选择“2011-09.csv”等文件，而不是快照文件夹中的文件。

感谢您的帮助

最佳答案

您可以使用pattern关键字作为正则表达式来根据模式插入文件。

请引用the Snowflake documentation .

示例:

copy into emp_basic
  from @%emp_basic
  file_format = (type = csv field_optionally_enclosed_by='"')
  pattern = '.*2011-19.*.csv.gz'
  on_error = 'continue';

这取决于您设置阶段位置的方式(Azure blob、S3 或 GCP)。假设您的文件位于“文件夹”s3://yourbucket/folder1/[filename],gz 中。并且您已将阶段设置为指向 s3://yourbucket 使用的模式:

pattern='.*2011-09*.csv.*.gz'

然后它将扫描 s3://yourbucket 下的所有文件。

但是，如果您的阶段已设置为指向文件夹 s3://yourbucket/folder1/ 并且使用的模式为:

pattern='.*2011-09.*csv.*.gz'

然后它只会在 s3://yourbucket/folder1/ 中查找。

关于sql - Snowflake 中 COPY INTO 命令中的正则表达式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72653461/

sql - Snowflake 中 COPY INTO 命令中的正则表达式

上一篇：azure - 如何确保 "dotnet tool"安装在 Azure Pipeline 中？

下一篇：azure - 从 Azure Devops 托管代理访问私有(private)存储帐户