sql-server - 将本地 SQL Server 数据库数据以 Parquet 格式复制到 Azure

标签 sql-server azure parquet azure-data-factory bzip2

这里是架构/性能问题。

我有一个本地 SQL Server 数据库,其中有约 200 个表,总计约 10TB。 我需要在 Azure 中以 Parquet 格式提供这些数据,以便通过 HDInsight Spark 进行数据科学分析。

以 Parquet 格式将此数据复制/转换到 Azure(Blob 存储或 Data Lake)的最佳方法是什么?

由于任务的可管理性方面(大约 200 个表),我最好的办法是 - 通过 sqlcmd 将数据本地提取到文件共享,将其压缩为 csv.bz2 并使用数据工厂将文件共享(使用“PreserveHierarchy”)复制到 azure 。最后运行pyspark加载数据,然后保存为.parquet。

给定表模式,我可以自动生成 SQL 数据提取和 python 脚本 通过 T-SQL 从 SQL 数据库获取。

是否有更快和/或更易于管理的方法来实现这一目标?

最佳答案

ADF 通过一次性和基于计划的数据移动完美满足您的要求。

尝试 ADF 的复制向导。有了它,您只需单击几下即可直接将本地 SQL 迁移到 Parquet 格式的 blob/ADLS。

Copy Activity Overview

关于sql-server - 将本地 SQL Server 数据库数据以 Parquet 格式复制到 Azure,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43975225/

相关文章:

azure - Multi-Tenancy azure 应用程序对其他租户不可见

azure - 如何在单个应用程序服务上部署 aspnet core web api 和 aspnet webapi

java - 更改 Parquet 日志级别

python-3.x - 流式 Parquet 文件 python 和仅下采样

apache-spark - Parquet VS 数据库

sql-server - 数据库刷新和数据库迁移 (MSSQL)

sql-server - 数据库项目未运行部署后脚本

sql - 我尝试创建接收 3 个参数的存储过程,如果任何参数的值等于 "-1",它将不会包含在 select 语句中

php - 使用 sqlsrv 将 php 7.2 连接到 MS SQL

azure - 如何在 docker-compose 中为 Azure blob 存储配置目标容器?