azure - 以 parquet 文件格式从本地复制到 Blob 时，ADF 中出现内存不足错误

我在本地 SQL 中有大约 10M 条记录，我正在尝试使用集成运行时以 parquet 文件格式将其传输到 Azure Blob 存储。对于 2M 记录，传输没有问题，但是当我尝试传输超过 2M 记录时，出现以下错误。我做了一些研究，我在一篇文章中读到它可能有助于更改 java 的环境变量值

**_JAVA_OPTIONS with value -Xms256m -Xmx16g.**

或

**_JAVA_OPTIONS with value -Xms256m -Xmx32g.**

我都尝试了，但仍然遇到相同的错误

"errorCode": "2200",
"message": "Failure happened on 'Sink' side. ErrorCode=UserErrorJavaInvocationException,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=An error occurred when invoking java, message: java.lang.OutOfMemoryError:Java heap space\ntotal entry:11\r\njava.util.ArrayDeque.doubleCapacity(Unknown Source)\r\njava.util.ArrayDeque.addFirst(Unknown Source)\r\njava.util.ArrayDeque.push(Unknown Source)\r\norg.apache.parquet.io.ValidatingRecordConsumer.endField(ValidatingRecordConsumer.java:108)\r\norg.apache.parquet.example.data.GroupWriter.writeGroup(GroupWriter.java:58)\r\norg.apache.parquet.example.data.GroupWriter.write(GroupWriter.java:37)\r\norg.apache.parquet.hadoop.example.GroupWriteSupport.write(GroupWriteSupport.java:87)\r\norg.apache.parquet.hadoop.example.GroupWriteSupport.write(GroupWriteSupport.java:37)\r\norg.apache.parquet.hadoop.InternalParquetRecordWriter.write(InternalParquetRecordWriter.java:123)\r\norg.apache.parquet.hadoop.ParquetWriter.write(ParquetWriter.java:292)\r\ncom.microsoft.datatransfer.bridge.parquet.ParquetBatchWriter.addRows(ParquetBatchWriter.java:60)\r\n,Source=Microsoft.DataTransfer.Common,''Type=Microsoft.DataTransfer.Richfile.JniExt.JavaBridgeException,Message=,Source=Microsoft.DataTransfer.Richfile.HiveOrcBridge,'",
"failureType": "UserError",
"target": "Copy Data1"

}

最佳答案

首先以压缩的 csv 形式进行“暂存”上传，然后获取该压缩的 csv 并将其移动到命运，但以 blob 存储作为源。这样您就可以放弃自托管 IR 的问题。此解决方法已为我解决了高达 5M 行的问题，因此您不妨尝试一下。

希望这有帮助!

关于azure - 以 parquet 文件格式从本地复制到 Blob 时，ADF 中出现内存不足错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57717575/

azure - 以 parquet 文件格式从本地复制到 Blob 时，ADF 中出现内存不足错误

上一篇：c# - Azure Function 对 Newtonsoft 11.0.2 和 Docker 容器的硬依赖

下一篇：azure - 即使满足条件，逻辑应用程序在第一个警报后也不会触发警报