azure-data-lake - 有什么方法可以最大限度地减少 U-SQL 准备时间?

标签 azure-data-lake u-sql

我的 U-SQL 作业的准备时间约为 30 秒。有可能降低吗?

我的代码如下:

USE DATABASE x;
USE SCHEMA y;

@results = SELECT RowKey
FROM y.tableName
WHERE USQLApplication2.queryHelper.func().Contains(PartitionKey) AND TimestampTicks < new System.DateTime(2016,12,30).Ticks 
      AND TimestampTicks > new System.DateTime(2016,12,29).Ticks;
OUTPUT @results TO "/data/output.csv"
USING Outputters.Csv();

最佳答案

准备时间主要包括脚本的编译、优化和代码生成。由于 U-SQL 当前以批处理模式运行,因此系统针对在准备期间花费的时间进行了优化,以缩短大量数据的运行时间。

在您的情况下,根据提供的脚本,我认为对用户定义函数的调用可能会增加准备时间。让我与团队确认内联函数调用是否可以在该阶段节省一些时间。

编辑:
根据您在另一个线程中的问题,您似乎有一个高度分区的表。如果这是正确的,那么访问分区和联合它们的编译也会增加准备时间。我们有一个待办事项来改进这方面。

关于azure-data-lake - 有什么方法可以最大限度地减少 U-SQL 准备时间?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42076955/

相关文章:

azure - 如何在 USQL 中定义多个输入文件模式?

azure - 在不将文件移动到 Azure Databricks 文件系统的情况下解压缩 Azure 数据湖 Gen1 中的文件的简单且最佳的方法是什么?

python - 安装U-SQL扩展以进行本地编译

python - U-SQL Python 扩展 DataFrame 列格式

azure-data-lake - 运行 Azure 数据湖分析作业时,Vertex 重试次数过多发生错误

c# - USQL - 自定义输出器找不到 NewtonSoft

azure - ADL : First row is header in format of file preview is not working

c# - Azure数据湖授权

azure - U-SQL 根据文件中的不同值将 CSV 文件拆分为多个文件

azure - SQL中的文件存在函数