azure-data-factory - 是否有一项规定可以根据 Azure 映射数据流中的连续性对中断序列进行分组

标签 azure-data-factory

我想使用 Azure ADF 映射数据流根据其连续性对中断序列进行分组。

以下是 blob 文件示例:

enter image description here

如上所示,有一个主键列和一个包含中断序列的列,我想创建第三列(预期输出)对序列进行分组。

由于 1,2,3 是第一个序列,因此值为 1,而 9,10,11,12 是下一个序列,值为 2,依此类推。

最佳答案

使用 Windows 转换将当前行与预览行进行比较。然后,如果存在间隙,即当前序列 - 前一个序列 > 1,则使用第二个窗口转换来增加计数器。

如果将名为 source1 的源添加到新数据流中,则可以使用“脚本”按钮粘贴此代码以显示后面的脚本。在末尾添加一个换行符并复制/粘贴:

source1 derive(dummy = 1) ~> CreateDummyValue
CreateDummyValue window(over(dummy),
asc(year, true),
startRowOffset: -1L,
endRowOffset: 0L,
year2 = first(year)) ~> AddPreviousValue
AddPreviousValue window(over(dummy),
asc(year, true),
column1 = sum(iif(abs(year-year2)<=1,0,1))) ~> CompareAndBucket

我使用的是电影数据中我自己的列名称,因此请将列名称替换为您的数据列。对你来说,电影应该替换为序列,预期输出是我的“Column1”。

关于azure-data-factory - 是否有一项规定可以根据 Azure 映射数据流中的连续性对中断序列进行分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63352157/

相关文章:

azure - 参数化链接服务 Azure 数据工厂

azure - 如何创建 Azure 数据工厂链接服务以使用专用终结点与专用 Azure 数据资源管理器连接

Azure SSIS 包 - 执行 SQL 任务

azure - 如何获取触发Azure数据工厂管道的文件的名称?

azure-data-factory - Azure 数据工厂,如何将 blob 数据增量复制到 sql

azure-data-factory - 如何在Azure数据工厂的ForEach中传递值?

azure - 使用 Azure 数据工厂获取复制的即时文件名

Azure 数据工厂架构,包含 Azure SQL 数据库到 Power BI

azure - 如何连接数据工厂 V2 链接服务中的现有网关

azure - 在 Azure 数据工厂中计划 U-SQL 作业