azure - 非分区流分析作业输出

标签 azure azure-blob-storage azure-eventhub azure-stream-analytics

在 Azure 中,我有一个分区计数为 5 的事件中心和一个流分析作业,该作业以 json 格式将数据从中心保存到 blob 存储。现在创建了 5 个文件来存储传入数据。

是否可以在不更改集线器分区的情况下配置流分析作业,以便将所有数据保存到单个文件中?

最佳答案

作为引用,描述了如何分割输出文件的考虑因素 here .

就您而言,满足的条件是:

If the query is fully partitioned, and a new file is created for each output partition

这就是这里的技巧,如果您的查询是从事件中心(已分区)到存储帐户(通过拆分文件匹配传入分区)的直通(没有围绕分区进行洗牌),那么您的作业始终是完全分区的。

如果您不关心性能,您可以做的就是打破分区对齐。为此,您可以重新分区 your input或您的查询(通过 snapshot aggregation )。

但在我看来,您应该考虑使用其他工具(ADF、Power BI Dataflow)来处理这些下游数据。您应该看到这些文件是登陆文件,针对查询吞吐量进行了优化。如果您从作业中删除分区对齐,则会严重限制其扩展和吸收传入流量峰值的能力。

关于azure - 非分区流分析作业输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69648952/

相关文章:

使用 PowerShell 软删除 Azure 存储帐户

c# - Azure 事件中心分区编号和发送到特定分区

node.js - Azure IoT 和事件中心?

azure - 从 "Get-AzureRmEventHubKey "命令 power-shell 中提取事件中心 Microsoft-azure 的主键

database - 跟踪 S0 Azure SQL 数据库资源使用情况的单位有哪些?

sql - 调用Azure逻辑应用程序中的存储过程期间的网关超时

azure - 自动缩放如何与 Azure Web 应用程序配合使用?

javascript - 如何在 Javascript 中通过 Azure 移动服务自定义 API 使用 Promises/Chaining

linux - 从 Linux 上传 Azure Blob 存储中的多个文件

azure - 使用 AzureFileCopy 任务覆盖 Azure Blob 存储中的文件