azure - 非分区流分析作业输出

在 Azure 中，我有一个分区计数为 5 的事件中心和一个流分析作业，该作业以 json 格式将数据从中心保存到 blob 存储。现在创建了 5 个文件来存储传入数据。

是否可以在不更改集线器分区的情况下配置流分析作业，以便将所有数据保存到单个文件中？

最佳答案

作为引用，描述了如何分割输出文件的考虑因素 here .

就您而言，满足的条件是:

If the query is fully partitioned, and a new file is created for each output partition

这就是这里的技巧，如果您的查询是从事件中心(已分区)到存储帐户(通过拆分文件匹配传入分区)的直通(没有围绕分区进行洗牌)，那么您的作业始终是完全分区的。

如果您不关心性能，您可以做的就是打破分区对齐。为此，您可以重新分区 your input或您的查询(通过 snapshot aggregation )。

但在我看来，您应该考虑使用其他工具(ADF、Power BI Dataflow)来处理这些下游数据。您应该看到这些文件是登陆文件，针对查询吞吐量进行了优化。如果您从作业中删除分区对齐，则会严重限制其扩展和吸收传入流量峰值的能力。

关于azure - 非分区流分析作业输出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69648952/

相关文章：

使用 PowerShell 软删除 Azure 存储帐户