在 Azure 中,我有一个分区计数为 5 的事件中心和一个流分析作业,该作业以 json 格式将数据从中心保存到 blob 存储。现在创建了 5 个文件来存储传入数据。
是否可以在不更改集线器分区的情况下配置流分析作业,以便将所有数据保存到单个文件中?
最佳答案
作为引用,描述了如何分割输出文件的考虑因素 here .
就您而言,满足的条件是:
If the query is fully partitioned, and a new file is created for each output partition
这就是这里的技巧,如果您的查询是从事件中心(已分区)到存储帐户(通过拆分文件匹配传入分区)的直通(没有围绕分区进行洗牌),那么您的作业始终是完全分区的。
如果您不关心性能,您可以做的就是打破分区对齐。为此,您可以重新分区 your input或您的查询(通过 snapshot aggregation )。
但在我看来,您应该考虑使用其他工具(ADF、Power BI Dataflow)来处理这些下游数据。您应该看到这些文件是登陆文件,针对查询吞吐量进行了优化。如果您从作业中删除分区对齐,则会严重限制其扩展和吸收传入流量峰值的能力。
关于azure - 非分区流分析作业输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69648952/