我有一个 Azure 持久功能项目,正在其中处理相对较大的 CSV 文件。 我有两个触发函数:
<小时/>一个触发器函数需要从 Azure Blob 存储获取一个文件,该文件超过 100MB,并且它需要制作更小的 block 并将它们放入 Azure Blob 存储(位于不同的 blob 目录)
这是触发编排函数
[FunctionName(nameof(FileChunkerOrchestration))]
public async Task Run(
[OrchestrationTrigger] IDurableOrchestrationContext context,
ILogger log)
{
var blobName = context.GetInput<string>();
var chunkCounter = await context.CallActivityAsync<int>(nameof(FileChunkerActivity), blobName);
}
这是事件函数
[StorageAccount("AzureWebJobsStorage")]
[FunctionName(nameof(FileChunkerActivity))]
public async Task<int> Run(
[ActivityTrigger]IDurableActivityContext context,
string fileName,
[Blob("vessel-container/csv-files/{fileName}.csv", FileAccess.Read)]TextReader blob,
[Blob("vessel-container/csv-chunks", FileAccess.Write)] CloudBlobContainer container)
{
// Uses TextReader blob to create chunk files
// Then stores chunk by chunk (as soon as one chunk is created then it's being uploaded to Blob storage) in CloudBlobContainer container
}
<小时/>
- 第二个触发函数在每个已创建的 block 上触发
[StorageAccount("AzureWebJobsStorage")]
[FunctionName(nameof(FileTrigger))]
public async Task Run(
[DurableClient] IDurableClient starter,
[BlobTrigger("vessel-container/csv-chunks/{name}.csv")] Stream blob,
string name,
ILogger log)
{
// Here the processing chunk files start
}
我遇到的问题是第二个函数触发每个 CSV block 文件并开始并行运行,这导致我的项目使用太多可用 RAM。
我需要以我的第二个函数(它的编排)需要逐个文件处理的方式来解决这个问题。
请分享如何解决此问题的任何想法,提前致谢。
最佳答案
解决此问题的一个可能的解决方案是通过 EventGrid 捕获在 Azure 存储中创建 csv block 文件时生成的事件,并将它们作为目标写入存储队列,从而解耦处理(设置最少且非常简单) )。然后,存储队列由 Azure 函数消耗,该函数通过 host.json 中的设置限制并发性(可能与一个函数应用中的其他函数规模目标发生冲突,并且可能需要具有专用设置的第二个函数应用)
关于c# - 如何停止Azure Durable函数上的并行执行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60829056/