azure-machine-learning-service - Azure ML Python SDK mini_batch_size 在 TabularDataset 的 ParallelRunConfig 上未按预期工作

标签 azure-machine-learning-service azureml-python-sdk

我正在使用 Azure ML Python SDK 构建自定义实验管道。我正在尝试在 4 个带有 GPU 的虚拟机集群上并行运行我的表格数据集的训练。我正在关注此链接 https://learn.microsoft.com/en-us/python/api/azureml-contrib-pipeline-steps/azureml.contrib.pipeline.steps.parallelrunconfig?view=azure-ml-py 上提供的文档

我面临的问题是,无论我为 mini_batch_size 设置什么值,各个运行都会获取所有行。我正在使用 EntryScript().logger 检查传递给每个进程的行数。我看到的是我的数据被 4 个虚拟机处理了 4 次,并且没有被分成 4 个部分。我尝试将 mini_batch_size 的值设置为 1KB10KB1MB,但似乎没有什么区别。

这是我的 ParallelRunConfig 和 ParallelRunStep 代码。任何提示表示赞赏。谢谢

#------------------------------------------------#
# Step 2a - Batch config for parallel processing #
#------------------------------------------------#
from azureml.pipeline.steps import ParallelRunConfig

# python script step for batch processing
dataprep_source_dir = "./src"
entry_point = "batch_process.py"
mini_batch_size = "1KB"
time_out = 300

parallel_run_config = ParallelRunConfig(
    environment=custom_env,
    entry_script=entry_point,
    source_directory=dataprep_source_dir,
    output_action="append_row",
    mini_batch_size=mini_batch_size,
    error_threshold=1,
    compute_target=compute_target,
    process_count_per_node=1,
    node_count=vm_max_count,
    run_invocation_timeout=time_out
)


#-------------------------------#
# Step 2b - Run Processing Step #
#-------------------------------#
from azureml.pipeline.core import PipelineData
from azureml.pipeline.steps import PythonScriptStep
from azureml.pipeline.steps import ParallelRunStep
from datetime import datetime

# create upload dataset output for processing
output_datastore_name = processed_set_name
output_datastore = Datastore(workspace, output_datastore_name)

processed_output = PipelineData(name="scores", 
                          datastore=output_datastore, 
                          output_path_on_compute="outputs/")

# pipeline step for parallel processing
parallel_step_name = "batch-process-" + datetime.now().strftime("%Y%m%d%H%M")

process_step = ParallelRunStep(
    name=parallel_step_name,
    inputs=[data_input],
    output=processed_output,
    parallel_run_config=parallel_run_config,
    allow_reuse=False
)

最佳答案

我已经找到这个问题的原因了。文档忽略提及的是,mini_batch_size 仅在您的表格数据集包含多个文件(例如,每个文件包含 X 行数的多个 Parquet 文件)时才有效。如果您有一个包含所有行的巨大文件,则 mini_batch_size 无法从中仅提取部分数据以进行并行处理。我通过将 Azure Synapse Workspace 数据管道配置为每个文件仅存储几行来解决了该问题。

关于azure-machine-learning-service - Azure ML Python SDK mini_batch_size 在 TabularDataset 的 ParallelRunConfig 上未按预期工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64869372/

相关文章:

python - Azure ML 中的属性错误 : 'Logger' object has no attribute 'activity_info' during Dataset Registration

azure-machine-learning-service - 使用 azureml-sdk 写入 azureml 中已安装的文件系统

azure - 如何在 AzureML 上使用管道参数

基于 Azure Kubernetes token 的 ML Web 服务身份验证

python - 错误无效输入数据类型 : Input of type 'Unknown' is not supported in azure (azureml. train.automl)

Python Pandas DataFrame 仅存储一个数字?

azure - 调用 Microsoft Luis.ai 编程 API 时出现 401 错误

azure - 将 MATLAB 模型集成到 Azure 中

azure - Azure ML 工作区中的数据 Assets