amazon-web-services - 更新实时 AWS Sagemaker 自动缩放终端节点实例类型,无需放下它

标签 amazon-web-services amazon-sagemaker

我有一个实时 AWS Sagemaker 端点,我们已启用自动缩放功能。 现在我想将其从“ml.t2.xlarge”更新为“ml.t2.2xlarge”,但它显示此错误

botocore.exceptions.ClientError: An error occurred (ValidationException) when calling the 
UpdateEndpoint operation: The variant(s) "[config1]" must be deregistered as scalable targets with 
Application Auto Scaling before they can be removed or have their instance type updated.

我相信我们需要首先使用此链接取消注册自动缩放 https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-delete.html

但我怀疑是否会取消我们的应用程序,并且新模型的训练将需要多个小时。我们负担不起,所以请告诉我是否有更好的方法。

最佳答案

您应该可以毫无问题地更新 Endpoint 实例类型,而不会受到可用性影响。当您有有效的自动缩放策略时,基本方法如下所示:

  1. 创建一个使用新实例类型 ml.t2.2xlarge 的新 EndpointConfig
    1. 请调用 CreateEndpointConfig 执行此操作.
    2. 传入与之前的端点配置相同的值。您也可以指向您所做的相同的 ModelName。通过重复使用相同的模型,您无需重新训练它或进行任何操作
  2. Delete the existing autoscaling policy
    1. 根据您的自动扩缩,您可能需要增加所需的端点数量,以防在执行此操作时需要扩缩。
    2. 如果您在进行这些 API 调用时遇到流量高峰,并且模型跟不上流量,您的模型可能会面临中断的风险。请记住这一点,并可能提前扩展这种可能性。
  3. 像之前一样调用 UpdateEndpoint 并指定这个新的 EndpointConfigName
  4. 等待您的端点状态变为InService。这应该需要 10-20 分钟。
  5. Create a new autoscaling policy对于这个新的端点和生产变体

您应该可以在不牺牲可用性的情况下开始使用。

关于amazon-web-services - 更新实时 AWS Sagemaker 自动缩放终端节点实例类型,无需放下它,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60429339/

相关文章:

amazon-web-services - 使用 'sqs-extended-jar' 处理大消息

python - 如何将图像数据从 s3 存储桶加载到 sagemaker 笔记本?

amazon-web-services - AWS Sagemaker - 访问被拒绝

amazon-web-services - 在 Glue Dev Endpoint 上设置 Sagemaker 的 Spark 版本

amazon-web-services - AWS CloudFormation - 根据通过参数传入的 FQDN 计算 IP

amazon-web-services - AWS WAF : How to make custom response code with managed rules for block actions

python-3.x - AWS Textract 无法识别 PDF 文档第二页的表格

amazon-web-services - 工作流没有终止状态

python - Sagemaker 本地模式 : RuntimeError: Giving up, 端点:未正确启动

amazon-web-services - 如何为 SageMaker 提取预构建的 docker 镜像?