amazon-web-services - 亚马逊 aws sagemaker 中的 Randomforest?

标签 amazon-web-services docker containers random-forest amazon-sagemaker

我希望重新创建一个本地构建的随机森林模型,并通过 sagemaker 部署它。该模型非常基础,但为了进行比较,我想在 sagemaker 中使用相同的模型。我在 sagemaker 的内置算法中没有看到 randomforest(这看起来很奇怪) - 是我走 deploying my own custom model 路线的唯一选择?仍在学习容器,对于在本地只是一个简单的 randomforestclassifier() 调用的东西,似乎需要做很多工作。我只想针对开箱即用的随机森林模型进行基准测试,并证明它在通过 AWS sagemaker 部署时的工作方式相同。

最佳答案

2020 年 3 月 30 日编辑:添加指向 SageMaker Sklearn random forest demo 的链接

在 SageMaker 中,您有 3 个选项来编写科学代码:

  • 内置算法
  • 开源预写容器 (可用的
    适用于 sklearn、tensorflow、pytorch、mxnet、chainer。 Keras 可以
    写在 tensorflow 和 mxnet 容器中)
  • 自带容器 (例如 R)

  • 在撰写本文时,内置库中没有随机森林分类器或回归器 .有一种算法叫Random Cut Forest在内置库中,但它是一种用于异常检测的无监督算法,与 scikit-learn random forest 不同的用例以受监督的方式使用(还有 answered in StackOverflow here )。但是使用开源的预先编写的 scikit-learn 容器来实现您自己的容器很容易。有一个demo showing how to use Sklearn's random forest in SageMaker ,来自高级 SDK 的训练编排麻烦和 boto3 .您也可以使用此其他 public sklearn-on-sagemaker demo并更改模型。与“自带”选项相比,预先编写的容器的一个好处是 dockerfile 已经编写,Web 服务堆栈也已编写。

    对于您惊讶地发现内置算法中没有随机森林功能,该库及其 18 个算法已经涵盖了丰富的用例集。例如,对于结构化数据的监督学习(随机森林的常见用例),如果您想坚持使用内置函数,则取决于您的优先级(准确性、推理延迟、训练规模、成本...)可以使用 SageMaker XGBoost(XGBoost 已经赢得了大量数据挖掘比赛 - 2015 年 KDDcup 前 10 名中的每个获胜团队都使用 XGBoost according to the XGBoost paper - 并且扩展性很好)和线性学习器,推理速度非常快,可以进行大规模训练, 在 GPU(s) 上以小批量方式。 Factorization Machines (线性 + 2 度交互,权重为列嵌入点积)和 SageMaker kNN是其他选择。此外,事情并非一成不变,内置算法列表正在快速改进。

    关于amazon-web-services - 亚马逊 aws sagemaker 中的 Randomforest?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56740609/

    相关文章:

    amazon-web-services - SSH - 匹配地址已删除?

    javascript - 跨区域调用 AWS 服务

    node.js - 基于ubuntu创建nodejs容器Docker

    mysql - AWS DMS 连续复制延迟问题

    docker - Docker Hub Webhook发送什么日期格式?

    docker - 在非特权的基于 Ubuntu 的 Docker 容器中使用 gcsfuse 拒绝权限

    performance - MATLAB 与其他使用容器的库的 Linux/Windows 性能比较

    c++ - C++11容器/适配器属性的实用总结/引用?

    amazon-web-services - 日志驱动程序 awslogs 需要选项 : awslogs-region, awslogs-group

    amazon-web-services - 使用cloudformation模板使用iis和rds部署ASP NET网站作为sql服务器