amazon-web-services - 在 Glue Dev Endpoint 上设置 Sagemaker 的 Spark 版本

标签 amazon-web-services apache-spark aws-glue amazon-sagemaker

为了创建 Glue 脚本,我将开发端点与运行 Pyspark (Sparkmagic) 内核的 Sagemaker 笔记本结合使用。 最新版本的 Glue(版本 1.0)支持 Spark 2.4。但是,我的 Sagemaker 笔记本使用 Spark 版本 2.2.1。 我要测试的函数仅在 Spark 2.3 中存在。 有没有办法解决开发端点和 Glue 作业之间的不匹配问题?我可以以某种方式设置笔记本的 Spark 版本吗?
我在文档中找不到任何内容。

最佳答案

当您为 Glue 开发终端节点创建 SageMaker 笔记本时,它会启动具有特定生命周期配置的 SageMaker 笔记本实例。此 LC 提供用于在 SageMaker 笔记本和开发终端节点之间创建连接的配置。从 PySpark 内核运行单元后,代码将通过 REST API 发送到在开发端点中运行的 Livy 服务器。

因此,您看到的以及 SageMaker 笔记本运行的 PySpark 版本取决于开发终端节点,并且从 SageMaker 的角度来看是不可配置的。

由于 Glue 是一项托管服务,因此开发端点的 root 访问受到限制。因此,您无法将 Spark 版本更新到更高版本。 Glue 中新引入了使用 Spark 2.4 版本的功能,但似乎尚未针对开发端点发布。

关于amazon-web-services - 在 Glue Dev Endpoint 上设置 Sagemaker 的 Spark 版本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57655516/

相关文章:

amazon-web-services - Glue Spark Scala 脚本检查文件是否存在于 S3 中?

node.js - 通过事件网关异步回答 Alexa 智能家居技能时,如何回答 AWS Lambda?

ruby - 如何使用 ruby​​ 枚举正在运行的 ec2 实例并将其加载到数据库中?

logging - 如何使用log4j登录到在YARN上运行的Spark应用程序中的本地文件系统?

java - 如何仅在处理完 RDD 中的所有分区后才在 Spark Streaming 中接收输入?

python - redshift 连接的粘合作业 : "Unable to find suitable security group"

linux - 将实例从 EC2 迁移到 Google Cloud

python - 您如何将 KeyManager 添加到使用 moto 模拟的 kms key 中

java - 如何根据其在spark java中的值对列表进行排序?

amazon-web-services - AWS Glue 书签