redis - 使用 AWS Glue (python) 从 redis 获取数据

标签 redis pyspark aws-glue

我正在尝试使用 AWS Glue(python) 从 redis 获取数据。我想知道如何从 spark 上下文连接到 redis。 Redis 也托管在同一个 AWS 区域

我在redis网站上看到了代码。找不到 Pyspark 的代码示例。

import com.redislabs.provider.redis._

...

sc = new SparkContext(new SparkConf()
      .setMaster("local")
      .setAppName("myApp")

      // initial redis host - can be any node in cluster mode
      .set("redis.host", "localhost")

      // initial redis port
      .set("redis.port", "6379")

      // optional redis AUTH password
      .set("redis.auth", "")
  )

是否可以从 pyspark 连接到 redis??

最佳答案

问:AWS Glue 支持哪些数据源?

AWS Glue 原生支持存储在 Amazon Aurora、Amazon RDS for MySQL、Amazon RDS for Oracle、Amazon RDS for PostgreSQL、Amazon RDS for SQL Server、Amazon Redshift 和 Amazon S3 以及 MySQL、Oracle、Microsoft SQL 中的数据在 Amazon EC2 上运行的 Virtual Private Cloud (Amazon VPC) 中的服务器和 PostgreSQL 数据库。可以从 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 轻松访问存储在 AWS Glue 数据目录中的元数据。 您还可以编写自定义 Scala 或 Python 代码,并将自定义库和 Jar 文件导入到 Glue ETL 作业中,以访问 AWS Glue 本身不支持的数据源。有关更多详细信息导入自定义库,请参阅我们的文档。

关于redis - 使用 AWS Glue (python) 从 redis 获取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51946596/

相关文章:

apache-spark - PySpark - 优化 Parquet 读取后的分区数量

python - 使用 Spark 的默认 log4j 配置文件 : org/apache/spark/log4j-defaults. 属性将默认日志级别设置为 "WARN"

amazon-web-services - 无法在 AWS Glue PySpark Dev Endpoint 中正确运行脚本

python - AWS Glue - 在插入之前截断目标 postgres 表

amazon-web-services - AWS Glue 不检测分区并在目录中创建 1000 多个表

django - 如何让 celerybeat cron 任务在 django 应用程序的 docker 容器中运行?

unix - 如何让我的 dockerized Go 程序在默认端口上使用 dockerized Redis?

python - Celey + Python 忽略 update_state 调用

c# - 加速我的简单 Redis .NET 应用程序

apache-spark - EMR 5.x | yarn 上的 Spark |退出代码 137 和 Java 堆空间错误