我正在尝试使用 AWS Glue(python) 从 redis 获取数据。我想知道如何从 spark 上下文连接到 redis。 Redis 也托管在同一个 AWS 区域
我在redis网站上看到了代码。找不到 Pyspark 的代码示例。
import com.redislabs.provider.redis._
...
sc = new SparkContext(new SparkConf()
.setMaster("local")
.setAppName("myApp")
// initial redis host - can be any node in cluster mode
.set("redis.host", "localhost")
// initial redis port
.set("redis.port", "6379")
// optional redis AUTH password
.set("redis.auth", "")
)
是否可以从 pyspark 连接到 redis??
最佳答案
问:AWS Glue 支持哪些数据源?
AWS Glue 原生支持存储在 Amazon Aurora、Amazon RDS for MySQL、Amazon RDS for Oracle、Amazon RDS for PostgreSQL、Amazon RDS for SQL Server、Amazon Redshift 和 Amazon S3 以及 MySQL、Oracle、Microsoft SQL 中的数据在 Amazon EC2 上运行的 Virtual Private Cloud (Amazon VPC) 中的服务器和 PostgreSQL 数据库。可以从 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 轻松访问存储在 AWS Glue 数据目录中的元数据。 您还可以编写自定义 Scala 或 Python 代码,并将自定义库和 Jar 文件导入到 Glue ETL 作业中,以访问 AWS Glue 本身不支持的数据源。有关更多详细信息导入自定义库,请参阅我们的文档。
关于redis - 使用 AWS Glue (python) 从 redis 获取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51946596/