amazon-web-services - 从本地连接到客户端 cassandra

标签 amazon-web-services apache-spark cassandra pyspark

我正在尝试从已安装在 AWS ec2 中的 cassandra 获取数据。 当我通过 pyspark 运行以下命令时,我可以从 AWS 读取数据, 然而,当我通过spark-submit提交相同的python文件时,我从本地获取rdd。你能建议我哪里缺少配置吗?

from pyspark import SparkConf, SparkContext
from pyspark.sql.session import SparkSession

conf = SparkConf().setAppName("testCassandra").set("spark.cassandra.connection.host", "#ec2ip#").set("spark.cassandra.connection.port", "9042")

sc = SparkContext(conf = conf)
spark = SparkSession(sc)

rdd = spark.read.format("org.apache.spark.sql.cassandra").options(table="tweettable", keyspace="twitterstorage", ).load().rdd

最佳答案

我能够通过传递 --conf Spark.cassandra.connection.host=ip 作为 Spark -submit 的参数来解决这个问题。

关于amazon-web-services - 从本地连接到客户端 cassandra,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43398648/

相关文章:

python - 根据row_number过滤RDD

database - 有没有办法在Golang中实现cassandra "decimal"数据类型

java - OneToMany 与 @EmbeddedId 和 kundera

amazon-web-services - 将 lambda 部署到多个区域的无服务器 yml 文件中的语法是什么?

amazon-web-services - 如何将本地 MySQL 数据库导入 RDS 数据库实例?

hadoop - 在整个集群中使用 spark-submit 运行 Spark 作业

cassandra - 在 cassandra 中创建表时出错 - 错误请求 : Only clustering key columns can be defined in CLUSTERING ORDER directiv

amazon-web-services - 使用 AWS DynamoDB 或 Redshift 存储分析数据

amazon-web-services - 使用CloudFormation创建本地二级索引

apache-spark - Apache Spark 可以用作数据库替代品吗? (例如替换Mysql)