python - 如何使用pyspark在cassandra数据上创建RDD对象

标签 python scala cassandra pycassa apache-spark

我正在使用 cassandra 2.0.3,我想使用 pyspark(Apache Spark Python API)从 cassandra 数据创建一个 RDD 对象。

请注意:我不想导入 CQL,然后从 pyspark API 进行 CQL 查询,而是想创建一个 RDD,我想在其上进行一些转换。

我知道这可以在 Scala 中完成,但我无法找出如何从 pyspark 中完成。

如果有人能指导我,我将不胜感激。

最佳答案

可能与您不再相关,但我一直在寻找相同的东西,但找不到任何让我满意的东西。所以我做了一些工作:https://github.com/TargetHolding/pyspark-cassandra .在生产中使用之前需要进行大量测试,但我认为集成效果非常好。

关于python - 如何使用pyspark在cassandra数据上创建RDD对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20836259/

相关文章:

python - 需要正则表达式帮助 : Match if certain string doesn't start with certain sub-patterns AND certain character should not be there

scala - 在Spark中舍入为Double

json - Scala circe中按字段值将json列表解析为两种列表类型

java - Cassandra ;关于索引的最佳实践?

python - 使用 Lab 时,transforms.Normalize() 介于 0 和 1 之间

Python 类型 long 与 C 'long long'

python - 如何将带有分隔符的字符串转换为 Python 中的字符串列表?

Scala 列表方法 : `remove` and `sort`

Cassandra 的 Java 版本

ubuntu - 当我输入 cqlsh 我得到连接被拒绝错误