我正在使用 cassandra 2.0.3,我想使用 pyspark(Apache Spark Python API)从 cassandra 数据创建一个 RDD 对象。
请注意:我不想导入 CQL,然后从 pyspark API 进行 CQL 查询,而是想创建一个 RDD,我想在其上进行一些转换。
我知道这可以在 Scala 中完成,但我无法找出如何从 pyspark 中完成。
如果有人能指导我,我将不胜感激。
最佳答案
可能与您不再相关,但我一直在寻找相同的东西,但找不到任何让我满意的东西。所以我做了一些工作:https://github.com/TargetHolding/pyspark-cassandra .在生产中使用之前需要进行大量测试,但我认为集成效果非常好。
关于python - 如何使用pyspark在cassandra数据上创建RDD对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20836259/