python - Datastax Spark Cassandra 连接器模块导入错误

标签 python pyspark cassandra spark-streaming spark-cassandra-connector

我尝试使用以下命令运行 python Spark-shell:

 bin/pyspark --packages datastax:spark-cassandra-connector:1.5.0-RC1-s_2.11,org.apache.spark:spark-streaming-kafka_2.10:1.6.0

以下命令的输出显示它能够找到 Spark-cassandra-connector 包:

resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
   confs: [default]
   found datastax#spark-cassandra-connector;1.5.0-RC1-s_2.11 in spark-packages
   found org.apache.cassandra#cassandra-clientutil;2.2.2 in central
   found com.datastax.cassandra#cassandra-driver-core;3.0.0-rc1 in central
   found io.netty#netty-handler;4.0.33.Final in central
   found io.netty#netty-buffer;4.0.33.Final in central
   found io.netty#netty-common;4.0.33.Final in central

但是当我尝试使用以下任何命令导入包时,我收到导入错误:

from com.datastax import *
from com.datastax.spark.connector import *

输出:

ImportError: No module named com.datastax
ImportError: No module named com.datastax.spark.connector

任何人都可以建议这里出了什么问题吗?

最佳答案

据我所知,Cassandra Connector 没有一行 Python 代码,更不用说名称奇怪的 Python 模块了。 Python 互操作性是使用数据源 API 实现的,无需任何额外的导入即可使用。

sqlContext.read.format("org.apache.spark.sql.cassandra").options(...).load(...)

即使确实如此,--packages也仅用于分发 JVM 依赖项。外部依赖项(Python、R)必须独立分发或安装,例如使用 PyFiles

关于python - Datastax Spark Cassandra 连接器模块导入错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35390396/

相关文章:

python - 无法在 AWS Elastic Beanstalk 上安装 pycurl==7.43.0

javascript - Jupyter Notebook 中的 Google Colabs eval_js?

python - 无法在for循环中创建pandas数据框

python - PySpark Dataframe 根据函数返回值创建新列

apache-spark - 如何将 Spark 日志记录标准输出重定向到控制台

database-design - 您将如何为通用 Schema.org 存储建模

python - 插入特定于列的 NaN 并根据值删除行

python - 如何在交互式 PySpark session 中更改 SparkContext 属性

cassandra - Datastax Cassandra 驱动程序重试策略延迟?

Cassandra:为用户、角色和权限设计数据模型