python - 无法在 Spark Streaming 作业中导入 kafkaProducer

标签 python linux apache-spark apache-kafka spark-streaming

我有一个简单的 spark streaming 作业,它跟踪 HDFS 目录,读取新添加的文件,并将其发送到 Kafka

提交 spark 作业时它不起作用并抛出以下异常。

ImportError: cannot import name KafkaProducer

这是作业的代码 ( http://pastebin.com/mpKkMkph )

错误很明显。该脚本无法导入 kafkaProducer。问题是我可以毫无问题地从 python shell 导入它。

最佳答案

最后我可以解决问题,但解决方案很奇怪,我无法解释发生了什么。

我运行此命令 cat my_script.py > new_script.py 然后我使用新文件提交作业。

一切正常,但正如我上面提到的,我无法解释这个问题。

这里要注意的另一件事是,使用普通的 cp 命令复制文件也不起作用。仅将内容 cat 到另一个文件。

这是我第二次遇到 python 脚本的这个问题,我希望任何人都可以对此进行说明。

关于python - 无法在 Spark Streaming 作业中导入 kafkaProducer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36965253/

相关文章:

python - 绘制数据框中所有列的直方图

linux - epoll_wait() 无限返回 EINTR

regex - 根据某些条件列出 Bash 中的所有子目录

scala - 简单随机采样和数据帧 SAMPLE 函数如何在 Apache Spark (Scala) 中工作?

python - 为什么多线程程序比单线程程序慢,尽管它们读取单独的txt文件?

python - 我在 shell 脚本中运行一个程序。我怎么知道它是否已加载? (Linux)

scala - 如何在 scala 中加载加权图?

python - 如何从字典中提取组数?

python - 安装docker-compose时出错(def _collat​​e(* iterables,key = lambda a:a,reverse = False)

python - 从另一个线程调用线程中的方法,python