python - 像 pyspark 的 jar 一样打包

标签 python apache-spark jar pyspark hadoop-yarn

我有一个 pyspark 项目,其中包含运行 Spark-streaming 的 python 脚本。我有一些外部依赖项,我用 --packages 运行旗帜。

但是,在 scala 中,我们可以使用 maven 下载所有必需的包,使用主 Spark 程序制作一个 jar 文件,并将所有内容放在一个 jar 中,然后只需使用 spark-submit将其提交到集群(在我的例子中是yarn)。

有类似jar这样的东西吗?对于 pyspark?

spark官方文档上没有这样的信息。他们只是提到使用 spark-submit <python-file>或添加--py-files但它不像jar那么专业文件。

任何建议都会有帮助!谢谢!

最佳答案

文档说你可以使用 zip 或 Egg。

For Python applications, simply pass a .py file in the place of instead of a JAR, and add Python .zip, .egg or .py files to the search path with --py-files.

Source

您可能还会找到other parameters有用。

关于python - 像 pyspark 的 jar 一样打包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37728174/

相关文章:

apache-spark - 检查 GraphX 图形对象

Scala/Spark - 使用另一个数据集中的一列创建数据集

apache-spark - AWS EMR 步骤与命令行 Spark-Submit

java - 我可以使用 java web start 启动 one-jar 吗

python - 在 Python 中对二维数组进行部分 argsort

python - 有没有办法阻止 python 打开浏览器窗口的 selenium web 驱动程序

c++ - Mac OS X 上的 Qt : How to get rid of QListView's blue outline?

python - 从 numpy 数组中获取给定半径内的值

java - 将源文件包含在可运行的 jar 文件中

java - 使用 Maven 程序集插件组合 Jar-with-dependencies 和 ZIP 文件