我有一个 pyspark 项目,其中包含运行 Spark-streaming 的 python 脚本。我有一些外部依赖项,我用 --packages
运行旗帜。
但是,在 scala 中,我们可以使用 maven 下载所有必需的包,使用主 Spark 程序制作一个 jar 文件,并将所有内容放在一个 jar 中,然后只需使用 spark-submit
将其提交到集群(在我的例子中是yarn)。
有类似jar
这样的东西吗?对于 pyspark?
spark官方文档上没有这样的信息。他们只是提到使用 spark-submit <python-file>
或添加--py-files
但它不像jar
那么专业文件。
任何建议都会有帮助!谢谢!
最佳答案
文档说你可以使用 zip 或 Egg。
For Python applications, simply pass a .py file in the place of instead of a JAR, and add Python .zip, .egg or .py files to the search path with --py-files.
您可能还会找到other parameters有用。
关于python - 像 pyspark 的 jar 一样打包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37728174/