apache-spark - 如何在Linux环境下按小时计划pyspark脚本

标签 apache-spark hadoop hive pyspark job-scheduling

我有一个pyspark脚本，我希望该脚本每小时执行一次，这意味着该脚本应在每小时执行一次。
我如何每小时执行一次该脚本。

我已经搜索了很多，但什么都没得到。

最佳答案

您可以使用以下任何一种方法

https://developer.ibm.com/hadoop/2017/06/30/scheduling-spark-job-written-pyspark-sparkr-yarn-oozie/

https://github.com/pinterest/pinball

cron选项卡

http://airflow.apache.org/scheduler.html

关于apache-spark - 如何在Linux环境下按小时计划pyspark脚本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58657527/

上一篇：docker - 没有设置WORKDIR的Docker无法运行

下一篇：docker - 安装后Docker无法正常工作

相关文章：

scala - Spark Scala - 读取具有多种键类型的序列文件？

python - 使用 pyspark.ml 从 LDA 模型中获取推荐的主题数

java - Java中泛型这 block 怎么理解？

java - X12 解析使用 hadoop mapreduce

hadoop - 纱 : Could not find or load main class org. apache.hadoop.mapreduce.v2.app.MRAppMaster

scala - Spark : PageRank example when iteration too large throws stackoverflowError

java - 如何使用java动态地展平spark数据框中复杂的嵌套json

java - MapReduce Hadoop StringTokenizer 获取 NoSuchElementException

hadoop - 如何在配置单元 cli/beeline 中将 textinputformat.record.delimiter 重置为其默认值？

csv - oozie-在配置单元操作中使用存档文件

©2024 IT工具网联系我们