google-app-engine - 如何以编程方式在 Dataproc 集群上运行 Hadoop 实用程序?

标签 google-app-engine google-cloud-platform google-cloud-dataproc

我有:

  • App 引擎应用程序(Java/Python)
  • Dataproc 集群

我想以编程方式在主节点 (hadoop distcp) 上运行 Hadoop 实用程序之一。最好的方法是什么?到目前为止,我有下一条线索:ssh 到主节点并从那里运行 util。是否有其他选择来实现相同的目标?

最佳答案

要运行 DistCp,您可以提交常规 Hadoop MR job through Dataproc API or gcloud并指定 org.apache.hadoop.tools.DistCp 作为主类:

gcloud dataproc jobs submit hadoop --cluster=<CLUSTER> \
    --class=org.apache.hadoop.tools.DistCp -- <SRC> <DST>

在 Python 中,您可以使用 REST API直接或Python Client library提交 DistCp 作业。

关于google-app-engine - 如何以编程方式在 Dataproc 集群上运行 Hadoop 实用程序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54868736/

相关文章:

apache-spark - 通过 Hadoop 输入格式示例用于 pyspark 的 BigQuery 连接器

google-app-engine - 解决无效的内存地址或 nil 指针取消引用

google-app-engine - 在 GCP Cloud Run/Function 上使用固定的公共(public) IP(到白名单)

python - 从 GCloud 激活服务帐户

mysql - nodeJS 应用程序无法连接到 google MySQL 数据实例

python - ModuleNotFoundError 因为 PySpark 序列化程序无法找到库文件夹

google-cloud-platform - 如何在流式查询中使用 Google Cloud Storage 作为检查点位置?

python - 改进在 Python 3.7 标准环境中运行 Django 的 Google App Engine 的冷启动时间

Android gradle 任务 Google Appengine

google-app-engine - 如何让 intellij 中的 Groovy hotswap 工作?