我有:
- App 引擎应用程序(Java/Python)
- Dataproc 集群
我想以编程方式在主节点 (hadoop distcp
) 上运行 Hadoop 实用程序之一。最好的方法是什么?到目前为止,我有下一条线索:ssh 到主节点并从那里运行 util。是否有其他选择来实现相同的目标?
最佳答案
要运行 DistCp,您可以提交常规 Hadoop MR job through Dataproc API or gcloud并指定 org.apache.hadoop.tools.DistCp
作为主类:
gcloud dataproc jobs submit hadoop --cluster=<CLUSTER> \
--class=org.apache.hadoop.tools.DistCp -- <SRC> <DST>
在 Python 中,您可以使用 REST API直接或Python Client library提交 DistCp 作业。
关于google-app-engine - 如何以编程方式在 Dataproc 集群上运行 Hadoop 实用程序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54868736/