python - Hadoop作业的描述

标签 python hadoop mapreduce hadoop-streaming

我有一个 Hadoop 集群,不同的进程可以向这个集群提交 mapreduce 作业(它们都使用相同的用户帐户)。

有没有办法区分这些工作?某种描述,可以在提交期间添加到作业中,例如“这是进程“1234”的作业,请勿触摸”?

我正在使用 Python 和 HadoopStreaming,并希望使用简单的 hadoop job -list(或至少使用 Web 管理界面)来区分作业。

最佳答案

是的,您可以使用 job.setJobName(String) 为每个作业指定一个名称。

如果您要将作业名称设置为有区别的名称,您应该能够将它们区分开来。

例如,通过使用类似ManagementFactory.getRuntimeMXBean().getName() 的方法,您可以在1234@localhost 的格式,其中 1234 是进程 ID,您可以将其设置为作业名称以区分它们。

关于python - Hadoop作业的描述,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15003202/

相关文章:

python - 从 QTableView 的每个单元格中获取数据

PIG 的 Python UDF 给出错误

hadoop - Hive 外部表

hadoop - 聚合条件存储在另一个表中的数据

hadoop - 如何在 Hadoop 中执行类似 shell 脚本的操作

MongoDB 映射归约函数语法

python - pymssql 获取 SQL 命令 - last_executed

python - 使用xterm打开新控制台: How to while the current console is printing,也在新控制台上打印

java - 在 AWS EMR 自定义 jar 应用程序中指定其他 jar

python - 对于 pandas 数据框中的特定单元格,删除列表的元素