hadoop - Hadoop YARN 版本可能的流式命令行选项的完整列表是什么?

标签 hadoop mapreduce hadoop-yarn hadoop-streaming

我在浏览 Hadoop 网站时发现了以下有关 hadoop 流的链接。

https://hadoop.apache.org/docs/current1/streaming.html

但是,我对 Hadoop YARN (MRv2) - 流命令行选项更感兴趣。

如果有人有详尽的列表,您可以将其发布在此处吗?

如果没有找到,有人可以告诉我以下命令中的任何命令行选项是否非法。

yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar \
    -D mapred.jab.name="Streaming wordCount Rating" \
    -D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
    -D map.output.key.field.separator=\t \
    -D mapreduce.partition.keycomparator.options=-k2,2nr \
    -D mapreduce.job.reduces=${NUM_REDUCERS} \
    -files mapper2.py,reducer2.py \
    -mapper "python mapper2.py" \
    -reducer "python reducer2.py" \
    -input ${OUT_DIR} \
    -output ${OUT_DIR_2} > /dev/null

最佳答案

如果您想查看所有 Hadoop 流命令行选项,请参阅 StreamJob.java - setupOptions() :

    allOptions = new Options().
      addOption(input).
      addOption(output).
      addOption(mapper).
      addOption(combiner).
      addOption(reducer).
      addOption(file).
      addOption(dfs).
      addOption(additionalconfspec).
      addOption(inputformat).
      addOption(outputformat).
      addOption(partitioner).
      addOption(numReduceTasks).
      addOption(inputreader).
      addOption(mapDebug).
      addOption(reduceDebug).
      addOption(jobconf).
      addOption(cmdenv).
      addOption(cacheFile).
      addOption(cacheArchive).
      addOption(io).
      addOption(background).
      addOption(verbose).
      addOption(info).
      addOption(debug).
      addOption(help).
      addOption(lazyOutput);

与 MapReduce 相关的选项是所有 MapReduce 应用程序的通用选项,要查看它们是否有效,请查看 mapred-default.xml配置变量。仅供引用:这是指 Hadoop 2.8.0,因此您可能需要找到适合您的 Hadoop 版本的 XML。

关于hadoop - Hadoop YARN 版本可能的流式命令行选项的完整列表是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54512098/

相关文章:

Hadoop 流式处理使用 shell 脚本 : reducer fails with error : No such file or directory

hadoop - 可以使用 distcp 将文件目录从 S3 复制到 HDFS 吗?

hadoop - 在Spark中执行mapreduces

带有 sys.stdin 的 Python 程序出错 - Hadoop Streaming

hadoop - Spark on Hive 进度条停留在 10%

hadoop - 控制和监视 YARN 中同时进行的 mapreduce 任务的数量

apache-spark - Oozie shell 操作为 Spark 作业抛出 NullPointerException

hadoop - 通过 Hue 在 hadoop 中加载大型 csv 只会存储 64MB block

hadoop - 如何在 hadoop 中创建 jar 文件并运行 mapreduce 代码(我在单独的文件中有 map、reduce 和驱动程序功能代码)

hadoop - 有没有办法使YARN中的ApplicationMaster充当单个容器作业的容器?