hadoop - PigLatin问题

标签 hadoop apache-pig

我的 pig 在MapReduce模式下运行。现在,我正在执行联接操作。 HDFS中有一个文件的三个复制,我如何知道清管器从哪个DataNode加载数据?

我试图使用解释来显示计划。
但是它仅显示数据是从hdfs:// masterNodeIP:8020 / data加载的
这是否意味着仅从此masterNode加载了所有需要的数据文件?

最佳答案

打开MapReduce管理Web ui(通常为http://masterNode:50030/)并找到作业(您可以通过id进行标识,pig将其记录下来)。打开它,您将看到一堆 map task ,每个任务都从您的集群分配给特定节点。每个映射任务对应一个HDFS块。 MapReduce始终尝试将任务执行并置到存储相应块的节点上。

关于hadoop - PigLatin问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30583183/

相关文章:

java - 重新运行 Hadoop 作业,分区的 mapoutput 是否仍会转到相同的 Reducers?

hadoop - PIGLatin是否支持Parquet文件的谓词下推

hadoop - 如何在 RDD [(String, Int)] 上保存 AsTextFile 时删除记录周围的括号?

hadoop - 从 pig 身上连续获得最大值

csv - 以十六进制分隔Hive CsvSerde表

sql - regexp_replace 配置单元中的正则表达式

hadoop - HDFS 事件节点显示为已退役

hadoop - Apache Kafka和Hadoop是否应该分别安装(在不同的群集上)?

hadoop - 非常基本的 pig-latin 初学者代码

shell - pig 咕shell shell 中的copyFromLocal错误