hadoop - PigLatin问题

标签 hadoop apache-pig

我的 pig 在MapReduce模式下运行。现在，我正在执行联接操作。 HDFS中有一个文件的三个复制，我如何知道清管器从哪个DataNode加载数据？

我试图使用解释来显示计划。
但是它仅显示数据是从hdfs:// masterNodeIP:8020 / data加载的
这是否意味着仅从此masterNode加载了所有需要的数据文件？

最佳答案

打开MapReduce管理Web ui(通常为http://masterNode:50030/)并找到作业(您可以通过id进行标识，pig将其记录下来)。打开它，您将看到一堆 map task ，每个任务都从您的集群分配给特定节点。每个映射任务对应一个HDFS块。 MapReduce始终尝试将任务执行并置到存储相应块的节点上。

关于hadoop - PigLatin问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30583183/

上一篇：hadoop - 如何在HDP沙箱上的classpath中添加第三方jar？

下一篇：json - HUE上的HIVE编辑器-Hadoop

hadoop - PIGLatin是否支持Parquet文件的谓词下推

hadoop - 如何在 RDD [(String, Int)] 上保存 AsTextFile 时删除记录周围的括号？

hadoop - 从 pig 身上连续获得最大值

csv - 以十六进制分隔Hive CsvSerde表

sql - regexp_replace 配置单元中的正则表达式

hadoop - HDFS 事件节点显示为已退役

hadoop - Apache Kafka和Hadoop是否应该分别安装(在不同的群集上)？

hadoop - 非常基本的 pig-latin 初学者代码

shell - pig 咕shell shell 中的copyFromLocal错误