据我了解 Hadoop Map-Reduce 作业,映射器输出写入本地存储而不是 HDFS,因为它最终是一次性数据,因此没有必要存储在 HDFS 中。
但正如我所见,Sqoop 映射器输出文件 part-m-00000
被写入 HDFS。所以我怀疑 Hadoop 中是否有一些设置来控制映射器输出写入的位置?并且默认设置为本地存储?
最佳答案
如果没有缩减器,则映射器输出将写入 HDFS。即使在这种情况下,映射器输出也不会直接写入 HDFS,而是写入单个节点磁盘,然后复制到 HDFS。
Sqoop 是一种场景,在这种情况下,它通常是仅映射作业,您希望从表中并行获取数据,但不需要在任何情况下减少数据。
关于java - 在 Sqoop 的情况下,映射器输出如何写入 HDFS?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30245572/