hadoop - 将数据从 Hadoop DFS 传输到本地文件系统的最快方法是什么？

标签 hadoop

我总是使用“dfs -get”或“dfs -cat”，但我想可能会有更好的东西。使用“dfs -cat | pv”，我的网络连接似乎没有饱和(我只有 20MB/秒)。也许有办法并行化它吗？

最佳答案

dfs -cat 必须通过单个进程传送所有数据，并行性很差。

我所做的是运行一个仅限映射器的流作业，该作业转储到每个磁盘上的暂存空间，然后 rsync 返回到一台机器。这两部分都很好地充分发挥了集群的作用；并且由于 rsync 是很好的幂等性，所以您可以与 hdfs->local 部分同时启动它。

关于hadoop - 将数据从 Hadoop DFS 传输到本地文件系统的最快方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4775417/