我总是使用“dfs -get”或“dfs -cat”,但我想可能会有更好的东西。使用“dfs -cat | pv”,我的网络连接似乎没有饱和(我只有 20MB/秒)。也许有办法并行化它吗?
最佳答案
dfs -cat
必须通过单个进程传送所有数据,并行性很差。
我所做的是运行一个仅限映射器的流作业,该作业转储到每个磁盘上的暂存空间,然后 rsync 返回到一台机器。这两部分都很好地充分发挥了集群的作用;并且由于 rsync 是很好的幂等性,所以您可以与 hdfs->local 部分同时启动它。
关于hadoop - 将数据从 Hadoop DFS 传输到本地文件系统的最快方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4775417/