hadoop - 将数据从 Hadoop DFS 传输到本地文件系统的最快方法是什么?

标签 hadoop

我总是使用“dfs -get”或“dfs -cat”,但我想可能会有更好的东西。使用“dfs -cat | pv”,我的网络连接似乎没有饱和(我只有 20MB/秒)。也许有办法并行化它吗?

最佳答案

dfs -cat 必须通过单个进程传送所有数据,并行性很差。

我所做的是运行一个仅限映射器的流作业,该作业转储到每个磁盘上的暂存空间,然后 rsync 返回到一台机器。这两部分都很好地充分发挥了集群的作用;并且由于 rsync 是很好的幂等性,所以您可以与 hdfs->local 部分同时启动它。

关于hadoop - 将数据从 Hadoop DFS 传输到本地文件系统的最快方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4775417/

相关文章:

Hadoop伪分布式运行报错: Protocol message tag had invalid wire type

c++ - 其他语言中最接近 Apache Hadoop 的是什么?

java - Hadoop 映射器和 reducer 输出不匹配

hadoop - 为什么 hive 中的CTAS查询没有得到预期的结果?

mysql - 在 Hadoop 上为 Hive 创建一个用户帐户 MySQL

sql - 如何从按日期列划分的配置单元表中获取最新日期?

使用 C#.NET 从 Hadoop HDFS 读取 JSON 文件

hadoop - WordCount命令找不到文件位置

hadoop - 为什么 orc 文件比 Hive 中的 parquet 文件占用更多空间?

hadoop - 如何为 arrywritable 的文本版本编写 compareTo() 方法