hadoop - 将整个 HDFS 从一个集群转移到另一个集群

标签 hadoop hive

我在具有 5 个节点的测试集群上的 HDFS 中存储了很多配置单元表。数据应约为 70 Gb * 3(复制)。不,我想将整个设置转移到具有更多节点的不同环境。两个集群之间的网络连接是不可能的。

问题是我没有太多时间使用新集群,也没有可能使用其他测试环境测试传输。因此我需要一个可靠的计划。 :)

我有哪些选择?

如何在新集群上以最少的配置工作转移配置单元设置?

是否可以只将 5 个节点的 hdfs 目录复制到新集群的 5 个节点,然后将其余节点添加到新集群并启动平衡器?

最佳答案

没有网络连接,这将很棘手!

我愿意

  1. 将文件从 HDFS 复制到某种可移动存储设备(USB 内存棒、外部 HDD 等)
  2. 将存储移动到新集群
  3. 将文件复制回 HDFS

请注意,这不会保留文件创建/上次访问时间等元数据,更重要的是,不会保留所有权和权限。

这个过程的小规模测试应该非常简单。

如果您可以获得(即使是暂时的)两个集群之间的网络连接,那么 distcp 将是可行的方法。它使用 map reduce 来并行传输,可能会节省大量时间。

关于hadoop - 将整个 HDFS 从一个集群转移到另一个集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14276313/

相关文章:

hadoop - Jaspersoft iReport - 如何设置 Hive 查询的缩减器数量?

hadoop - Elastic MapReduce (EMR) 的扩展?

database - 如何找出 Hive 数据库的总大小

hive - 当hive表有多个分区字段时,如何只更新一个分区字段?

arrays - 将数据加载到 Hive 数组列

hadoop - 如何将存储在另一台(非分布式)服务器上的HDFS文件中的数据存档?

hadoop - MapReduce 堆排序

hadoop - 我在尝试在 5 节点 hadoop 集群中安装 Hbase 时遇到一些问题,

apache-spark - 在 Pyspark HiveContext 中,SQL OFFSET 相当于什么?

java -/usr/lib/hive-hcatalog/share/hcatalog/hive-hcatalog-core-*.jar不存在