hadoop - 在不使用distcp命令的情况下将配置单元数据从一个Hadoop群集移动到另一个群集?

标签 hadoop

如何在不使用distcp命令的情况下将配置单元数据从一个Hadoop群集移动到另一个Hadoop群集。由于我们无法使用此功能。我们还有其他选择吗,例如Sqoop或Flume?

最佳答案

distcp 是将大量数据从一个hadoop集群移动到另一个hadoop集群的有效方法。

Sqoop和Flume无法用于将数据从一个hadoop集群传输到另一个集群。 Sqoop主要用于在hadoop和关系数据库之间移动数据,而Flume用于将流数据摄取到Hadoop。

您的另一个选择是使用:

像Kafka这样的

  • 高吞吐量msg队列,但是这比使用distcp更加复杂。
  • 使用传统的hadoop fs shell命令(例如cpget),然后使用put

  • 仅供引用,在谈论Hive数据时,还应该考虑使Hive元数据(元存储)在群集之间保持同步。

    关于hadoop - 在不使用distcp命令的情况下将配置单元数据从一个Hadoop群集移动到另一个群集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33096101/

    相关文章:

    scala - Spark Streaming迭代算法

    java - 读取 HDFS 文件拆分

    azure - 无法将表加载到Azure Blob中存在的配置单元中

    apache-spark - 我如何从 Spark 写入 HDFS 以更快地访问该数据?

    java - 在 Map Reduce 作业中使用多线程

    hadoop - 有关此BIG DATA用例的建议技术/设计

    hadoop - 加载配置单元时出错

    hadoop - 存储中间结果

    hadoop - 收到警告 ipc.Client : interrupted waiting to send params to server when copying files to HDFS

    hadoop - 在 HIVE 中创建具有多个源的外部表