hadoop - SQOOP 从 RDBMS 转移到 Hadoop 的速度有多快?

标签 hadoop sqoop

谁能告诉我,SQOOP 一次传输 20 亿条记录的速度有多快。而且我知道它一定很快,因为 sqoop 并行运行,其中一些输入将在 Hadoop 上产生一些文件输出。但我想知道MapReduce一次传输20亿条记录的速度详情。

最佳答案

您需要了解负责将数据从 RDBMS 更快地传输到 Hadoop 的要点。

  • 映射器数量:

    增加映射器的数量会提高您的速度,因为它将任务分成几部分并并行执行导入。

  • 映射器上的平衡负载:

    您需要在统一的列上拆分(最好是整数)。它将为所有映射器提供均衡负载,并且传输速度更快。

  • 来自 RDBMS 的连接数:

    您不能只是盲目地增加映射器的数量(例如 100 个或更多)。您的 RDBMS 应该允许这些并发连接,否则它将成为 RDBMS 端的瓶颈。

  • 使用--直接模式:

    如果 sqoop 为特定的 RDBMS 提供了直接连接器,您应该使用它。这将使传输更快。


简而言之,sqoop 的速度足以传输数十亿条记录,只需在编写导入命令时牢记这些要点即可。

关于hadoop - SQOOP 从 RDBMS 转移到 Hadoop 的速度有多快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40079715/

相关文章:

Hadoop 设置 ubuntu 名称节点,数据节点不工作-jps

hadoop - 从Hive到Hive的Sqoop导入

java - sqoop: java.lang.NoClassDefFoundError: org/apache/hadoop/mapreduce/InputFormat

hadoop - 如何用Pig转换目标值?

algorithm - 从 mapreduce 中的 n 个元素中选择 k

hadoop - 将 HiveQL 查询的结果导出到 CSV 时出错?

apache - Hbase Master 和 Region 服务器无法启动

mysql - Oozie - 运行 sqoop : Could not load db driver class: com. mysql.jdbc.Driver 时出现异常

hadoop - 错误无法识别的参数 --hive-partition-key

java - 是否可以在 Java 中使用 SQOOP 从 MySQL 读取/写入 Hadoop 作业?