mysql - Sqoop 导出到 Aurora RDS 的速度非常慢

标签 mysql sqoop hadoop2 amazon-emr amazon-aurora

我正在尝试将 900 个文件中的 130GB 数据从 S3 导出到 Auroa/MySql RDS。我有 10 个节点的 10r4.4xlarge 配置集群。极光已亮起

Aurora : db.r3.2xlarge 8 CPU, 61 GB RAM)

此外，当我运行 Sqoop 命令时，我可以看到 917 个映射器已启动。但导出还是非常非常慢，加载全部数据需要2个多小时。

这是我正在尝试执行的 Sqoop 命令。

sqoop export \
--connect jdbc:mysql://a205067-pppp-ec2.abcd.us-east-1.rds.amazonaws.com/tprdb \
--username user \
--password Welcome12345 \
--table UniverseMaster \
--export-dir s3://205067-pppp-latest-new/output/processing/NextIteration/ \
--fields-terminated-by  '|' \
--num-mappers 1000 \
--direct \
-- --default-character-set=latin1

有什么方法可以改进 Sqoop Export 吗？我尝试使用每笔交易的记录，但结果仍然相同。

请推荐..

最佳答案

您可以批量导出它，分区也会有所帮助，但还有更多解决方案。您可以引用这个HortonWorks链接https://community.hortonworks.com/articles/70258/sqoop-performance-tuning.html寻找更多的性能调优方法。

关于mysql - Sqoop 导出到 Aurora RDS 的速度非常慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52867979/

上一篇：mysql - 是否可以像 GIT 这样对数据库进行版本控制？

下一篇：MySQL 分组图像解决方案？

相关文章：

linux - 如何查看edgenodes的数量？

mysql - mysql 触发器出了什么问题

hadoop - oozie 作业的 yarn user on/user/yarn 的访问异常

hadoop - Oozie Sqoop Action

hadoop - 在sqoop中，与--split-limit参数一起使用时 “size”是什么意思

hadoop - BDB0091 DB_VERSION_MISMATCH:数据库环境版本与Ambari 2.4.2不匹配

没有列名的MySQL分组

java - 使用数据库 mysql 中的数据在 java netbeans 中创建矩形

java - 从 java 执行过程时出现 JDBC 连接错误

mysql - SQOOP 导出失败(摄取到 mysql 中)