hadoop - 如何在没有Sqoop的情况下将数据从RDBMS移到hadoop？

标签 hadoop sqoop bigdata

我需要在不使用Sqoop的情况下将大量数据从RDBMS移至Hadoop。我有2200个表的数据库，使用Sqoop将它们导入到hdfs是一项繁琐的工作，需要花费大量时间，并且每次都要选择数据库来影响性能。我有更多的资料可以从RDBMS转移到hdfs。我用 hive 在hdfs中查询文件。有人可以以更有效的方式帮助我吗？

最佳答案

您总是可以通过任何后端代码手动完成:从数据库中读取数据并将流写入HDFS。然后，在应用程序配置中，您可以进行任何需要的自定义(线程，超时，数据批处理数量等)。这是相当简单的解决方案。由于某种原因，我们已经尝试过一次，我不记得了。但是大多数情况下，我们使用sqoop，在这里没有问题。您还可以创建数据库的副本(类似于动漫的副本)，除了sqoop作业之外，任何其他外部系统都不会使用该副本。因此，用户选择不会影响性能。

关于hadoop - 如何在没有Sqoop的情况下将数据从RDBMS移到hadoop？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43202744/

上一篇：Docker 返回退出代码 3221225781 安装 vc_redist.x64.exe

下一篇：docker - Heroku和Google Cloud Run上的HTTP请求不同

json - Hadoop从HDFS读取JSON

oracle - 如何在 Spark 中使用 Hadoop Credential provider 连接到 Oracle 数据库？

hadoop - 记录大数据以使用 Hadoop 组织和存储它并使用 Hive 查询它的正确方法是什么？

hadoop - 最简单的 Hive 查询不起作用

hadoop - 配置单元脚本/操作工作流失败:启动器异常:java.lang.RuntimeException

hadoop - Sqoop如何导入表table1, table2, table3？

hadoop - 使用sqoop在HDFS中显示导入的表

python - 实现用于二阶矩流近似的 Alon-Matias-Szegedy 算法

scala - 如何在 Spark 中处理大引用数据