hadoop - 如何在没有Sqoop的情况下将数据从RDBMS移到hadoop?

标签 hadoop sqoop bigdata

我需要在不使用Sqoop的情况下将大量数据从RDBMS移至Hadoop。我有2200个表的数据库,使用Sqoop将它们导入到hdfs是一项繁琐的工作,需要花费大量时间,并且每次都要选择数据库来影响性能。我有更多的资料可以从RDBMS转移到hdfs。我用 hive 在hdfs中查询文件。有人可以以更有效的方式帮助我吗?

最佳答案

您总是可以通过任何后端代码手动完成:从数据库中读取数据并将流写入HDFS。然后,在应用程序配置中,您可以进行任何需要的自定义(线程,超时,数据批处理数量等)。这是相当简单的解决方案。由于某种原因,我们已经尝试过一次,我不记得了。但是大多数情况下,我们使用sqoop,在这里没有问题。您还可以创建数据库的副本(类似于动漫的副本),除了sqoop作业之外,任何其他外部系统都不会使用该副本。因此,用户选择不会影响性能。

关于hadoop - 如何在没有Sqoop的情况下将数据从RDBMS移到hadoop?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43202744/

相关文章:

hadoop - Google Cloud Platform上的预定mapreduce作业

json - Hadoop从HDFS读取JSON

oracle - 如何在 Spark 中使用 Hadoop Credential provider 连接到 Oracle 数据库?

hadoop - 记录大数据以使用 Hadoop 组织和存储它并使用 Hive 查询它的正确方法是什么?

hadoop - 最简单的 Hive 查询不起作用

hadoop - 配置单元脚本/操作工作流失败:启动器异常:java.lang.RuntimeException

hadoop - Sqoop如何导入表table1, table2, table3?

hadoop - 使用sqoop在HDFS中显示导入的表

python - 实现用于二阶矩流近似的 Alon-Matias-Szegedy 算法

scala - 如何在 Spark 中处理大引用数据