我需要在不使用Sqoop的情况下将大量数据从RDBMS移至Hadoop。我有2200个表的数据库,使用Sqoop将它们导入到hdfs是一项繁琐的工作,需要花费大量时间,并且每次都要选择数据库来影响性能。我有更多的资料可以从RDBMS转移到hdfs。我用 hive 在hdfs中查询文件。有人可以以更有效的方式帮助我吗?
最佳答案
您总是可以通过任何后端代码手动完成:从数据库中读取数据并将流写入HDFS。然后,在应用程序配置中,您可以进行任何需要的自定义(线程,超时,数据批处理数量等)。这是相当简单的解决方案。由于某种原因,我们已经尝试过一次,我不记得了。但是大多数情况下,我们使用sqoop,在这里没有问题。您还可以创建数据库的副本(类似于动漫的副本),除了sqoop作业之外,任何其他外部系统都不会使用该副本。因此,用户选择不会影响性能。
关于hadoop - 如何在没有Sqoop的情况下将数据从RDBMS移到hadoop?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43202744/