我在Oracle中存储了1 PB的数据,我想将这些数据放入hadoop中。建议采取什么方法?建议使用Sqoop吗?如果不是,那么应该使用什么方法或工具来进行这种大负载
最佳答案
Sqoop是一个不错的选择,尽管我不确定它是否支持Oracle的批量操作(与JDBC select查询相对)。
问题在于,Sqoop将尝试通过单个操作(尽管可能具有多个进程)来完成此操作,并且在具有如此大量的数据的情况下,您可能希望进行更多的零碎和容错的导入。
之后您打算如何处理这些数据?您想以什么格式存储数据? Sqoop还有其他优点,例如直接导入到Hive表中。
关于hadoop - 从RDBMS批量导入到Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24359765/