我正在使用Hbase MultiTableInputFormat比较2个表:Table1(700万个),Table2(3000万个)。
在驱动程序中,我正在传递扫描(没有任何过滤器)。在我的映射器中,我正在做一个比较,并在Reducer中编写摘要。
特定于此方案的任何设置都可以加快此过程。谢谢。
最佳答案
您是否使用过扫描仪缓存,它可以提高性能-
示例-scan.setCaching(1000);
关于hadoop - MultiTableInputFormat比较2个表大约需要80分钟,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26726034/