当我使用tez运行查询时,输出文件的数量非常大。我有4-5 GB的数据,每个数据有46 MB或16 MB。我只希望有2-3个文件作为输出文件。
我的输出文件位置将是google cloud storage。如何合并文件?
set mapred.reduce.tasks = 1;
set hive.merge.mapfiles = true;
set hive.mergejob.maponly = true;
set hive.merge.mapredfiles=true;
我确实设置了这些参数。我确实编写了插入覆盖查询以覆盖相同位置的数据。没用请帮忙。
最佳答案
我能够做到这一点。之前,当我这样做时,它只是 map 工作。现在,我对查询进行了一些更改以也使用reducer(添加了distribution by)。然后,如果我说“reducer的数量= 1”,则它起作用。但是它不适用于其他仅适用于 map 工作的参数
关于hadoop - Google云存储-Tez输出文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29069316/