hadoop - Google云存储-Tez输出文件

当我使用tez运行查询时，输出文件的数量非常大。我有4-5 GB的数据，每个数据有46 MB或16 MB。我只希望有2-3个文件作为输出文件。

我的输出文件位置将是google cloud storage。如何合并文件？

set mapred.reduce.tasks = 1;
set hive.merge.mapfiles = true; 
set hive.mergejob.maponly = true;
set hive.merge.mapredfiles=true;

我确实设置了这些参数。我确实编写了插入覆盖查询以覆盖相同位置的数据。没用请帮忙。

最佳答案

我能够做到这一点。之前，当我这样做时，它只是 map 工作。现在，我对查询进行了一些更改以也使用reducer(添加了distribution by)。然后，如果我说“reducer的数量= 1”，则它起作用。但是它不适用于其他仅适用于 map 工作的参数

关于hadoop - Google云存储-Tez输出文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29069316/