hadoop - Google云存储-Tez输出文件

标签 hadoop hive google-cloud-storage

当我使用tez运行查询时,输出文件的数量非常大。我有4-5 GB的数据,每个数据有46 MB或16 MB。我只希望有2-3个文件作为输出文件。

我的输出文件位置将是google cloud storage。如何合并文件?

set mapred.reduce.tasks = 1;
set hive.merge.mapfiles = true; 
set hive.mergejob.maponly = true;
set hive.merge.mapredfiles=true;

我确实设置了这些参数。我确实编写了插入覆盖查询以覆盖相同位置的数据。没用请帮忙。

最佳答案

我能够做到这一点。之前,当我这样做时,它只是 map 工作。现在,我对查询进行了一些更改以也使用reducer(添加了distribution by)。然后,如果我说“reducer的数量= 1”,则它起作用。但是它不适用于其他仅适用于 map 工作的参数

关于hadoop - Google云存储-Tez输出文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29069316/

相关文章:

scala - 将 Spark 数据帧写入现有的 Parquet Hive 表中

java - 为什么 Spark 不能在 Eclipse 上运行?

hadoop - Hive 查询执行计划

hadoop - Hive unix_timestamp 函数计算不匹配

hadoop - HBase hive 集成

python - 云存储 : how to setup service account credentials for python boto library

google-app-engine - 本地单元测试 Google Cloud Storage 签名 URL

docker - 端口不可用 : listen tcp 0. 0.0.0/50070:绑定(bind):尝试以访问权限禁止的方式访问套接字

php - 上传的图片未在 Google Cloud Storage 上设置为公开 - Google App Engine

hadoop - 总订单划分的分析阶段