hadoop - 如何加快 hive 中的排序

标签 hadoop hive

我想加快 hive 的进程,
但我不知道如何
做吧。
数据约为200GB,文本数据约为3亿行,
我事先将其拆分为50个文件,那么1个文件约为4GB。
我想得到1个文件作为排序的结果,然后选择reducer的数量为1而mapper的数量为50。
数据的每一行都由单词和频率组成。
应当将相同的单词归为一组,并对其频率进行求和。
所有文件都是gzip文件。
需要几天的时间才能完成此过程,
我想加快
如果可以的话,要几个小时。
我应该更改哪个参数以加快该过程?

最佳答案

谢谢您的回复,
是的,我定义了指向HDFS位置的外部Hive表。
我显示我的伪代码,

创建外部表A count int,字串,
以'\ t'结尾的行格式分隔字段,
位置“HDFS路径”;

选择计数,从A组中按单词desc按单词排序;

关于hadoop - 如何加快 hive 中的排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52398734/

相关文章:

用于连接到 Impala 的 Jdbc 设置

hadoop - 减少映射器和缩减器以在 Hive 中对非常大的表/ View 进行简单查询

multithreading - Hadoop 可以减少 SIFT 的运行时间吗?

hadoop - cumulocity中的java客户端如何监听事件?

java - 在同一程序中处理 2 个版本的 hadoop 时,Hadoop jar 冲突问题

hadoop - 还原Impala的Load语句?

hive - 带有 Hive 1.1 (CDH 5.7.1) 的 Apache NiFi Hive 处理器

hadoop - Oozie-分区表的配置单元操作失败

hadoop - 通过 Hive JDBC Hive over Tez - 错误

xml - XSLT 新行插入不能按预期与 Hive 一起工作