hadoop - 如何在hadoop中处理大型 map 输出?

标签 hadoop

我是hadoop的新手,并且正在集群中的3个节点上工作(每个节点都有2GB RAM)。
输入文件很小(5 MB),但是 map 输出很大(大约6 GB)。

在映射阶段,我的内存已满,并且任务运行非常缓慢。
是什么原因

谁能帮助我使我的程序更快?

最佳答案

使用NLineInputFormat,其中N表示每个映射器将接收的输入行数。这样,您可以通过向每个映射器任务强制输入较小的数据来创建更多拆分。如果没有,则整个5 MB将进入一项Map任务。

关于hadoop - 如何在hadoop中处理大型 map 输出?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14545287/

相关文章:

hadoop - 如何计算hadoop中使用的df?

hadoop - 如何为Eclipse构建hadoop 2.7.1插件

hadoop - 如何避免 PIG 中的符号零

hadoop - 如何从 HIVE 中的日期中减去月份

java - 使用 Python 代码通过 Hadoop 流运行 Wordcount

apache-spark - Spark 应用程序在 Spark 上下文初始化之前以 "ERROR root: EAP#5: Application configuration file is missing"退出

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

hadoop - 在Hive的存储桶表中增量加载数据?

Hadoop - 将 reducer 编号设置为 0 但写入同一文件?

java - Map Reduce代码用于计算下降率