java - Hadoop 字数统计

标签 java hadoop word-count

对于Hadoop中的单词计数示例，在map函数中，它将单词和一个作为中间结果写入文件，并使用reduce进行求和。为什么不在mapper函数中使用一个hashmap，key是word，value是count，如果一个word在1个file spit中出现不止一次，这个word的值会被加上。在映射器函数的最后，写出结果。

这样比原来的设计(不使用combiner)效率更高，虽然使用了combiner，效率应该是相等的。

有什么建议吗？

最佳答案

是的，你也可以使用 hashmap。但在设计解决方案时，您需要考虑最坏的情况。

通常， block 的大小为 128 MB，并考虑有小词(就词长而言)没有或很少重复。在这种情况下，您将有很多词，因此没有。 HashMap 中的条目将增加，消耗更多的内存。您需要考虑到可能有许多不同的作业在同一个数据节点上运行，因此这个 HashMap 消耗更多的 RAM 最终也会减慢其他作业的速度。此外，当 HashMap 的大小增加时，它必须执行 Rehashing，这会为您的作业执行增加更多时间。

关于java - Hadoop 字数统计，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39881764/

上一篇：hadoop - 将表的属性从 avro.schema.literal 设置为 avro.schema.url 后，Hive avro 表架构未更新

下一篇：hadoop - HBase on Hadoop，数据局部性深潜

相关文章：

java - 随机填充二维数组

java - 我如何知道 HttpServletRequest 是否受 <security-constraint> 约束？

java - 用 Java 创建 PDF 文件

java - 大整数的数字总和

java - Hadoop MapReduce 作业在本地无法加载库并且在 OS X 上连接失败

java - 在Hadoop的WordCount程序中获取异常

java - Hadoop - 每个节点的字数

java - Hadoop提示不存在匿名类(NoClassDefFoundError)

eclipse - 在 VM 中访问 Hadoop 后 Eclipse Europa 中的 DFS 位置

Java+Spark wordCount 与 EMR