hadoop - 在Hadoop群集上解决字数统计是否有意义？

标签 hadoop mapreduce

Hadoop MapReduce上的许多教程都是从字数统计示例开始的。但是，我记得在我的分布式计算类中(那是在Hadoop诞生之前)，只有当子任务的粒度很细时，分布式计算才可以加快速度，这意味着计算时间超过了通信时间。在“字数统计”中，时间复杂度(如果使用哈希表并假定字长为常数限制)是线性的。因此，似乎没有理由为将输入文件传输到HDFS以及随后的“排序和混洗”阶段付出代价。我想念什么吗？

最佳答案

不清楚您所建议的替代方法是什么，但是WordCount就像用您喜欢的语言打印Hello World一样。

它教会了您一些基本概念，它并不是要成为使用MapReduce的主要示例，也不是成为如何优化Hadoop集群的主要示例(存储行斜线文本进行分析并不是Hadoop的亮点)。

关于hadoop - 在Hadoop群集上解决字数统计是否有意义？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54089254/

上一篇：hadoop - 这些 “preempted” Yarn命令有什么作用？

下一篇：hadoop - 巨大的文件如何从HDFS外部生成？

hadoop - 将 SAS 与 Hadoop 连接

java - 从hadoop 1迁移到hadoop2后如何恢复hadoop Mapreduce作业的性能

java - 如何在hadoop中打印文件的第一行和最后一行？

Hadoop 溢出故障

hadoop - 使用 UDF 的输出设置 Hive 变量

hadoop - 如何在Hortonworks Edge Node中安装最新版本的Apache Spark

Hadoop distcp 到 HTTP 代理后面的 S3

exception - 如何在 Oozie 中获取有关已终止作业的更具体的错误信息

java - 在带有HBase的hadoop中使用外部jar