hadoop - 在Hadoop群集上解决字数统计是否有意义?

标签 hadoop mapreduce

Hadoop MapReduce上的许多教程都是从字数统计示例开始的。但是,我记得在我的分布式计算类中(那是在Hadoop诞生之前),只有当子任务的粒度很细时,分布式计算才可以加快速度,这意味着计算时间超过了通信时间。在“字数统计”中,时间复杂度(如果使用哈希表并假定字长为常数限制)是线性的。因此,似乎没有理由为将输入文件传输到HDFS以及随后的“排序和混洗”阶段付出代价。我想念什么吗?

最佳答案

不清楚您所建议的替代方法是什么,但是WordCount就像用您喜欢的语言打印Hello World一样。

它教会了您一些基本概念,它并不是要成为使用MapReduce的主要示例,也不是成为如何优化Hadoop集群的主要示例(存储行斜线文本进行分析并不是Hadoop的亮点)。

关于hadoop - 在Hadoop群集上解决字数统计是否有意义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54089254/

相关文章:

hadoop - Mapreduce - 当 reducer 达到 67% 时超时

hadoop - 将 SAS 与 Hadoop 连接

java - 从hadoop 1迁移到hadoop2后如何恢复hadoop Mapreduce作业的性能

java - 如何在hadoop中打印文件的第一行和最后一行?

Hadoop 溢出故障

hadoop - 使用 UDF 的输出设置 Hive 变量

hadoop - 如何在Hortonworks Edge Node中安装最新版本的Apache Spark

Hadoop distcp 到 HTTP 代理后面的 S3

exception - 如何在 Oozie 中获取有关已终止作业的更具体的错误信息

java - 在带有HBase的hadoop中使用外部jar