hadoop - 在使用 MapReduce 执行字数统计时,是否可以在 map 函数中将数据拆分为字词?

标签 hadoop mapreduce

我找到了大量的文档和示例,但我认为如果拆分是在 map() 函数中完成的,这将无法利用分布式系统的强大功能。

我的分析是否正确?

最佳答案

输入文件被分割并分布在整个服务器集上,允许并行映射执行。您还希望利用映射输出的分区来实现将每个单词的计数收集到一个服务器(分区)上所需的排序。通过这种方式,实际的单词计数也可以并行进行。

关于hadoop - 在使用 MapReduce 执行字数统计时,是否可以在 map 函数中将数据拆分为字词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11207316/

相关文章:

hadoop - 如何停止Hadoop cat:在shell中运行循环时无法自动写入输出流?

Hadoop KMS 与 HDFS keystore : No FileSystem for scheme "hdfs"

hadoop - Hortonworks VM-Hadoop批量上传?

image - 将图像存储在 HBASE 中以供处理和快速访问

由于内存错误,Hadoop Map Job 卡住了

python - mrjob:示例如何自动知道如何在文本文件中查找行?

java - Hadoop:java.lang.IncompatibleClassChangeError:找到接口(interface) org.apache.hadoop.mapreduce.JobContext,但类是预期的

hadoop - 更改数据节点目录参数后,数据节点未启动。 DiskErrorException

java - 在 hadoop 中使用 Reducer 类

hadoop - 找出 hadoop 供应商