我已经在hadoop中成功执行了字数统计。现在,我想对文本文件或pdf重复相同的过程。我想按章数一下。
我该怎么办?
最佳答案
在MapReduce中,这全都与您如何构造键的键有关。
在wordcount中,映射阶段中的每个单词都计为1,在reducer中,您将获得在整个已处理文件中出现的单词总数。
字数示例:
Map Phase:
<Key , val>
in, 1
at, 1
in, 1
Reducer Phase:
in, 2
at, 1
为了进一步划分级别(章节),您只需要构造复合键。
w章的字数示例:
Map Phase:
<Key , val>
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1
Reducer Phase:
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1
次要排序是实现相同但更好的方法的更好,更简洁的方法。
hadoop map reduce secondary sorting
关于hadoop - 在hadoop中逐章计算文本文件的单词数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43031044/