hadoop - 在hadoop中逐章计算文本文件的单词数

我已经在hadoop中成功执行了字数统计。现在，我想对文本文件或pdf重复相同的过程。我想按章数一下。
我该怎么办？

最佳答案

在MapReduce中，这全都与您如何构造键的键有关。

在wordcount中，映射阶段中的每个单词都计为1，在reducer中，您将获得在整个已处理文件中出现的单词总数。

字数示例:

Map Phase:
<Key , val>
in, 1
at, 1
in, 1

Reducer Phase:
in, 2
at, 1

为了进一步划分级别(章节)，您只需要构造复合键。

w章的字数示例:

Map Phase:
<Key , val>
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

Reducer Phase:
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

次要排序是实现相同但更好的方法的更好，更简洁的方法。
hadoop map reduce secondary sorting

关于hadoop - 在hadoop中逐章计算文本文件的单词数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43031044/

相关文章：

java - JSON 对象跨越多行，如何在 Hadoop 中拆分输入