hadoop - 在hadoop中逐章计算文本文件的单词数

标签 hadoop

我已经在hadoop中成功执行了字数统计。现在,我想对文本文件或pdf重复相同的过程。我想按章数一下。
我该怎么办?

最佳答案

在MapReduce中,这全都与您如何构造键的键有关。

在wordcount中,映射阶段中的每个单词都计为1,在reducer中,您将获得在整个已处理文件中出现的单词总数。

字数示例:

Map Phase:
<Key , val>
in, 1
at, 1
in, 1

Reducer Phase:
in, 2
at, 1

为了进一步划分级别(章节),您只需要构造复合键。

w章的字数示例:
Map Phase:
<Key , val>
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

Reducer Phase:
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

次要排序是实现相同但更好的方法的更好,更简洁的方法。
hadoop map reduce secondary sorting

关于hadoop - 在hadoop中逐章计算文本文件的单词数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43031044/

相关文章:

java - JSON 对象跨越多行,如何在 Hadoop 中拆分输入

hadoop - HIVE 创建表不为空

hadoop - 该目录已经锁定 hadoop

java - 如何从映射器登录? (hadoop 与 commoncrawl)

hadoop - 运行 accumulo init 时出错

linux - Hbase shell 远程命令

hadoop - Spark + yarn : How to retain logs of lost-executors

unix - 将多个文件从本地 unix 移动到 HDFS

hadoop - yarn 高可用性 : ZKResourceManagerStateStore not found

eclipse - 如何使用 Java -jar 命令运行 map reduce 作业