java - 定义自定义键

标签 java hadoop mapreduce

IDbb5d7b0afbe40651f54120e31eb7fdd6  SI|us_us-800148_Rachel%20Maddow|http://www.msnbc.com/rachel-maddow-show TI1393717980    FC10    **UAMozilla/5.0** (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.73.11 (KHTML, like Gecko) Version/7.0.1 Safari/537.73.11

我是Hadoop MapReduce的初学者,正在寻求一些指导

以上是1个样本记录。我有一个包含10,000个类似记录的平面文件。如果我只想从下面的行中读取UAMozilla并计算其在文件中的出现次数。如何使用Java中的MapReduce实现此目的。请帮助,因为我一直在寻找解决这一问题的好运!

真诚的感谢!

最佳答案

使用hadoop示例随附的相同WordCount程序。您的 map 不会只发射整个单词,而只会发射UAMozilla / 5.0,1。

要从日志行中单独提取UAMozilla / 5.0,只需使用正则表达式即可。

关于java - 定义自定义键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23505374/

相关文章:

hadoop - 如何为Hadoop MapReduce2 History Server启用GC日志记录,同时防止日志文件覆盖和限制磁盘空间使用

java - 使用 Thrift 运行 Hive Hook 时出现 YARN AM 容器错误

Hadoop:无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

java - 如何向现有 XML 添加新节点

hadoop - 如何从 sequenceFile 创建一个 spark DataFrame

hadoop - 由于缺少 jar,无法配置 hive.exec Hook

sql - 选择 Hive 表中的第一个匹配项

java - 为什么我们可以在不编译为 JavaScript 的情况下对 GWT Widget 进行单元测试?

java - 从 Infinispan 缓存读取进入无限循环

java - 为什么纬度和经度值会转换为 1E6?