hadoop - MapReduce内部加入?

标签 hadoop mapreduce

我想将日志条目与GeoIP数据库一起加入。这就是我所拥有的。

  • 在我的日志文件中,我提取IP地址(外键)作为键。其余条目作为值。
  • 在GeoIP数据库中,我具有到特定国家(IPFROM,IPTO,国家)的IP映射范围。

  • 现在,我不确定如何去结合这两个字段以及要使用哪个结合。

    最佳答案

    如果我理解正确,则想获取给定IP地址日志文件的国家/地区名称。

    您可以通过导出数据库表来创建一些csv。

    然后您可以使用分布式缓存概念读取该文件

    关于hadoop - MapReduce内部加入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16206628/

    相关文章:

    hadoop - HBase 错误 : zookeeper. znode.parent 不匹配

    java - 如何在 Pig 中编写自定义文件

    python - hadoop 流 : how to give list of key values to reducer?

    hadoop - 跨节点的数据移动是否发生在 Reducer 阶段? MapReduce

    hadoop-mapreduce reducer-combiner 输入

    java - 如何告诉 MapReduce 同时使用多少个映射器?

    hadoop - Hadoop 处理记录如何跨 block 边界拆分?

    python - mrjob:在 EMR 上设置日志记录

    hadoop - 寻找过去50年来温度最高的城市

    具有远程 (AWS S3) 目标的 Makefile