hadoop - 如何设计Hadoop作业以将字段从一个文件匹配到另一个文件

标签 hadoop

我有两个不同的文件，每个文件包含不同的数据。我想对这些文件进行一些处理，然后根据匹配的键将数据合并在一起。在Hadoop中实现此目标的最佳方法是什么？我正在考虑以某种方式创建两个映射器，每个映射器将处理一个文件，然后还原器合并数据？我不确定这是否可能。关于我如何将Hadoop中两个文件中的数据合并在一起，是否有人有任何建议？

最佳答案

有多种写映射/归约作业的方法(Hive，Pig，Cascading，Java等)，但本质上，联接是多输入作业，其中映射器以key_to_join_by和rest_of_data格式发射记录，而reducer进行实际联接(除非其中一个文件小到足以容纳在内存中，您就可以在映射器中进行联接)

您可以在Pig here中看到有关此操作的示例

关于hadoop - 如何设计Hadoop作业以将字段从一个文件匹配到另一个文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15249798/

上一篇：docker - 将SQL Server数据库附加到Docker容器会引发错误-Docker for Windows

下一篇：hadoop - 在哪里上传hdfs文件？

相关文章：

hadoop - 如何从带有 Pig 的袋子中获取很少的值？

hadoop - 在Ubuntu上Hadoop的Eclipse插件错误

hadoop - Hive(大数据)-分桶和索引之间的区别

python - 如何将大文本回显/重定向到hdfs put？

arrays - 由于超出VM限制，MapReduce处理失败

java - 如何对自定义 RecordReader 和 InputFormat 类进行单元测试？

hadoop - 如果协调器操作失败，如何暂停 Oozie 协调器？

java - Hadoop 2.5.0远程写文件失败

hadoop - 如何在不使用时间戳的情况下在配置单元中查找最近更新的值

hadoop - 如何在Hadoop中的数据节点之间平衡数据？