hadoop - 在不同的数据库列集上工作的映射器任务

标签 hadoop mapreduce

我们有一个场景,我们希望单个 Hadoop 作业创建/管理多个映射器任务,其中每个映射器任务将查询关系数据库表中的列子集。我们研究了 DataDrivenDBInputFormat,但这似乎只是为了促进分区,其中每个映射器任务可以查询关系数据库表中的行子集。

感谢这方面的任何建议。谢谢。

最佳答案

我建议您编写一个映射器来读取两组列的并集。您可以在同一个映射器中执行多个映射器任务,或者只是将数据转储到一个顺序文件中,多个后续映射器仅使用该文件中所需的内容。这取决于两组映射器输出之间的相关程度,以及它们在流程后期输入到同一 hadoop 步骤的速度(如果有的话)。

关于hadoop - 在不同的数据库列集上工作的映射器任务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13570931/

相关文章:

apache - 在 HDP2.1 Hbase 中找不到 graceful_stop.sh

amazon-web-services - 由于hadoop用户 `File '/var/aws/emr/userData.json无法读取到ssh到胶开发端点

Hadoop - 映射器输出能否超过 block 大小

apache - Hadoop 2.6.0无法在WordCount示例中 reduce task 数量

java - 我怎样才能使这段代码更有效率?循环和大数据

hadoop - 自定义分区程序与 MultipleOutputFormat

python - 在 Python 中运行 Hive 查询?

sql - 为什么转换为时间戳会给出两个不同的结果

hadoop - 实现定制的原始比较器

algorithm - MapReduce:哪些图像处理算法最容易使用 MapReduce 框架实现