hadoop - 有没有办法使用 JDBC 作为 Hadoop 的 MapReduce 的输入资源？

我在 PostgreSQL 数据库中有数据，我想获取它、处理它并将其保存到 HBase 数据库。是否可以以某种方式将 JDBC 操作分布在 Map 操作中？

最佳答案

是的，您可以通过DBInputFormat来做到这一点:

DBInputFormat 使用JDBC 连接到数据源。由于 JDBC 得到了广泛的实现，DBInputFormat 可以与 MySQL、PostgreSQL 和其他几个数据库系统配合使用。各个数据库供应商提供 JDBC 驱动程序，以允许第三方应用程序(例如 Hadoop)连接到其数据库。

DBInputFormat 是一个InputFormat 类，允许您从数据库读取数据。 InputFormat 是 Hadoop 对数据源的形式化；它可以表示以特定方式格式化的文件、从数据库读取的数据等。DBInputFormat 提供了一种从数据库扫描整个表的简单方法，以及从任意 读取数据的方法针对数据库执行的 SQL 查询。

LINK

关于hadoop - 有没有办法使用 JDBC 作为 Hadoop 的 MapReduce 的输入资源？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17683924/

上一篇：java - 在类路径中找不到 Hadoop 配置，使用 Java 从本地在服务器中运行 mapreduce

下一篇：eclipse - Hadoop 和 Eclipse 中的 reducer 数量

相关文章：

schema - 如何设计HBase模式

java - 在 HBase 中按家庭获取值(value)

java - 集成 R 和 Hadoop(使用 JRI)

bash - 如何在配置单元服务器操作中将动态日期作为参数传递

hadoop - 调试 Apache Slider 包？

javascript - 如何使用键为 "@"的文档在 couchDB 中创建 View

apache - 使用Apache Ambari的Hadoop集群部署

hadoop - 实际上，您需要多少台机器才能让 Hadoop/MapReduce/Mahout 加速非常可并行化的计算？

java - 在 hadoop mapreduce 作业中插入连接到数据库时出现异常

hadoop - 节点/hbase 不在 ZooKeeper 中