hadoop - 有没有办法使用 JDBC 作为 Hadoop 的 MapReduce 的输入资源?

标签 hadoop mapreduce hbase

我在 PostgreSQL 数据库中有数据,我想获取它、处理它并将其保存到 HBase 数据库。是否可以以某种方式将 JDBC 操作分布在 Map 操作中?

最佳答案

是的,您可以通过DBInputFormat来做到这一点:

DBInputFormat 使用JDBC 连接到数据源。由于 JDBC 得到了广泛的实现,DBInputFormat 可以与 MySQLPostgreSQL 和其他几个数据库系统配合使用。各个数据库供应商提供 JDBC 驱动程序,以允许第三方应用程序(例如 Hadoop)连接到其数据库。

DBInputFormat 是一个InputFormat 类,允许您从数据库读取数据。 InputFormat 是 Hadoop 对数据源的形式化;它可以表示以特定方式格式化的文件、从数据库读取的数据等。DBInputFormat 提供了一种从数据库扫描整个表的简单方法,以及从任意 读取数据的方法针对数据库执行的 SQL 查询。

LINK

关于hadoop - 有没有办法使用 JDBC 作为 Hadoop 的 MapReduce 的输入资源?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17683924/

相关文章:

schema - 如何设计HBase模式

java - 在 HBase 中按家庭获取值(value)

java - 集成 R 和 Hadoop(使用 JRI)

bash - 如何在配置单元服务器操作中将动态日期作为参数传递

hadoop - 调试 Apache Slider 包?

javascript - 如何使用键为 "@"的文档在 couchDB 中创建 View

apache - 使用Apache Ambari的Hadoop集群部署

hadoop - 实际上,您需要多少台机器才能让 Hadoop/MapReduce/Mahout 加速非常可并行化的计算?

java - 在 hadoop mapreduce 作业中插入连接到数据库时出现异常

hadoop - 节点/hbase 不在 ZooKeeper 中