我不是 HDFS Nerd ,但来自传统的 RDMS 背景,我正在接触 Hadoop 和 Spark 等新技术。现在,当涉及到对 Spark 数据进行 SQL 查询时,我正在研究我的选择。
我意识到 Spark 天生就支持 SQL 查询。然后我遇到了这个链接
我正在努力弄清这一点。如果我理解正确的话。数据仍然以 HDFS 格式存储,但 Postgres 连接器用作查询引擎?如果是这样,在存在现有查询框架的情况下,这个 postgress 连接器增加了什么新值(value)?
或者我误解了它的实际作用?
最佳答案
我觉得你误会了。
他们提到了外部数据包装器的概念。
“...它们允许 PostgreSQL 查询包含结构化或非结构化数据,这些数据来自多个来源,例如 Postgres 和 NoSQL 数据库,以及 HDFS,就好像它们在单个数据库中一样。...
"
在我看来,这就像 Oracle 大数据机方法。在 Postgres 中,您可以从逻辑上看数据处理的世界,就好像它都是 Postgres,但在水下,HDFS 数据是使用 Postgres 查询引擎调用的 Spark 查询引擎访问的,但您不必担心这是可能的前提.我们处于虚拟化领域。您可以即时组合大数据和 Postgres 数据。
没有 Spark 数据这样的东西,因为它不是数据库本身,除了一些与 Hive 不兼容的 Spark 格式化数据。
值(value)总是会被声明为您不需要学习大数据等。这是否属实还有待观察。
关于postgresql - 用于 spark/hadoop 的 Postgres 适配器增加了什么值(value)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52321609/