postgresql - 用于 spark/hadoop 的 Postgres 适配器增加了什么值(value)？

我不是 HDFS Nerd ，但来自传统的 RDMS 背景，我正在接触 Hadoop 和 Spark 等新技术。现在，当涉及到对 Spark 数据进行 SQL 查询时，我正在研究我的选择。

我意识到 Spark 天生就支持 SQL 查询。然后我遇到了这个链接

https://www.enterprisedb.com/news/enterprisedb-announces-new-apache-spark-connecter-speed-postgres-big-data-processing

我正在努力弄清这一点。如果我理解正确的话。数据仍然以 HDFS 格式存储，但 Postgres 连接器用作查询引擎？如果是这样，在存在现有查询框架的情况下，这个 postgress 连接器增加了什么新值(value)？

或者我误解了它的实际作用？

最佳答案

我觉得你误会了。

他们提到了外部数据包装器的概念。

“...它们允许 PostgreSQL 查询包含结构化或非结构化数据，这些数据来自多个来源，例如 Postgres 和 NoSQL 数据库，以及 HDFS，就好像它们在单个数据库中一样。...
"

在我看来，这就像 Oracle 大数据机方法。在 Postgres 中，您可以从逻辑上看数据处理的世界，就好像它都是 Postgres，但在水下，HDFS 数据是使用 Postgres 查询引擎调用的 Spark 查询引擎访问的，但您不必担心这是可能的前提.我们处于虚拟化领域。您可以即时组合大数据和 Postgres 数据。

没有 Spark 数据这样的东西，因为它不是数据库本身，除了一些与 Hive 不兼容的 Spark 格式化数据。

值(value)总是会被声明为您不需要学习大数据等。这是否属实还有待观察。

关于postgresql - 用于 spark/hadoop 的 Postgres 适配器增加了什么值(value)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52321609/

postgresql - 用于 spark/hadoop 的 Postgres 适配器增加了什么值(value)？

上一篇：scala - 使用spark scala将行转换为列

下一篇：hadoop - Sqoop:--as-parquetfile 不工作