postgresql - 用于 spark/hadoop 的 Postgres 适配器增加了什么值(value)?

标签 postgresql apache-spark hadoop hdfs

我不是 HDFS Nerd ,但来自传统的 RDMS 背景,我正在接触 Hadoop 和 Spark 等新技术。现在,当涉及到对 Spark 数据进行 SQL 查询时,我正在研究我的选择。

我意识到 Spark 天生就支持 SQL 查询。然后我遇到了这个链接

https://www.enterprisedb.com/news/enterprisedb-announces-new-apache-spark-connecter-speed-postgres-big-data-processing

我正在努力弄清这一点。如果我理解正确的话。数据仍然以 HDFS 格式存储,但 Postgres 连接器用作查询引擎?如果是这样,在存在现有查询框架的情况下,这个 postgress 连接器增加了什么新值(value)?

或者我误解了它的实际作用?

最佳答案

我觉得你误会了。

他们提到了外部数据包装器的概念。

“...它们允许 PostgreSQL 查询包含结构化或非结构化数据,这些数据来自多个来源,例如 Postgres 和 NoSQL 数据库,以及 HDFS,就好像它们在单个数据库中一样。...
"

在我看来,这就像 Oracle 大数据机方法。在 Postgres 中,您可以从逻辑上看数据处理的世界,就好像它都是 Postgres,但在水下,HDFS 数据是使用 Postgres 查询引擎调用的 Spark 查询引擎访问的,但您不必担心这是可能的前提.我们处于虚拟化领域。您可以即时组合大数据和 Postgres 数据。

没有 Spark 数据这样的东西,因为它不是数据库本身,除了一些与 Hive 不兼容的 Spark 格式化数据。

值(value)总是会被​​声明为您不需要学习大数据等。这是否属实还有待观察。

关于postgresql - 用于 spark/hadoop 的 Postgres 适配器增加了什么值(value)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52321609/

相关文章:

sql - 用 GROUP BY 一列选择所有列

sql - Postgres : Select where all rows with the same foreign key are null

Java SparkSession Hive SQL 没有应用 regexp_replace

java - 对由combineByKey 函数生成的rdd 进行调用后,对collect() 的调用不会返回

sql - 如何选择多列,但只显示唯一/非重复的结果(基于一个特定列)?

postgresql - 如何将 AWS RDS 安全组中的 Zapier IP 地址列入白名单

java - Hadoop 2.6.0 的 Eclipse 插件

hadoop - HBase 与 MapReduce

python - Spark 随机森林交叉验证错误

java - 如何使Hadoop v2使用相同的映射器来处理多个 block ?