apache-spark - 如何将spark输出存储到rdbms数据库？

我最近开始使用 Spark，我有一个用例，我需要处理文件并将输出存储在 postgre 数据库中。我能够读取文件并处理它，但无法将处理后的数据存储到数据库中。有人可以建议我如何将输出保存到数据库吗？

谢谢，，，，

最佳答案

如果可以从所有工作节点访问数据库，则可以使用 foreachPartition 保存输出。伪代码:

rdd.foreachPartition { records =>
  // Connect to the database 
  records.foreach { r => 
    // Loop over records and save
  }
  // Close the connection to the db
}

关于apache-spark - 如何将spark输出存储到rdbms数据库？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38150718/

上一篇：php - 根据发送的参数进行动态重定向php

下一篇：arrays - ArrayContains 未定义的冷融合

apache-spark - Spark独立数字执行器/核心控制

apache-spark - 什么是以及如何在Web UI的“执行程序”选项卡中控制内存存储？

python - Pandas 数据框到 Spark 数据框，处理 NaN 转换为实际空值？

scala - 如何修复 Spark 严重误解 csv 的问题？

scala - 何时坚持以及何时取消坚持 Spark 中的 RDD

scala - build.sbt : how to add spark dependencies

python - Rdd lambda 函数围绕行与列的混淆

apache-spark - Spark 是否受益于持久表中的 `sortBy`？

apache-spark - 使用 spark 将实体对象持久化到 HDFS