apache-spark - 如何将spark输出存储到rdbms数据库?

标签 apache-spark

我最近开始使用 Spark,我有一个用例,我需要处理文件并将输出存储在 postgre 数据库中。我能够读取文件并处理它,但无法将处理后的数据存储到数据库中。有人可以建议我如何将输出保存到数据库吗?

谢谢,,,,

最佳答案

如果可以从所有工作节点访问数据库,则可以使用 foreachPartition 保存输出。伪代码:

rdd.foreachPartition { records =>
  // Connect to the database 
  records.foreach { r => 
    // Loop over records and save
  }
  // Close the connection to the db
}

关于apache-spark - 如何将spark输出存储到rdbms数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38150718/

相关文章:

apache-spark - 如何优雅地停止运行 Spark Streaming 应用程序?

apache-spark - Spark独立数字执行器/核心控制

apache-spark - 什么是以及如何在Web UI的“执行程序”选项卡中控制内存存储?

python - Pandas 数据框到 Spark 数据框,处理 NaN 转换为实际空值?

scala - 如何修复 Spark 严重误解 csv 的问题?

scala - 何时坚持以及何时取消坚持 Spark 中的 RDD

scala - build.sbt : how to add spark dependencies

python - Rdd lambda 函数围绕行与列的混淆

apache-spark - Spark 是否受益于持久表中的 `sortBy`?

apache-spark - 使用 spark 将实体对象持久化到 HDFS