我最近开始使用 Spark,我有一个用例,我需要处理文件并将输出存储在 postgre 数据库中。我能够读取文件并处理它,但无法将处理后的数据存储到数据库中。有人可以建议我如何将输出保存到数据库吗?
谢谢,,,,
最佳答案
如果可以从所有工作节点访问数据库,则可以使用 foreachPartition
保存输出。伪代码:
rdd.foreachPartition { records =>
// Connect to the database
records.foreach { r =>
// Loop over records and save
}
// Close the connection to the db
}
关于apache-spark - 如何将spark输出存储到rdbms数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38150718/