apache-spark - 是否可以将经过训练的 Spark ML 模型或交叉验证器保存到 postgresql 数据库?

标签 apache-spark machine-learning pyspark apache-spark-ml machine-learning-model

是否可以将经过训练的 Spark ML 模型或交叉验证器保存到 postgresql 数据库?我可以找到将其保存到磁盘或 HDFS 的方法,但是我们可以将其保存在 RDBMS(例如 Postgresql)表中吗?

最佳答案

一般来说不是。 ML 模型使用特定的结构,Parquet 文件存储模型、元数据和可选数据。可以创建可以在关系数据库中存储相同数据的包装器,但目前 Spark 中没有这样的功能。

对于模型的某些子集,您可以:

  • 使用 Java 序列化来序列化模型。
  • 将保存的模型存储为大对象。

这仅限于非分布式模型。

关于apache-spark - 是否可以将经过训练的 Spark ML 模型或交叉验证器保存到 postgresql 数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45794101/

相关文章:

python - 如何实现 ReLU 代替 Sigmoid 函数

python-2.7 - Pyspark 按另一个数据帧的列过滤数据帧

apache-spark - 如何使用spark从word2vec模型获取数据帧

apache-spark - spark中的spark.shuffle.partition和spark.repartition有什么区别?

python - 按组监督学习随机森林

machine-learning - 用于学习字符串模式的机器学习技术

apache-spark - 如何在DataFrame中使用具体时间戳填充无值?

python - 使用 Spark 获取值超过某个阈值的所有列的名称

apache-spark - Spark 结构化流与 kafka 导致只有一个批处理(Pyspark)

java - transient 变量如何在 Worker 上可用