我创建了一个非常大的 Spark 数据框 在我的集群上使用 PySpark,它太大而无法放入内存。我也有一个 带有 Keras 的自动编码器模型 ,它接收一个 Pandas 数据帧(内存对象)。
将这两个世界结合在一起的最佳方式是什么?
我发现了一些在 Spark 上提供深度学习的库,但似乎仅适用于 hyper parameter tuning或者不会支持像 Apache SystemML 这样的自动编码器
我肯定不是第一个在 Spark Dataframes 上训练神经网络的人。我在这里有一个概念上的差距,请帮助!
最佳答案
正如您提到的,Spark 中的 Pandas DF 是内存中的对象,不会分发训练。对于分布式训练,你必须依赖 Spark DF 和一些特定的第三方包来处理分布式训练:
你可以在这里找到信息:
https://docs.databricks.com/applications/machine-learning/train-model/distributed-training/index.html
关于apache-spark - 如何在 Spark 数据帧上训练神经网络自动编码器 (Keras),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53116808/