如果我使用自定义对象(例如:class foo)创建JavaRDD JavaRDD,class foo 必须实现序列化接口(interface),以便我可以在集群上运行它吗?
最佳答案
如果您正在寻求确认,您的查询的简单答案是是。
看看这个 article
All objects must be Serializable to be used as part of RDD operations in Spark
但是如果您遵循上面的文章,您可以击败 Serializaiton。
看看这个相关的SE question和 Spark 调优 article
关于java - Spark JavaRDD泛型参数必须是可序列化的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34489428/