java - Spark JavaRDD泛型参数必须是可序列化的?

标签 java apache-spark

如果我使用自定义对象(例如:class foo)创建JavaRDD JavaRDD,class foo 必须实现序列化接口(interface),以便我可以在集群上运行它吗?

最佳答案

如果您正在寻求确认,您的查询的简单答案是

看看这个 article

All objects must be Serializable to be used as part of RDD operations in Spark

但是如果您遵循上面的文章,您可以击败 Serializaiton。

看看这个相关的SE question和 Spark 调优 article

关于java - Spark JavaRDD泛型参数必须是可序列化的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34489428/

相关文章:

java - 解析 JSON 数组

java - 跨不同微服务的数据验证

java - 选择 JSON Spark-Json 数据集中不存在的字段

python - 统一码编码错误 : 'ascii' codec can't encode character error

python - 如何安装 pyspark 以在独立脚本中使用?

scala - 修改 Spark RDD foreach 中的集合

java - 设计模式: Callback as a method parameter

java - 使用 mvn tomcat7 :run-war? 运行 Web 应用程序可能会导致 "Unable to install breakpoint"问题

java - 将 SPDY 与 Netty 结合使用

python - 如何使用 pyspark 读取 Parquet 文件、更改数据类型并写入 Hadoop 中的另一个 Parquet 文件