hadoop - Kryos/Java 序列化程序的 Spark-shell --conf 选项

标签 hadoop apache-spark apache-spark-mllib

我需要使用 spark help page 中提到的 registerKryoClasses 方法启动带有自定义类的 spark shell .

现在如页面中所述,我无法在启动 spark shell 后重新创建 sc 变量,因此需要在启动 spark-shell 命令时提供选项 --conf。

--conf 的选项值应该是什么,以便它等同于以下更新:

conf.registerKryoClasses(Array(classOf[ArrayBuffer[String]], classOf[ListBuffer[String]]))

最佳答案

使用 Javaserializer 而不是 Kryos 序列化器的选项对我有用:

spark-shell --conf 'spark.serializer=org.apache.spark.serializer.JavaSerializer'

编辑:刚刚弄清楚如何使用这些选项。我们可以做到以下几点:

--conf 'spark.kryo.classesToRegister=scala.collection.mutable.ArrayBuffer,scala.collection.mutable.ListBuffer'

关于hadoop - Kryos/Java 序列化程序的 Spark-shell --conf 选项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44391837/

相关文章:

apache-spark - GCP Dataproc:使用存储连接器的网络带宽不足

dynamic - 在 Hadoop 中使用动态分布式缓存

Azure Synapse Spark LIVY_JOB_STATE_ERROR

python - pyspark 在远程机器上使用 mysql 数据库

apache-spark - PySpark和MLLib : Class Probabilities of Random Forest Predictions

java - 包 org.apache.hadoop.ipc.protobuf 为空

Python HDFS 蛇咬 : Methods work only with print

pandas - 将 spark DataFrame 转换为 pandas DF

pyspark - 使用 Pyspark 从 Spark DataFrame 创建标记点

python - 如何在 Spark 中以 DenseVector 为键对 RDD 进行 groupByKey?