java - Spark 将数据集转换为 RDD

标签 java scala apache-spark

我有一个数据集[String],需要转换成一个RDD[String]。怎么办?

注意:我最近从 spark 1.6 迁移到了 spark 2.0。我的一些客户期望使用 RDD,但现在 Spark 给了我数据集。

最佳答案

如 scala API documentation 中所述您可以在数据集上调用 .rdd :

val myRdd : RDD[String] = ds.rdd

关于java - Spark 将数据集转换为 RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38796520/

相关文章:

c# - 通过 IKVM 在 C# 中用于 OIM 的 Java interface.class

java - java中如何将String转换为ZonedDateTime

scala - 类的实例与其伴生对象之间的关系

java - scala akka 微内核中线程 "main"java.lang.InstantiationException 中的异常

python - PySpark - 检查字符串列是否包含字符串列表中的单词并提取它们

apache-spark - Spark 设置为从最早的偏移量读取 - 在尝试使用 Kafka 上不再可用的偏移量时引发错误

java - Guava MinMaxPriorityQueue 实例化

java - unique=true 验证消息 - java

java - System.getenv 找不到环境变量

scala - 如何在spark中使用由orElse组成的部分函数作为udf