java - 来自现有 RDD 的 Spark Streaming

标签 java hadoop apache-spark spark-streaming

任何人请帮助我如何从现有的 RDD 创建 DStream。 我的代码是:

JavaSparkContext ctx = new JavaSparkContext(conf);
JavaRDD<String> rddd = ctx.parallelize(arraylist);

现在我需要使用这些 rddd 作为 JavaStreamingContext 的输入。

最佳答案

试一试queueStream API.
RDD队列作为一个Stream,每一个插入队列的RDD在DStream中都会被当作一批数据,像流一样处理。

public <T> InputDStream<T> queueStream(scala.collection.mutable.Queue<RDD<T>> queue,
                              boolean oneAtATime,
                              scala.reflect.ClassTag<T> evidence$15)

Create an input stream from a queue of RDDs. In each batch, it will process either one or all of the RDDs returned by the queue.
NOTE: Arbitrary RDDs can be added to queueStream, there is no way to recover data of those RDDs, so queueStream doesn't support checkpointing.

关于java - 来自现有 RDD 的 Spark Streaming,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35088171/

相关文章:

java - 带有 https tsa 的 JDK 1.7 jarsigner 不再有效

java - 获取edittext的值并在其中添加小数点

java - 待定 Intent 不是打开 Activity

hadoop - Microsoft Word 二进制文件如何存储在 Hive 中?

apache-spark - 为什么单元素 RDD 中有这么多分区

java - 反射和元数据之间的区别

hadoop - Apache pig 查询加入两个模式

sql - 如何查询由配置单元中的聚合函数创建的列?

string - Scala 子字符串并将其存储在 DF 中

pandas - Spark DataFrame 如何处理大于内存的Pandas DataFrame