java - 来自现有 RDD 的 Spark Streaming

标签 java hadoop apache-spark spark-streaming

任何人请帮助我如何从现有的 RDD 创建 DStream。我的代码是:

JavaSparkContext ctx = new JavaSparkContext(conf);
JavaRDD<String> rddd = ctx.parallelize(arraylist);

现在我需要使用这些 rddd 作为 JavaStreamingContext 的输入。

最佳答案

试一试queueStream API.
RDD队列作为一个Stream，每一个插入队列的RDD在DStream中都会被当作一批数据，像流一样处理。

public <T> InputDStream<T> queueStream(scala.collection.mutable.Queue<RDD<T>> queue,
                              boolean oneAtATime,
                              scala.reflect.ClassTag<T> evidence$15)

Create an input stream from a queue of RDDs. In each batch, it will process either one or all of the RDDs returned by the queue.
NOTE: Arbitrary RDDs can be added to queueStream, there is no way to recover data of those RDDs, so queueStream doesn't support checkpointing.

关于java - 来自现有 RDD 的 Spark Streaming，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35088171/

上一篇：windows - Windows 上的 Hadoop : Not a valid DFS filename

下一篇：hadoop - 关于如何在 Windows 中使用 hadoop 安装 flume 的任何想法？

java - 获取edittext的值并在其中添加小数点

java - 待定 Intent 不是打开 Activity

hadoop - Microsoft Word 二进制文件如何存储在 Hive 中？

apache-spark - 为什么单元素 RDD 中有这么多分区

java - 反射和元数据之间的区别

hadoop - Apache pig 查询加入两个模式

sql - 如何查询由配置单元中的聚合函数创建的列？

string - Scala 子字符串并将其存储在 DF 中

pandas - Spark DataFrame 如何处理大于内存的Pandas DataFrame