hadoop - Spark 流是否适用于 "cp"和 "mv"

标签 hadoop apache-spark spark-streaming

我正在使用 Spark 流

我的程序不断从 hadoop 文件夹中读取流。问题是如果我复制到我的 hadoop 文件夹 (hadoop fs -copyFromLocal) spark 作业开始但如果我移动 (hadoop fs -mv/hadoopsourcePath/*/destinationPath/) 它不起作用。

它是 Spark 流的限制吗?

我还有一个与 spark streaming 相关的问题: Can spark streaming pick specific files

最佳答案

知道了..它适用于 spark 1.5 但它只选择那些时间戳等于当前时间戳的文件。

例如

临时文件夹:文件 f.txt(时间戳 t1:文件创建时间)

Spark 输入文件夹:/input

当你执行 mv (hadoop fs -mv/temp/f.txt/input) 时:Spark 不会选择

但是移动后如果你改变被移动文件的时间戳,spark 会选择。

https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream.scala

必须检查 spark 的源代码。

关于hadoop - Spark 流是否适用于 "cp"和 "mv",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36350336/

相关文章:

hadoop - 在 hive 和 hadoop streaming-api 输出之间共享数据

java - 使用Spark-Java读取存储在HDFS中的Avro表和架构

java - 使用 Marathon 运行 Spark 作业

apache-spark - Spark.table 与 sql() AccessControlException

apache-spark - 如何使用 --packages 为 spark-submit 指定多个依赖项?

java - Maven忽略依赖包的签名

hadoop - 关于HDFS复制,Oozie Libpath的正确设置是什么?

python - 如何用Python实现FPGrowth算法?

java - JavaInputDStream中的 "Class<R> recordClass"是什么?

apache-spark - Spark Streaming 中队列流的功能和执行?