hadoop - Spark 流是否适用于 "cp"和 "mv"

我正在使用 Spark 流

我的程序不断从 hadoop 文件夹中读取流。问题是如果我复制到我的 hadoop 文件夹 (hadoop fs -copyFromLocal) spark 作业开始但如果我移动 (hadoop fs -mv/hadoopsourcePath/*/destinationPath/) 它不起作用。

它是 Spark 流的限制吗？

我还有一个与 spark streaming 相关的问题: Can spark streaming pick specific files

最佳答案

知道了..它适用于 spark 1.5 但它只选择那些时间戳等于当前时间戳的文件。

例如

临时文件夹:文件 f.txt(时间戳 t1:文件创建时间)

Spark 输入文件夹:/input

当你执行 mv (hadoop fs -mv/temp/f.txt/input) 时:Spark 不会选择

但是移动后如果你改变被移动文件的时间戳，spark 会选择。

必须检查 spark 的源代码。

关于hadoop - Spark 流是否适用于 "cp"和 "mv"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36350336/