scala - 使用来自 s3 或本地文件系统的 spark 从子目录递归读取文件

我正在尝试从包含许多子目录的目录中读取文件。数据在 S3 中，我正在尝试这样做:

val rdd =sc.newAPIHadoopFile(data_loc,
    classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
    classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
    classOf[org.apache.hadoop.io.NullWritable])

这似乎行不通。

感谢帮助

最佳答案

是的，它可以工作，虽然需要一段时间才能获得单独的 block /拆分，基本上是每个子目录中的特定目录: s3n://bucket/root_dir/*/data/*/*/*

关于scala - 使用来自 s3 或本地文件系统的 spark 从子目录递归读取文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27914145/

上一篇：hadoop - hadoop的classpath在哪里设置

下一篇：hadoop2.2.0 无法访问web http ://<ip>:8088

相关文章：

apache-spark - Spark 失败- future 超时

apache-spark - PySpark RDD中，如何使用foreachPartition()打印出每个分区的第一条记录？

algorithm - 如何使用第一个 map 的值检索嵌套 map 的值？

scala - 在 Scala/Spark 中合并两个表

hadoop - hadoop错误:无法找到或加载主类MultiOutWordCount

java - 如何在Samza worker上获得应用程序ID？

scala - Spark 1.5 MlLib LDA - 获取新文档的主题分布

java - Spring:为什么使用@Service类而不是Singleton对象？

Amazon EMR 集群上的 RStudio

apache-spark - 得到执行失败 : HTTP 403 when submit spark on k8s