scala - 如何从 Spark 数据帧中的 AWS S3 读取多个文件?

标签 scala apache-spark apache-spark-sql

我在 S3 存储桶中有一堆具有这种模式的文件

myfile_2018_(0).tab
myfile_2018_(1).tab
myfile_2018_(2).tab
..
myfile_2018_(150).tab

我想通过读取所有这些文件来创建一个 Spark Dataframe。如何创建此正则表达式模式并读取文件?

文件有标题。我正在使用 Scala 来完成这项任务。

最佳答案

只需指定一个 glob 模式,如下所示(假设它们在同一个文件夹中):

val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")

关于scala - 如何从 Spark 数据帧中的 AWS S3 读取多个文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52783239/

相关文章:

scala - Spark unionAll 多个数据帧

scala - Play 框架 2.5 记录 `?` 问号而不是行号

python - pySpark/Python 遍历数据框列,检查条件并填充另一列

scala - 无法在 scala 中将字符串转换为 long

scala - 如何从特定列中具有最大值的数据框中获取行?

scala - 分别处理spark中的多个目录

apache-spark - 累积前几行中的数组(PySpark数据框)

scala - Spark DataFrame/DataSet 分页或一次迭代 N 行的 block

database - mapdb如何持久化交叉重启

scala - 在 Scala 中编写状态 monad