java - 从Spark中的多个.gz文件中读取特定文件

标签 java apache-spark apache-spark-sql apache-spark-2.3

我正在尝试读取文件夹内多个 .gz 文件中存在的具有特定名称的文件。
例如
D:/sample_datasets/gzfiles |-my_file_1.tar.gz |-my_file_1.tar |-file1.csv |-file2.csv |-file3.csv |-my_file_2.tar.gz |-my_file_2.tar |-file1.csv |-file2.csv |-file3.csv

我只对阅读 file1.csv 的内容感兴趣,它在所有 .gz 文件中具有相同的架构。

我是将路径 D:/sample_datasets/gzfiles 传递给 JavaSparkContext 中的 wholeTextFiles() 方法。但是,它返回 tar 可视化中所有文件的内容。 file1.csv、file2.csv、file3.csv。

有没有办法只能读取数据集或 RDD 中的 file1.csv 的内容。提前致谢!

最佳答案

在路径末尾使用*.gz

希望这有帮助!

关于java - 从Spark中的多个.gz文件中读取特定文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57729890/

相关文章:

hadoop - 在免费hadoop模式下运行官方示例时出现Spark异常

scala - 如何将 Spark DataFrame 以 csv 格式保存在磁盘上?

apache-spark-sql - 将带有美元符号的字符串转换为数字

python - Pyspark 基于具有列表或集合的多个条件的其他列创建新列

apache-spark - 以 `cluster` 模式启动的 Spark 驱动程序以一种奇怪的方式失败

java - libGdx 多边形碰撞检测

java - 如何避免 "Possible unsafe assignment to a non-final static field in a constructor"(AssignmentToNonFinalStatic)

java - 如何在Azure的Spring云功能中设置响应状态

apache-spark - 为什么在完成作业和关闭 Spark 之间会发生磁盘繁忙尖峰?

java - 如何使用 JDBC 高效导出/导入数据库数据