我正在尝试读取文件夹内多个 .gz 文件中存在的具有特定名称的文件。
例如
D:/sample_datasets/gzfiles
|-my_file_1.tar.gz
|-my_file_1.tar
|-file1.csv
|-file2.csv
|-file3.csv
|-my_file_2.tar.gz
|-my_file_2.tar
|-file1.csv
|-file2.csv
|-file3.csv
我只对阅读 file1.csv
的内容感兴趣,它在所有 .gz
文件中具有相同的架构。
我是将路径 D:/sample_datasets/gzfiles
传递给 JavaSparkContext
中的 wholeTextFiles()
方法。但是,它返回 tar 可视化中所有文件的内容。 file1.csv、file2.csv、file3.csv。
有没有办法只能读取数据集或 RDD 中的 file1.csv
的内容。提前致谢!
最佳答案
在路径末尾使用*.gz
。
希望这有帮助!
关于java - 从Spark中的多个.gz文件中读取特定文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57729890/