java - 从Spark中的多个.gz文件中读取特定文件

标签 java apache-spark apache-spark-sql apache-spark-2.3

我只对阅读 file1.csv 的内容感兴趣，它在所有 .gz 文件中具有相同的架构。

我是将路径 D:/sample_datasets/gzfiles 传递给 JavaSparkContext 中的 wholeTextFiles() 方法。但是，它返回 tar 可视化中所有文件的内容。 file1.csv、file2.csv、file3.csv。

有没有办法只能读取数据集或 RDD 中的 file1.csv 的内容。提前致谢!

最佳答案

在路径末尾使用*.gz。

希望这有帮助!

关于java - 从Spark中的多个.gz文件中读取特定文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57729890/

上一篇：docker - 移动所有 Docker 东西？

下一篇：C++ 变量等于非变量

相关文章：

hadoop - 在免费hadoop模式下运行官方示例时出现Spark异常

scala - 如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

apache-spark-sql - 将带有美元符号的字符串转换为数字

python - Pyspark 基于具有列表或集合的多个条件的其他列创建新列

apache-spark - 以 `cluster` 模式启动的 Spark 驱动程序以一种奇怪的方式失败

java - libGdx 多边形碰撞检测

java - 如何避免 "Possible unsafe assignment to a non-final static field in a constructor"(AssignmentToNonFinalStatic)

java - 如何在Azure的Spring云功能中设置响应状态

apache-spark - 为什么在完成作业和关闭 Spark 之间会发生磁盘繁忙尖峰？

java - 如何使用 JDBC 高效导出/导入数据库数据