我正在寻找一个代码片段,以找到最佳实践,即使用scala在hadoop的子目录下读取多个嵌套的JSON文件。
如果我们可以将上面的JSON文件写入hadoop的其他目录的一个文件中,那就更好。
任何帮助表示赞赏。
谢谢
PG
最佳答案
您可以使用sqlContext.read.json("input file path")
读取json文件,它返回一个DataFrame。
获得DataFrame后,只需使用df.write.json(“output file path”)将DF作为json文件写入。
代码示例:如果使用Spark 2.0
val spark = SparkSession
.builder()
.appName("Spark SQL JSON example")
.getOrCreate()
val df = spark.read.json("input/file/path")
df.write.json("output/file/path")
关于json - 如何使用Scala读取子目录下的多个Json文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39761311/