json - 如何使用Scala读取子目录下的多个Json文件

标签 json scala hadoop

我正在寻找一个代码片段,以找到最佳实践,即使用scala在hadoop的子目录下读取多个嵌套的JSON文件。

如果我们可以将上面的JSON文件写入hadoop的其他目录的一个文件中,那就更好。

任何帮助表示赞赏。

谢谢
PG

最佳答案

您可以使用sqlContext.read.json("input file path")读取json文件,它返回一个DataFrame。

获得DataFrame后,只需使用df.write.json(“output file path”)将DF作为json文件写入。

代码示例:如果使用Spark 2.0

val spark = SparkSession
      .builder()
      .appName("Spark SQL JSON example")
      .getOrCreate()

      val df = spark.read.json("input/file/path")

      df.write.json("output/file/path")

关于json - 如何使用Scala读取子目录下的多个Json文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39761311/

相关文章:

java - 安卓注册登录app报错

ios - ObjectMapper 在将对象转换为字典期间删除了没有值的字段

objective-c - 显示来自 json 的图像

javascript - jQuery 将隐藏元素值设置为 post() 数据

oracle - 使用 JDBC Source 和 Redis Stream 进行 Spark Streaming

java - 如何在 Apache Spark 中重置 MapReduce 函数上的迭代器

hadoop - 端口正在使用中 50070

java - 使Maven构建更快的方法?

scala - Elastic Search中的文档删除需要花费时间

c++ - Hadoop C++,运行wordcount示例时出错