json - 如何使用Scala读取子目录下的多个Json文件

我正在寻找一个代码片段，以找到最佳实践，即使用scala在hadoop的子目录下读取多个嵌套的JSON文件。

如果我们可以将上面的JSON文件写入hadoop的其他目录的一个文件中，那就更好。

任何帮助表示赞赏。

谢谢
PG

最佳答案

您可以使用sqlContext.read.json("input file path")读取json文件，它返回一个DataFrame。

获得DataFrame后，只需使用df.write.json(“output file path”)将DF作为json文件写入。

代码示例:如果使用Spark 2.0

val spark = SparkSession
      .builder()
      .appName("Spark SQL JSON example")
      .getOrCreate()

      val df = spark.read.json("input/file/path")

      df.write.json("output/file/path")

关于json - 如何使用Scala读取子目录下的多个Json文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39761311/

上一篇：hadoop - 我可以使用Text作为值写入MapReduce中的上下文吗

下一篇：java - 代码给出 “java.lang.StringIndexOutOfBoundsException: String index out of range: 14”

相关文章：

java - 安卓注册登录app报错

ios - ObjectMapper 在将对象转换为字典期间删除了没有值的字段

objective-c - 显示来自 json 的图像

javascript - jQuery 将隐藏元素值设置为 post() 数据

oracle - 使用 JDBC Source 和 Redis Stream 进行 Spark Streaming

java - 如何在 Apache Spark 中重置 MapReduce 函数上的迭代器

hadoop - 端口正在使用中 50070

java - 使Maven构建更快的方法？

scala - Elastic Search中的文档删除需要花费时间

c++ - Hadoop C++，运行wordcount示例时出错