apache-spark-sql - Spark SQL from_json 文档

我在哪里可以找到有关 Spark SQL 中 from_json 函数的架构参数的更多详细信息？一位同事给了我一个有效的模式示例，但说实话，我只是不明白，它看起来不像我迄今为止找到的任何示例。找到的文档 here似乎缺乏。

最佳答案

在您分享的链接中 from_json函数使用这个例子:

SELECT from_json('{"a":1, "b":0.8}', 'a INT, b DOUBLE');

Spark SQL supports the vast majority of Hive features such as the defining TYPES

我面临的示例问题要求我解析以下 JSON 对象:

{'data': [
    {
       "id":02938, 
       "price": 2938.0, 
       "quantity": 1
    }, 
    {
       "id":123, 
       "price": 123.5, 
       "quantity": 2
    }
]}

相应的 Spark SQL 查询如下所示:

SELECT 
    from_json('{"data":[{"id":123, "quantity":2, "price":39.5}]}'), 
    'data array<struct<id:INT, quantity:INT, price:DOUBLE>>').data) AS product_details;

you can couple this with the explode function to extract each element into it's own column.

我推荐这个 post了解有关为查询构建类型的更多信息。

有关更多示例，请参阅此 SO 帖子
https://stackoverflow.com/a/55432107/1500443

关于apache-spark-sql - Spark SQL from_json 文档，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50373104/

上一篇：c# - 我们可以按消息属性过滤来自 Amazon SQS 队列的消息吗？

下一篇：angular - 对于自定义表单组件，是否可以使用 DefaultValueAccessor 而不是 ControlValueAccessor？

相关文章：

python - Spark Dataframe 在转换后选择列

java - 删除 Spark 数组列中的重复项

mysql - Spark 结构化流 : primary key in JDBC sink

apache-spark - Spark 中广播对象的最大大小是多少？

apache-spark - Spark SQL 广播哈希连接

hadoop - 特殊字符作为Spark中的文件分隔符

python - from_json Pyspark SQL函数: default value for not found keys?

scala - 使用具有常量值的 var 在 Spark DataFrame 中创建新列

r - sparklyr 我可以将格式和路径选项传递给 spark_write_table 吗？还是将 saveAsTable 与 spark_write_orc 一起使用？

apache-spark-sql - 来自 sbt scala 的 google dataproc 上的 Spark-SQL