hadoop - SparkSql 中的存储过程/函数

有什么方法可以在 sparksql 中实现存储过程或函数等 sql 功能？

我知道 hbase 中的 hpl sql 和协处理器。但是想知道 spark 中是否有类似的东西。

最佳答案

您可以考虑使用User Defined Function和内置功能

一个简单的例子

val dataset = Seq((0, "hello"), (1, "world")).toDF("id", "text")  
val upper: String => String = _.toUpperCase    
import org.apache.spark.sql.functions.udf
val upperUDF = udf(upper)

// Apply the UDF to change the source dataset
scala> dataset.withColumn("upper", upperUDF('text)).show

结果

| id| text|upper|

+---+-----+-----+

|  0|hello|HELLO|

|  1|world|WORLD|

关于hadoop - SparkSql 中的存储过程/函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42931954/

上一篇：python hdfs 远程上传文件到hdfs

下一篇：hadoop - 需要 hive 总和查询吗？

hadoop - 从本地通过网络应用程序调用MapReduce

hadoop - Kerberized 集群中的 Spark History Server 身份验证

Scala:Spark SQL to_date(unix_timestamp) 返回 NULL

Azure Synapse Spark SQL池无法创建数据库

apache-spark-sql - Spark 使用纯 SQL 查询提取嵌套的 JSON 数组项

java - Spark sql 的 'no viable alternative at input' 是什么？

hadoop - 通过 Hive JDBC Hive over Tez - 错误

python - 如何在 pyspark 中按字母顺序对嵌套结构的列进行排序？

hadoop - 如何将 Mahout KMeans 聚类集成到应用程序中？