hadoop - SparkSql 中的存储过程/函数

标签 hadoop apache-spark apache-spark-sql

有什么方法可以在 sparksql 中实现存储过程或函数等 sql 功能?

我知道 hbase 中的 hpl sql 和协处理器。但是想知道 spark 中是否有类似的东西。

最佳答案

您可以考虑使用User Defined Function和内置功能

一个简单的例子

val dataset = Seq((0, "hello"), (1, "world")).toDF("id", "text")  
val upper: String => String = _.toUpperCase    
import org.apache.spark.sql.functions.udf
val upperUDF = udf(upper)

// Apply the UDF to change the source dataset
scala> dataset.withColumn("upper", upperUDF('text)).show

结果

| id| text|upper|

+---+-----+-----+

|  0|hello|HELLO|

|  1|world|WORLD|

关于hadoop - SparkSql 中的存储过程/函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42931954/

相关文章:

java - 使用默认时间戳将 Spark RDD 中的值放入相同的 HBase 列

hadoop - 从本地通过网络应用程序调用MapReduce

hadoop - Kerberized 集群中的 Spark History Server 身份验证

Scala:Spark SQL to_date(unix_timestamp) 返回 NULL

Azure Synapse Spark SQL池无法创建数据库

apache-spark-sql - Spark 使用纯 SQL 查询提取嵌套的 JSON 数组项

java - Spark sql 的 'no viable alternative at input' 是什么?

hadoop - 通过 Hive JDBC Hive over Tez - 错误

python - 如何在 pyspark 中按字母顺序对嵌套结构的列进行排序?

hadoop - 如何将 Mahout KMeans 聚类集成到应用程序中?