python - Python 包中用于 Spark 数据帧的 udf() 的函数

标签 python apache-spark pyspark

对于通过 pyspark 的 Spark 数据帧,我们可以使用 pyspark.sql.functions.udf 来创建一个用户定义函数 (UDF)

我想知道我是否可以在 udf() 中使用 Python 包中的任何函数,例如 numpy 中的 np.random.normal

最佳答案

假设您想将名为 new 的列添加到通过重复调用 numpy.random.normal 构造的 DataFrame df 中,您可以这样做:

import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType

udf = UserDefinedFunction(numpy.random.normal, DoubleType())

df_with_new_column = df.withColumn('new', udf())

关于python - Python 包中用于 Spark 数据帧的 udf() 的函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29479872/

相关文章:

apache-spark - Jupyter Notebook 上未显示结构化流输出

python - pyspark 上使用 Spark 的代码

apache-spark - 使用每个分区中的 _SUCCESS 文件将分区数据集写入 HDFS/S3

python - 调用 filter 返回 <filter object at ... >

Python Django json 序列化

apache-spark - 如何在 AWS Glue PySpark 中运行并行线程?

python - 如何在pyspark中使用pandas UDF并在StructType中返回结果

Python数据输出到Excel

python - 在 python 中的 re.match 中使用变量

apache-spark - spark.executor.memoryOverhead 和 spark.memory.offHeap.size 的区别