python - Python 包中用于 Spark 数据帧的 udf() 的函数

对于通过 pyspark 的 Spark 数据帧，我们可以使用 pyspark.sql.functions.udf 来创建一个用户定义函数 (UDF)。

我想知道我是否可以在 udf() 中使用 Python 包中的任何函数，例如 numpy 中的 np.random.normal？

最佳答案

假设您想将名为 new 的列添加到通过重复调用 numpy.random.normal 构造的 DataFrame df 中，您可以这样做:

import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType

udf = UserDefinedFunction(numpy.random.normal, DoubleType())

df_with_new_column = df.withColumn('new', udf())

关于python - Python 包中用于 Spark 数据帧的 udf() 的函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29479872/

上一篇：python - 如何读取大型 csv 文件的特定行

下一篇：c# - 什么是 C# 的 system.datetime.Ticks() 的 python 等价物？

python - pyspark 上使用 Spark 的代码

apache-spark - 使用每个分区中的 _SUCCESS 文件将分区数据集写入 HDFS/S3

python - 调用 filter 返回 <filter object at ... >

Python Django json 序列化

apache-spark - 如何在 AWS Glue PySpark 中运行并行线程？

python - 如何在pyspark中使用pandas UDF并在StructType中返回结果

Python数据输出到Excel

python - 在 python 中的 re.match 中使用变量

apache-spark - spark.executor.memoryOverhead 和 spark.memory.offHeap.size 的区别