对于通过 pyspark 的 Spark 数据帧,我们可以使用 pyspark.sql.functions.udf
来创建一个用户定义函数 (UDF)
。
我想知道我是否可以在 udf()
中使用 Python 包中的任何函数,例如 numpy 中的 np.random.normal
?
最佳答案
假设您想将名为 new
的列添加到通过重复调用 numpy.random.normal
构造的 DataFrame df
中,您可以这样做:
import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType
udf = UserDefinedFunction(numpy.random.normal, DoubleType())
df_with_new_column = df.withColumn('new', udf())
关于python - Python 包中用于 Spark 数据帧的 udf() 的函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29479872/