apache-spark - 将常量值列添加到 Spark 数据框

标签 apache-spark pyspark databricks

我在 Databricks 中使用 Spark 2.1 版。我有一个名为 wamp 的数据框我想向其中添加一个名为 region 的列应该采用常数值 NE .但是,我收到一条错误消息 NameError: name 'lit' is not defined当我运行以下命令时:

wamp = wamp.withColumn('region', lit('NE'))

我究竟做错了什么?

最佳答案

您需要导入 lit

任何一个

from pyspark.sql.functions import *

将使lit可用的

或类似的东西
import pyspark.sql.functions as sf
wamp = wamp.withColumn('region', sf.lit('NE'))

关于apache-spark - 将常量值列添加到 Spark 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44033037/

相关文章:

Python - PySpark 的 Pickle Spacy

scala - 合并减少了整个阶段的并行度(spark)

python - 稀疏向量 pyspark

python - 将数据帧结果值保存到字符串变量?

apache-spark - 如何解释 Spark PCA 输出?

numpy - 在 pyspark 作业中传送和使用 virtualenv

json - 协同过滤 spark python

apache-spark - 等效于或替代Jupyter的Databricks display()函数

azure - 作业终止后,如何将生成的文件从 Azure Databricks 导出到 Azure DevOps?

apache-spark - 使用 Kerberized Dataproc 集群时,8088 上的资源管理器 UI 无法正常工作