apache-spark - 通配符在 pyspark 数据框中不起作用

标签 apache-spark pyspark

当我执行以下代码片段时,df1 没有显示任何结果。当我用“1,2,3,..”替换通配符“*”时,df1 显示值。我错过了什么?

from __future__ import print_function
import sys
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql import DataFrame
import pyspark.sql.functions
.
.
.
df1= df.filter(df.DATE == "*162014").filter(df.TMC == "111N04908")\
       .sort(df.EPOCH.asc())

最佳答案

只有 == 表示它等于 - 仅此而已。它不使用通配符、正则表达式或 SQL 模式。如果你想使用模式,请使用 LIKERLIKE .

expr("DATE RLIKE '%162014'")
expr("DATE LIKE '*162014'")

关于apache-spark - 通配符在 pyspark 数据框中不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37403202/

相关文章:

hadoop - 从 Spark 添加的数据的 ACID 事务不起作用

python - Pyspark 分割日期字符串

python - 如何安装/导入 pyspark-csv?

python-3.x - Pyspark DataFrame OrderBy的列列表

python - 从发送到 spark-submit 的外部 __main__ 文件修改 SparkContext

apache-spark - Spark - 动态改变内存分数

java - Spark提交:使用jar找不到表或 View

apache-spark - 如何在 PySpark 中将数据帧保存到 Elasticsearch?

java - 在 google dataproc 集群实例中的 spark-submit 上运行应用程序 jar 文件