apache-spark - 获取 Spark Dataframe 中特定单元格的值

标签 apache-spark dataframe pyspark apache-spark-sql

我有一个 Spark 数据框,它有 1 行和 3 列,即 start_date、end_date、end_month_id。
我想将第一个单元格中的值检索到一个变量中,并使用该变量来过滤另一个数据帧。
enter image description here

我想将“2019-01-01”检索到一个变量中。我怎么做?
这是我到目前为止所拥有的:

start_date = df1[0];
df2.filter(df2.date_reported >= start_date)

我是菜鸟所以请放轻松

最佳答案

如果 df1 是 Spark 数据帧,则使用 collect() 函数来获得相同的结果。
例如,
df1.collect()[行号][列号][0][0]

关于apache-spark - 获取 Spark Dataframe 中特定单元格的值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54953953/

相关文章:

python - 在数据框中添加新行,并有条件分割前一行

Python worker 连接失败

python - Spark Structured Streaming - 新批处理上的空字典

java - 在Spark Java API中联接行数据集

python - 使用列表中的 startswith 的 Pyspark 过滤器

apache-spark - 如何在 PySpark DataFrame 中强制进行特定分区?

python - 子集数据帧 : taking previous value from the original df but not in the subset

python - 检查 PySpark 列是否匹配正则表达式并根据结果创建新列

python - 计算python列中所有日期之间的时间差

python - Hive 和 Spark 窗口函数的数据洗牌