r - 在 SparkR 中删除 DataFrame 的列

标签 r apache-spark apache-spark-sql sparkr

我想知道是否有一种简洁的方法可以在 SparkR 中删除 DataFrame 的列,例如 pyspark 中的 df.drop("column_name") .

这是我能得到的最接近的:

df <- new("DataFrame",
          sdf=SparkR:::callJMethod(df@sdf, "drop", "column_name"),
          isCached=FALSE)

最佳答案

这可以通过将 NULL 分配给 Spark 数据帧列来实现:

df$column_name <- NULL

请参阅相关 Spark JIRA ticket 中的原始讨论.

关于r - 在 SparkR 中删除 DataFrame 的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32662099/

相关文章:

根据两列的组总和的比率对因子重新排序 - 按要重新排序的因子分组

scala - 如何在 Spark 作业中获取 gcloud dataproc 创建标志?

apache-spark - 使用Avro序列化RDD

java - 如何从另一个数据框中选择列,其中这些列是不同数据框中列的值的列表

apache-spark - 如何在Spark中的partitionby方法中传递多列

mysql - 将 SQL 语句转换为 PySpark

r - 禁用 mapply 自动将日期转换为数字

R如何有选择地对数据框进行排序?

python - PySpark - 连接到 s3 - 将文件读取到 rdd

regex - 子(): Handling of backreferences