apache-spark - 删除rdd中的空行

标签 apache-spark rdd

我是个新手。我有一个看起来像这样的 RDD

12434|arizona|2016-10-11|000
56783|california|2016-10-12|111

23456|Texas|2016-10-11|234

我正在尝试删除第 2 行和第 3 行之间的空行。我试过 val rdd2=rdd1.filter(x=>x!='\n') 但没有用。任何解决此问题的建议都会有所帮助

最佳答案

尝试:

rdd1.filter(x => !x.isEmpty)

关于apache-spark - 删除rdd中的空行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40330276/

相关文章:

scala - Spark : DB connection per Spark RDD partition and do mapPartition

java - 从java中的SparkSession读取对象文件

apache-spark - 使用并行化创建键/值对 RDD?

apache-spark - Spark - do transformations 还涉及驱动程序操作

apache-spark - Pyspark (SparkContext) : java gateway process exited before sending the driver its port number

scala - 无法使用scala在spark中使用groupByKey对2个值执行聚合

scala - 将 DStream 与动态数据集连接

apache-spark - Spark : DataFrame Aggregation (Scala)

apache-spark - 在 Spark UDF 中操作数据框

eclipse - sc.TextFile ("") 在 Eclipse 中工作但不在 JAR 中