csv - 如果将 CSV 导入到 DataFrame 时未正确设置 Spark.executor.memory,则字符会损坏

标签 csv apache-spark spark-csv

更新:请保留这个问题。我发现这可能是Spark 1.5本身的问题,因为我没有使用Spark的官方版本。我会不断更新这个问题。谢谢!

我最近在 Spark 中使用 Spark-CSV 将 CSV 导入到 DataFrame 时注意到一个奇怪的错误。

这是我的示例代码:

  object sparktry
  {
    def main(args: Array[String])
    {
      AutoLogger.setLevel("INFO")

      val sc = SingletonSparkContext.getInstance()
      val sql_context = SingletonSQLContext.getInstance(sc)

      val options = new collection.mutable.HashMap[String, String]()
      options += "header" -> "true"
      options += "charset" -> "UTF-8"

      val customSchema = StructType(Array(
        StructField("Year", StringType),
        StructField("Brand", StringType),
        StructField("Category", StringType),
        StructField("Model", StringType),
        StructField("Sales", DoubleType)))

      val dataFrame = sql_context.read.format("com.databricks.spark.csv")
      .options(options)
      .schema(customSchema)
      .load("hdfs://myHDFSserver:9000/BigData/CarSales.csv")

      dataFrame.head(10).foreach(x => AutoLogger.info(x.toString))
    }
  }

CarSales 是一个非常小的 csv。我注意到,当 spark.master 不是 local 时,将 spark.executor.memory 设置为高于 16GB 将导致 DataFrame 损坏。该程序的输出如下所示:(我从日志中复制了文本,在本例中 spark.executor.memory 设置为 32GB)

16/03/07 12:39:50.190 INFO DAGScheduler: Job 1 finished: head at sparktry.scala:35, took 8.009183 s
16/03/07 12:39:50.225 INFO AutoLogger$: [       ,  ,      ,ries       ,142490.0]
16/03/07 12:39:50.225 INFO AutoLogger$: [       ,  ,      ,ries       ,112464.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,      ,ries       ,90960.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,      ,ries       ,100910.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,      ,ries       ,94371.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,      ,ries       ,54142.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,       ,ries       ,14773.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,       ,ries       ,12276.0]
16/03/07 12:39:50.227 INFO AutoLogger$: [       ,  ,       ,ries       ,9254.0]
16/03/07 12:39:50.227 INFO AutoLogger$: [       ,  ,       ,ries       ,12253.0]

文件的前 10 行是:

1/1/2007,BMW,Compact,BMW 3-Series,142490.00
1/1/2008,BMW,Compact,BMW 3-Series,112464.00
1/1/2009,BMW,Compact,BMW 3-Series,90960.00
1/1/2010,BMW,Compact,BMW 3-Series,100910.00
1/1/2011,BMW,Compact,BMW 3-Series,94371.00
1/1/2007,BMW,Compact,BMW 5-Series,54142.00
1/1/2007,BMW,Fullsize,BMW 7-Series,14773.00
1/1/2008,BMW,Fullsize,BMW 7-Series,12276.00
1/1/2009,BMW,Fullsize,BMW 7-Series,9254.00
1/1/2010,BMW,Fullsize,BMW 7-Series,12253.00

我注意到,在我的机器上仅将 spark.executor.memory 更改为 16GB,前 10 行是正确的,但将其设置为超过 16GB 将导致损坏。

此外:在我的一台具有 256GB 内存的服务器上,将其设置为 16GB 也会产生此错误。相反,将其设置为 48GB 将使其正常工作。另外,我尝试打印dataFrame.rdd,它表明RDD的内容是正确的,而dataframe本身则不正确。

有人知道这个问题吗?

谢谢!

最佳答案

事实证明,这是 Spark 1.5.1 和 1.5.2 中使用 Kyro 进行序列化时的一个错误。

https://github.com/databricks/spark-csv/issues/285#issuecomment-193633716

此问题已在 1.6.0 中修复。与spark-csv无关。

关于csv - 如果将 CSV 导入到 DataFrame 时未正确设置 Spark.executor.memory,则字符会损坏,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35836596/

相关文章:

scala - 如何保存带引号的所有字段的 CSV?

python - 合并两个没有 Pandas 的csv

python - Pandas read_csv 期望列数错误,csv 文件参差不齐

ruby - 如何从 Ruby 中的给定行 n 开始读取文件(CSV)

scala - Spark 2.4 CSV 加载问题,选项 "nullvalue"

Scala:Spark SQL to_date(unix_timestamp) 返回 NULL

python - 根据值移动列表元素位置

apache-spark - 如果 Spark 中的 cache() 无法将数据放入内存中会发生什么?

mysql - 如何将数据从csv加载到Spark中的mysql数据库?

hadoop - 从 Oozie (CDH) 运行 Spark2