apache-spark - LazyStruct : Extra bytes detected at the end of the row! 忽略类似问题

标签 apache-spark apache-spark-sql spark-streaming spark-dataframe

我正在 Hive ( HDFS ) 中的 SQL spark 读取表中开发代码。

问题是，当我在 spark 的 shell 中加载我的代码时，递归地显示以下消息:

“警告 LazyStruct:在行尾检测到额外字节!忽略类似问题。”

我运行的代码是:

val query_fare_details = sql("""
  SELECT *
  FROM fare_details
  WHERE fardet_cd_carrier = 'LA'
   AND fardet_cd_origin_city = 'SCL'
   AND fardet_cd_dest_city = 'MIA'
   AND fardet_cd_fare_basis = 'NNE0F0O1'
  """)
 query_fare_details.registerTempTable("query_fare_details")

val matchFAR1 = sql("""
  SELECT *
  FROM query_fare_details f
  JOIN fare_rules r ON f.fardet_cd_carrier = r.farrul_cd_carrier 
    AND f.fardet_num_rule_tariff = r.farrul_num_rule_tariff
    AND f.fardet_cd_fare_rule_bigint = r.farrul_cd_fare_rule_bigint
    AND f.fardet_cd_fare_basis = r.farrul_cd_fare_basis
  LIMIT 10""")

matchFAR1.show(5)

知道出了什么问题吗？

最佳答案

您可以放心地忽略此警告。这不是错误

引用 [ https://issues.apache.org/jira/browse/SPARK-3057][1]

关于apache-spark - LazyStruct : Extra bytes detected at the end of the row! 忽略类似问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37795674/

上一篇：r - 使用 fileInput Shiny R 打开特定目录

下一篇：maven - SBT 与 Maven 的新 Scala/Spark 项目？

python - Pyspark 以周格式显示日期值以及周开始日期和结束日期

scala - Spark Dataframe 中 SQL 中的 Seq.contains

带有 textFileStream 的 Python Spark Streaming 示例不起作用。为什么？

apache-spark - 使用 pyspark 将函数应用于 groupBy 数据

performance - Spark : Explicit caching can interfere with Catalyst optimizer's ability to optimize some queries?

java - 在 Spark Streaming 中使用 count() 作为整数

spark-streaming - Spark结构化的流和过滤器

scala - Spark - 遍历数据框中的所有行，将每行的多列与另一行进行比较

apache-spark - Spark Structured Streaming - 如何通过最新和聚合计数进行重复数据删除