apache-spark - 在 spark 2.2.0 中查询 Hive 表

标签 apache-spark hadoop hive apache-spark-sql

我有一个包含 1900 列的 avro 文件格式的配置单元表(比如表 1)。当我在配置单元中查询表时 - 我能够获取数据但是当我在 spark sql 中查询同一个表时,我得到 Metastore 客户端丢失连接。正在尝试重新连接

我还查询了另一个具有 130 列的 avro 文件格式的 hive 表(比如 table2),它正在 hive 和 spark 中获取数据。

我观察到的是我可以在 table2 的 hdfs 位置看到数据,但在 table1 hdfs 位置看不到任何数据(但当我仅在 hive 中查询时它正在提取数据)

最佳答案

  1. Split 告诉您 MR 作业中映射器的数量。
  2. 它不会向您显示采集数据的确切位置。

关于apache-spark - 在 spark 2.2.0 中查询 Hive 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56815861/

相关文章:

scala - Spark通用案例类到结构类型

sql - sqoop导入其中包含 “,”的数据集的字符串列

sql - 按连续重复标志对带时间戳的记录进行分组

apache - Hive在处理小数据表插入时是否有问题?

python - 如何解压字符串格式的列表列表?

hadoop - 集群中 MapReduce 和 Spark 作业的资源分配

python - 如何从 asn1 数据文件中提取数据并将其加载到数据框中?

scala - 如何在 spark-scala 中将 Iterable[String] 保存到 hdfs

java - Hadoop-LZO strange native-lzo library not available 错误

hadoop - java.io.IOException : error=2, Hadoop 流中没有这样的文件或目录错误