hadoop - 如何安全更新配置单元外部表

标签 hadoop hive

我有一个外部配置单元表,我想每天刷新数据文件。推荐的方法是什么?

如果我只是覆盖文件,并且如果我们很不幸无法针对此表并行执行其他一些配置单元查询,那么这些查询将如何处理?他们会失败吗?否则我的HDFS操作会失败吗?还是会阻塞直到查询完成?

最佳答案

如果可用性是一个问题,而空间不是问题,则可以执行以下操作:

  • 作为外部表的同义词。确保访问表时所有查询都使用此同义词。
  • 加载新数据时,请使用其他名称将其加载到新表中。
  • 加载完成后,将同义词指向新加载的表。
  • 经过一段适当的时间(足够长以使任何正在运行的查询完成)之后,删除上一个表。
  • 关于hadoop - 如何安全更新配置单元外部表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47488858/

    相关文章:

    hadoop - 创建一个 HIVE 表并将其保存到一个制表符分隔的文件中?

    sql - 配置单元 SQL : Other ways to delete rows with a similar ID

    hadoop - 在Zeppelin中使用SparkSQL查询Hive表时,为什么会收到此IO异常?

    单节点 vagrant VM 上的 Hadoop - 启动 start-all.sh 时连接被拒绝

    hadoop - HiveContext 不适用于 Oozie

    跨多个节点的日志的 Hadoop 句柄

    mysql - 失败 : SemanticException Column line_id Found in more than One Tables/Subqueries

    java - 如何使用 Java 从 Hadoop 读取具有偏移量的文件

    java - 如何制作两个文件的学习列表

    hadoop - 如何在非阻塞模式下启动 spark(使用 thrift 服务器),hive 可以更新数据并将数据重新加载到 spark(表查找)