apache - 我可以仅将源文件中的特定数据加载到HIVE表中吗?

标签 apache hadoop hive load

我有一个带有400个值的管道分隔文本文件。我仅需要从其中位置[1、2、4、5、7、8、9、15、17、18、20 ...]的40个值加载到我的Hive表中,如何实现?

最佳答案

按照这本书:创建一个EXTERNAL表以映射您的Text文件,具有400列;创建一个包含40列的托管表;然后使用SQL来INSERT INTO TABLE target SELECT col1, col2, col4, ..., col72 FROM wide_source
实际上,您不需要映射所有400列-停在要在SQL中使用的最后一列,而忽略其余的列。

关于apache - 我可以仅将源文件中的特定数据加载到HIVE表中吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32358199/

相关文章:

apache-spark - 随着表的增长,写入分区的 Hive 表需要更长的时间

unix - 如何在Cloudera中恢复覆盖的目录

mysql - 查询划分数据

java - Flume HDFS接收器自定义文件名

macos - 如何在 MacOS 中避免 "ssh localhost"密码?

hadoop - 有条件地加入 Hive

ruby-on-rails - Phusion Passenger 中是否有某种机制可以防止整个应用程序宕机?

apache - 内容安全策略无效字符

php - PHP+APACHE+MYSQL开发的最佳方法论

php - .htaccess 没有重定向?