hadoop - 在 pig 级别将空值作为别名处理

标签 hadoop hive apache-pig bigdata

大家好,

我有我的表结构,如下所示。

Create table hv (x int,y int,z int ,w int )

PIGLATIN用于加载表格
A  = LOAD 'XYZ.CSV.GZ' using pigstorage AS (x,y,w)

这次文件中缺少Z col,因此我希望在PIGLATIN中将z的值保留为null,并且我不想更改 hive 表结构。如何在pig中为该列生成null的值?

最佳答案

引用Nulls and constants,您可以执行以下操作:

--load your hive table
A = LOAD 'hive_db.table_name' USING org.apache.hive.hcatalog.pig.HCatLoader();

--this will generate a NULL column with datatype bytearray
B = FOREACH A GENERATE X,Y,NULL,W;

--then you can further process your data
STORE B INTO '/your/hdfs' USING PigStorage(',');

关于hadoop - 在 pig 级别将空值作为别名处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41846008/

相关文章:

sql - Hive Window在多个日期范围内的功能

hadoop - datastax cassandra 设置指南

hadoop - 云编排和虚拟化管理

apache-spark - Pyspark 中是否有等效于 SQL 的 MSCK REPAIR TABLE 的方法

hadoop - HIve配置中发生错误

mapreduce - 如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce?

hadoop - 安全 Hadoop - 在后台启动 Datanode

mysql - 将多行转变成多列的一行(就像 R 中的 reshape 类型转换)

hadoop - 拆分 Pig 元组

hadoop - HDFS 到 Cassandra