hadoop - 在 pig 级别将空值作为别名处理

大家好，

我有我的表结构，如下所示。

Create table hv (x int,y int,z int ,w int )

PIGLATIN用于加载表格

A  = LOAD 'XYZ.CSV.GZ' using pigstorage AS (x,y,w)

这次文件中缺少Z col，因此我希望在PIGLATIN中将z的值保留为null，并且我不想更改 hive 表结构。如何在pig中为该列生成null的值？

最佳答案

引用Nulls and constants，您可以执行以下操作:

--load your hive table
A = LOAD 'hive_db.table_name' USING org.apache.hive.hcatalog.pig.HCatLoader();

--this will generate a NULL column with datatype bytearray
B = FOREACH A GENERATE X,Y,NULL,W;

--then you can further process your data
STORE B INTO '/your/hdfs' USING PigStorage(',');

关于hadoop - 在 pig 级别将空值作为别名处理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41846008/

上一篇：node.js - 仅在 Docker 中构建时不支持的引擎 Node/NPM

下一篇：docker - kafka-connect-jdbc源连接器OOM

相关文章：

sql - Hive Window在多个日期范围内的功能

hadoop - datastax cassandra 设置指南

hadoop - 云编排和虚拟化管理

apache-spark - Pyspark 中是否有等效于 SQL 的 MSCK REPAIR TABLE 的方法

hadoop - HIve配置中发生错误

mapreduce - 如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

hadoop - 安全 Hadoop - 在后台启动 Datanode

mysql - 将多行转变成多列的一行(就像 R 中的 reshape 类型转换)

hadoop - 拆分 Pig 元组

hadoop - HDFS 到 Cassandra