hadoop - CSVExcelStorage 不跳过带 pig 的 header

标签 hadoop apache-pig

我试图在将 CSV 文件加载到 Pig 时跳过它的标题。

REGISTER /usr/hdp/2.3.4.0-3485/pig/lib/piggybank.jar;
define CSVExcelStorage org.apache.pig.piggybank.storage.CSVExcelStorage; 

transactions = load 'hdfs://vm1.local:8020/user/root/transcations/trans.csv' USING CSVExcelStorage(',','NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER')

但是当我转储 transactions 时,我也得到了 header 。 我使用 Apache Pig 0.15 谢谢。

最佳答案

解决上述问题的方法是 --> 定义 CSVExcelStorage org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER');. --> transactions = load 'hdfs://vm1.local:8020/user/root/transcations/trans.csv' 使用 CSVExcelStorage();

我发现定义 UDF 别名的传统方法在这种情况下不起作用。

关于hadoop - CSVExcelStorage 不跳过带 pig 的 header ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37896659/

相关文章:

hadoop - Apache pig : How to use LoadCaster to convert Writable objects to Pig types?

hadoop - 如何阅读 Pig "detailed locations"日志行?

hadoop - PIG:在一组特定的列中安排多个记录

hadoop - 如何一次性删除hadoop目录下的文件?

java - 如何使用 pageFilter 避免扫描对象中的某些行?

hadoop - 接受多个输入的 Pig UDF

csv - 在 pig 中存储多个变量

sql - UNION ALL 不会在 Hive 中生成任何数据

java - 从 windows eclipse 运行 Mapreduce(yarn) 时出错

ubuntu - 无法使用 CDH4 : Datanode denied communication with namenode 启动 hdfs 服务