hadoop - 我正在编程Pig脚本。需要在非结构化文件中添加三列。

标签 hadoop apache-pig

我有19-22列的非结构化键值对文件。该文件有8000条记录。第一个4000条记录有19列,其他记录有22列。看到第二条4000条记录,我知道了从顶部4000处丢失的3列的位置和名称。Col1应该在第三位置, col2和col4到记录的最后位置。能否请您帮助我如何启动和解决该问题。因此,输出文件包含结构化的总计22个列,并且该文件应仅包含列中的值,而不包含键。

最佳答案

您可以编写一个自定义的 pig 装载器。您解析数据,然后可以定义自己的架构来管理缺少的列

关于hadoop - 我正在编程Pig脚本。需要在非结构化文件中添加三列。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34406191/

相关文章:

hadoop - 在Hadoop中按时间和日期过滤

hadoop - Hadoop-3.0.0 与旧版本的 Hive、Pig、Sqoop 和 Spark 的兼容性如何

hadoop - 使用 pig 脚本计算字段的不同值的计数

hadoop - CSVExcelStorage 不跳过带 pig 的 header

java - 如何在 Pig 中加载特定范围的输入文件

java - 嵌入式Pig无法访问hadoop

hadoop - pig 示例 apache [输入路径不存在]

java - 从 Java 应用程序在 hadoop 2.2 (Yarn) 上启动 mapreduce 作业

Hadoop Streaming MapReduce 缓慢查找文件

hadoop - 如何清除hadoop fifo队列?