hadoop - 我正在编程Pig脚本。需要在非结构化文件中添加三列。

标签 hadoop apache-pig

我有19-22列的非结构化键值对文件。该文件有8000条记录。第一个4000条记录有19列，其他记录有22列。看到第二条4000条记录，我知道了从顶部4000处丢失的3列的位置和名称。Col1应该在第三位置， col2和col4到记录的最后位置。能否请您帮助我如何启动和解决该问题。因此，输出文件包含结构化的总计22个列，并且该文件应仅包含列中的值，而不包含键。

最佳答案

您可以编写一个自定义的 pig 装载器。您解析数据，然后可以定义自己的架构来管理缺少的列

关于hadoop - 我正在编程Pig脚本。需要在非结构化文件中添加三列。，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34406191/

上一篇：docker - 如何将 jira 作为 docker 容器在开发模式下运行？

下一篇：python - 使用 docker-py 在 Azure 上运行 Docker 容器

相关文章：

hadoop - 在Hadoop中按时间和日期过滤

hadoop - Hadoop-3.0.0 与旧版本的 Hive、Pig、Sqoop 和 Spark 的兼容性如何

hadoop - 使用 pig 脚本计算字段的不同值的计数

hadoop - CSVExcelStorage 不跳过带 pig 的 header

java - 如何在 Pig 中加载特定范围的输入文件

java - 嵌入式Pig无法访问hadoop

hadoop - pig 示例 apache [输入路径不存在]

java - 从 Java 应用程序在 hadoop 2.2 (Yarn) 上启动 mapreduce 作业

Hadoop Streaming MapReduce 缓慢查找文件

hadoop - 如何清除hadoop fifo队列？