我有19-22列的非结构化键值对文件。该文件有8000条记录。第一个4000条记录有19列,其他记录有22列。看到第二条4000条记录,我知道了从顶部4000处丢失的3列的位置和名称。Col1应该在第三位置, col2和col4到记录的最后位置。能否请您帮助我如何启动和解决该问题。因此,输出文件包含结构化的总计22个列,并且该文件应仅包含列中的值,而不包含键。
最佳答案
您可以编写一个自定义的 pig 装载器。您解析数据,然后可以定义自己的架构来管理缺少的列
关于hadoop - 我正在编程Pig脚本。需要在非结构化文件中添加三列。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34406191/