hadoop - 如何在 Hadoop 上的 Apache Pig 中手动构建元组

标签 hadoop apache-pig

我有一个文本文件,每一行都是一个字符串,我想从文本文件中的所有字符串构造一个元组。想知道如何在 Pig 中实现?

提前致谢, 林

最佳答案

@Lin Ma:如果目标是将每一行都作为 Tuple 中的一个字段,那么我们可以使用下面的代码片段。

输入:

line1 data ....
line2 data ....
line3 data ....
lineN data .....

pig 脚本:

text_data = LOAD 'text_data.txt'  USING  PigStorage('\n') AS (line_data:chararray);
text_data_gpr_all = GROUP text_data ALL;
required_data = FOREACH text_data_gpr_all GENERATE BagToTuple(text_data.line_data) ;
DUMP required_data;

输出:

((line1 data ....,line2 data ....,line3 data ....,lineN data .....))

引用: http://pig.apache.org/docs/r0.11.0/api/org/apache/pig/builtin/BagToTuple.html

关于hadoop - 如何在 Hadoop 上的 Apache Pig 中手动构建元组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32385753/

相关文章:

hadoop - 发出同时运行两个Oozie协调器应用程序的问题

hadoop - 更改 hadoop 源代码

apache-pig - pig : how to exit on failure?

hadoop - Apache Pig不必要地重新运行map减少工作

hadoop - Oozie示例在运行 pig 作业时卡住

hadoop - 在 Pig 中按组计算 1 和 0

csv - 使用 pig 过滤 CSV 列

安全集群中的 Hadoop 用户添加

hadoop - 超过Hadoop内存限制

hadoop - 删除 Pig 输出中的括号和逗号