hadoop - 如何在 Hadoop 上的 Apache Pig 中手动构建元组

我有一个文本文件，每一行都是一个字符串，我想从文本文件中的所有字符串构造一个元组。想知道如何在 Pig 中实现？

提前致谢，林

最佳答案

@Lin Ma:如果目标是将每一行都作为 Tuple 中的一个字段，那么我们可以使用下面的代码片段。

输入:

line1 data ....
line2 data ....
line3 data ....
lineN data .....

pig 脚本:

text_data = LOAD 'text_data.txt'  USING  PigStorage('\n') AS (line_data:chararray);
text_data_gpr_all = GROUP text_data ALL;
required_data = FOREACH text_data_gpr_all GENERATE BagToTuple(text_data.line_data) ;
DUMP required_data;

输出:

((line1 data ....,line2 data ....,line3 data ....,lineN data .....))

引用: http://pig.apache.org/docs/r0.11.0/api/org/apache/pig/builtin/BagToTuple.html

关于hadoop - 如何在 Hadoop 上的 Apache Pig 中手动构建元组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32385753/

上一篇：python - 无法运行 python 脚本

下一篇：hadoop - 从远程服务器访问 hdfs 时，Kerberos 默认为错误的主体

相关文章：

hadoop - 发出同时运行两个Oozie协调器应用程序的问题

hadoop - 更改 hadoop 源代码

apache-pig - pig : how to exit on failure?

hadoop - Apache Pig不必要地重新运行map减少工作

hadoop - Oozie示例在运行 pig 作业时卡住

hadoop - 在 Pig 中按组计算 1 和 0

csv - 使用 pig 过滤 CSV 列

安全集群中的 Hadoop 用户添加

hadoop - 超过Hadoop内存限制

hadoop - 删除 Pig 输出中的括号和逗号