hadoop - 使用 Hadoop Pig 生成多个输出

标签 hadoop apache-pig

我有这个文件,其中包含 Hadoop 中的数据列表。我构建了一个简单的 Pig 脚本,它通过 id number 等分析文件...

我要寻找的最后一步是:我想为每个唯一的 id 号码 创建(存储)一个文件。所以这应该取决于一个组步骤......但是,我还不知道这是否可能(也许有一个自定义商店模块?)。

有什么想法吗?

谢谢

丹妮尔

最佳答案

同时牢记虚弱所说的话,MultiStorage , 在 PiggyBank 中,似乎就是您要找的东西。

关于hadoop - 使用 Hadoop Pig 生成多个输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5272552/

相关文章:

hadoop - 在使用 ./spark-ec2 部署的集群上更改 JDK

hadoop - 如何在新的 Hadoop API 中递归使用目录结构?

regex - 如何在 Pig 中创建不区分大小写的匹配项?

hadoop - pig :错误1045:无法推断出COUNT的匹配函数,因为它们是多个或都不适合。请使用显式强制转换

java - 使用HDFS Java API从HDFS读取文件

hadoop - 需要帮助编写 Map/Reduce 作业以找到平均值

hadoop - 在Windows XP上安装hadoop

hadoop - Pig 将如何处理倾斜连接?

hadoop - Pig passwd指的是什么?

hadoop - PIG如何计算别名中的行数