我想使用Apache Pig来转换/连接两个文件中的数据,但我想逐步实现它,这意味着,从真实数据测试它,但尺寸较小(例如10行),是是否可以使用从 STDIN 读取并输出到 STDOUT 的 Pig?
最佳答案
基本上 Hadoop 支持 various ways 中的流式处理,但 Pig 原本缺乏对通过流式加载数据的支持。不过,还是有一些解决方案的。
您可以查看HStreaming :
A = LOAD 'http://myurl.com:1234/index.html' USING HStream('\n') AS (f1, f2);
关于hadoop - Apache Pig 可以从 STDIN 而不是文件加载数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9355642/