hadoop - Apache Pig 可以从 STDIN 而不是文件加载数据吗?

标签 hadoop apache-pig

我想使用Apache Pig来转换/连接两个文件中的数据,但我想逐步实现它,这意味着,从真实数据测试它,但尺寸较小(例如10行),是是否可以使用从 STDIN 读取并输出到 STDOUT 的 Pig?

最佳答案

基本上 Hadoop 支持 various ways 中的流式处理,但 Pig 原本缺乏对通过流式加载数据的支持。不过,还是有一些解决方案的。

您可以查看HStreaming :

A = LOAD 'http://myurl.com:1234/index.html' USING HStream('\n') AS (f1, f2);

关于hadoop - Apache Pig 可以从 STDIN 而不是文件加载数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9355642/

相关文章:

apache-spark - 设置 fs.defaultFS 属性时无法创建 Dataproc 集群?

hadoop - PIG - 匹配 toDate 函数

java - PIG 聚合函数 - OutOfMemory : Java Heap Space

hadoop - 如何根据输入大小设置 reducer 数量

hadoop - 有什么方法可以防止在所有 map task 完成之前 reduce task 开始

hadoop - HBase 是否稳定且可用于生产?

java - org.apache.thrift.TApplicationException:必填字段 'client_protocol'未设置

java - Pig latin 中扁平运算符的模式

hadoop:错误 org.apache.pig.tools.grunt.Grunt - 错误 1000:解析期间出错。遭遇

apache-spark - 在集群模式下随机运行Spark作业时,应用程序主进程被 yarn 杀死