twitter - 如何在 Pig 中使用 rcfilepigstorage

标签 twitter hadoop apache-pig elephantbird

我想将一个文本文件加载到 pig 中,然后将其存储为 rc 文件,为此我发现 twitter 在这个链接中提供了一个存储 udf

http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/RCFilePigStorage.java

谁能告诉我如何编译它并在我的 pig 代码中使用它?

最佳答案

包括所有 twitter 依赖项和 pig jars 并编译 RCFilePigStorage.java。如果您想更改代码中的某些特定行为,也可以进行更改并将其重命名为 MyRCFilePigStorage.java。

现在将编译后生成的类文件创建一个名为MyRCUdf.jar 的jar 文件。在你的 pigscript 中注册这个 jar。

Register MyRCUdf.jar;
* your pig logic*
Store 'data' using MyRCFilePigStorage();

编辑:考虑以下链接的 Twitter 依赖项。获取源代码,编译并包含在类路径中生成的类

https://github.com/kevinweil/elephant-bird/blob/master/core/src/main/java/com/twitter/elephantbird/mapreduce/input/MapReduceInputFormatWrapper.java

https://github.com/kevinweil/elephant-bird

关于twitter - 如何在 Pig 中使用 rcfilepigstorage,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21180124/

相关文章:

hadoop - hive :动态分区

java - HDFS 写入导致 "CreateSymbolicLink error (1314): A required privilege is not held by the client."

Twitter Oauth 2.0 代表其他用户发出请求

iphone - SA_OAuthTwitterEngine 无法在我的时间轴上发布消息

sql-server - Polybase 插入外部表失败 - 路径不存在 - SQL Server 2016 RC3

hadoop - 不用java怎么把数据放到Hbase

hadoop - apache thrift 传输 TTransportException

hadoop - 处理大数据中的复杂联接

javascript - IE 7 中的 Javascript Date 函数出现问题,返回 NaN

类似 twitter 示例的 Android 操作栏