hadoop - 如何处理 pig 中的重复代码(模块化)

我有一个 pig 代码可以做到这一点，

连接到 db1，执行，连接到 db2 并执行相同的操作

联合输出产生最终输出

基本上如何处理脚本中多个位置需要相同代码的情况

最佳答案

您可以为重复操作定义宏，并在您的 pig 脚本中使用这些宏，如下所示:

DEFINE macroPerformUnion() RETURNS union_data {
    union_data = -- do your stuff
}

将上面的内容保存在一个名为 macroPerformUnion.pig 的文件中

现在要在脚本中使用宏，您需要导入 pig 文件

IMPORT 'macroPerformUnion.pig';

现在你可以调用你的宏了

union_data_result = macroPerformUnion();

关于hadoop - 如何处理 pig 中的重复代码(模块化)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28572117/

相关文章：

hadoop - 不使用TRIM功能，是否可以使用SQOOP导入的表？