在我的 Pig 脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件(~10k 条记录)。但我不确定如何将此文本文件分发到 pig 中并在运行时访问它们。请帮助..!!
最佳答案
这是使用 Pig 的 fragment-replicate join 的完美用例算法。您只需将查找表加载为 Pig 关系并将其与您的实际数据结合起来。
A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';
请注意,您要加载到内存中的表应该位于连接的右侧,如我上面所示。
关于python - Apache Pig - 如何维护分布式查找表供我的 python UDF 访问?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28382053/