python - Apache Pig - 如何维护分布式查找表供我的 python UDF 访问？

在我的 Pig 脚本中，有一个中间步骤，我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件(~10k 条记录)。但我不确定如何将此文本文件分发到 pig 中并在运行时访问它们。请帮助..!!

最佳答案

这是使用 Pig 的 fragment-replicate join 的完美用例算法。您只需将查找表加载为 Pig 关系并将其与您的实际数据结合起来。

A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';

请注意，您要加载到内存中的表应该位于连接的右侧，如我上面所示。

关于python - Apache Pig - 如何维护分布式查找表供我的 python UDF 访问？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28382053/

相关文章：

python - 如何在 Django 应用程序中嵌入 Bokeh 服务器