python - Apache Pig - 如何维护分布式查找表供我的 python UDF 访问?

标签 python hadoop mapreduce apache-pig

在我的 Pig 脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件(~10k 条记录)。但我不确定如何将此文本文件分发到 pig 中并在运行时访问它们。请帮助..!!

最佳答案

这是使用 Pig 的 fragment-replicate join 的完美用例算法。您只需将查找表加载为 Pig 关系并将其与您的实际数据结合起来。

A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';

请注意,您要加载到内存中的表应该位于连接的右侧,如我上面所示。

关于python - Apache Pig - 如何维护分布式查找表供我的 python UDF 访问?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28382053/

相关文章:

python - 如何在 Django 应用程序中嵌入 Bokeh 服务器

hadoop - 如何从 DFS 而不是从 Mapred 中删除 hadoop 节点?

java - 默认情况下禁用Azkaban作业的参数

hadoop - 包含文件,排除文件-权限澄清hadoop

java - 输入大小为 ~ 2Mb 的 Hadoop mapreduce

python - mrjob:示例如何自动知道如何在文本文件中查找行?

python - 如何在 python 中更改现有第 3 方库中的函数

python - 计算每个数据帧行中的出现次数,然后创建最频繁出现的列

python - 计算与元组的元组中的模式匹配的元素

Hadoop - 如何从实现可写接口(interface)切换到使用 Avro 对象?