Pig 中的 Python UDF

标签 python hadoop mapreduce apache-pig

我看过文档here ,但我承认我觉得它相当缺乏。我想知道是否有人可以给我收集有关将 Python UDF 合并到 Pig 中的示例。特别是

  • 在 Pig 0.10 之前,不存在 bool 类型,但是 FILTER 操作需要将结果解析为 bool 值。如果我没有最新版本?
  • 是否无法从 Python 访问 AlgebraicAccumulatorFilter 接口(interface)?
  • 我也不能访问分布式缓存吗?
  • Store/Load 函数呢?

最佳答案

Python UDF 非常有限。您不能使用 Algebraic 或 Accumulator 接口(interface),也不能用 Python 编写 LoadFunc。对于比 map 操作更复杂的任何事情,您可能需要求助于 Java UDF。

也就是说,可以在 http://ragrawal.wordpress.com/2013/02/24/on-writing-python-udf-for-pig-a-perspective/ 找到一个更复杂的带有动态 outputSchema 的 Python UDF。 .这可能对您没有帮助,但它会让您更好地了解 Python UDF 可以做什么。

关于Pig 中的 Python UDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10808838/

相关文章:

python - DASK dd.DataFrame 和 dd.core.Dataframe 之间的区别

python - 如何生成大型网站的图形站点地图

hadoop - 每个文件的两个副本从本地复制到HDFS

hadoop - 通过Mapper输出键的最左两位数字执行化径器

python - nlargest(2) 在行级别检索列名称和相等值

python - 为什么我们需要三种不同的方式来操作 pandas?

hadoop - 如何使用sqoop将json数据从hdfs插入到mysql?

memory - 为TaskTracker子进程配置内存的不同方式(Mapper和Reduce Tasks)

python - Hadoop上的python流mapreduce作业失败-缺少log4j?

hadoop - Hadoop未运行任务