python - 在 Hadoop 上部署 Python pip 包?

标签 python hadoop apache-pig udf

为Hadoop/Pig写一个Python UDF,在做local box UDF测试时需要用到一些Python库,比如我在本地pip安装的“request”。想知道如何在Hadoop集群上部署pip包,让我的Python UDF无论在哪个节点上运行,都自动消费?

最佳答案

关于 zip 文件格式的信息可以在 Zip (file format) 找到.实际上,它是一种压缩存档格式,有点像 tar(一种存档格式)加 gzip(一种文件压缩格式)。 Java jar (Java ARchive) 格式与 zip 兼容。

在 Linux 和 Unix 平台上,可以使用“zip -r dir dir”压缩目录 dir 以创建 dir.zip 文件。在 Windows 上 7-Zip对于创建和解压缩 zip 文件最有用,此外它还可用于解压缩和浏览具有其他压缩和存档格式(包括 tar 和 gzip)的文件。

给定一个文件 dir.tar.gz,它可以在 Windows 上使用 7-Zip GUI 以交互方式解压缩和压缩,而在 Linux 和 Unix 系统上,以下命令可以做同样的事情:

tar zxf dir.tar.gz # creates directory dir by extraction and decompression
zip -r dir dir # creates dir.zip by bundling without removing dir

关于python - 在 Hadoop 上部署 Python pip 包?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32257039/

相关文章:

linux - 如何创建具有不同操作系统的 Hadoop 集群?

csv - 使用Apache Pig将数据加载到Hbase表时,如何排除csv或文本文件中某行中没有数据(仅空白)的列?

python - 张量不是该图的元素

python - 如何导入/导出语法着色方案

python - 如何根据 2 个可能的值检查变量?

python - 如何让 python 程序什么都不做?

hadoop - Hbase 与 Hive 的比较

Hadoop WordCount 为所有单词提供 0 个计数

hadoop - 比较Hive与Pig在结构化数据上的可用性

java - 鉴于我正在将 DataBag 溢出到磁盘,为什么这个 Pig UDF 会导致 "Error: Java heap space"?