为Hadoop/Pig写一个Python UDF,在做local box UDF测试时需要用到一些Python库,比如我在本地pip安装的“request”。想知道如何在Hadoop集群上部署pip包,让我的Python UDF无论在哪个节点上运行,都自动消费?
最佳答案
关于 zip 文件格式的信息可以在 Zip (file format) 找到.实际上,它是一种压缩存档格式,有点像 tar(一种存档格式)加 gzip(一种文件压缩格式)。 Java jar (Java ARchive) 格式与 zip 兼容。
在 Linux 和 Unix 平台上,可以使用“zip -r dir dir”压缩目录 dir 以创建 dir.zip 文件。在 Windows 上 7-Zip对于创建和解压缩 zip 文件最有用,此外它还可用于解压缩和浏览具有其他压缩和存档格式(包括 tar 和 gzip)的文件。
给定一个文件 dir.tar.gz,它可以在 Windows 上使用 7-Zip GUI 以交互方式解压缩和压缩,而在 Linux 和 Unix 系统上,以下命令可以做同样的事情:
tar zxf dir.tar.gz # creates directory dir by extraction and decompression
zip -r dir dir # creates dir.zip by bundling without removing dir
关于python - 在 Hadoop 上部署 Python pip 包?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32257039/