我正在处理从远程数据库中提取的数千个打包在类似 zip 文件容器中的二进制文件。我需要使用 readelf 等工具分析这些二进制文件的内容,但我想避免产生不必要的 IO 将二进制文件写入磁盘。
有没有一种方法可以调用 subprocess.Popen 以便我可以将内存中的文件传递给命令将理解为文件的命令行实用程序?我已尝试将文件描述符分配给标准输入,但实用程序并未按预期从标准输入读取文件内容。
with zipfile.ZipFile(file,'r') as z:
with z.open(binary_path) as bin:
subprocess.Popen(['readelf','-d'],stdin=bin)
我也试过直接将必要的参数设置为对文件描述符的引用,但这也被证明是徒劳的:
with zipfile.ZipFile(file,'r') as z:
with z.open(binary_path) as bin:
subprocess.Popen(['readelf','-d',bin])
我正在尝试的是可行的,还是我应该诉诸写入磁盘并从那里进行分析?
非常感谢!
Zeroth,为什么你需要popen
readelf
,而不是使用libelf
或类似的东西?快速搜索 "elf" at PyPI显示出很多可能性。你看过它们了吗?
首先,在许多平台上,所有 I/O 最终都将通过缓存,因此它不会真正减慢您的速度,即使它最终确实会最终将所有内容刷新到磁盘只是为了删除它(这它可能永远不会)。谨慎使用 mmap
通常有助于避免刷新到磁盘,但您甚至可能不需要它。
真的,我会先测试一下,看看过多的 I/O 是否真的会拖慢您的速度。如果没有,请停止担心。
如果你想确定没有磁盘 I/O(我假设你已经禁用了所有交换,否则这个想法一开始就毫无意义),最简单的解决方案是创建一个临时文件'实际上备份到磁盘。
最简单的方法是创建一个 ramdisk,然后将临时文件放在那里。
或者,大多数平台都可以创建一个临时文件,该文件永远不会备份到磁盘,或者仅在绝对必要时才备份到磁盘。不幸的是,我认为任何 stdlib Python 函数都不能做到这一点,在这种情况下,您将不得不为其编写特定于平台的代码。
如果您确实想将任意缓冲区作为标准输入传递给工具,这很容易。但是你必须知道如何告诉工具读取标准输入——通常这意味着像传递 -c
作为选项或 -
作为假文件名,或者有时只是不传递传递任何文件名。阅读联机帮助页以查看哪个。例如:
with zipfile.ZipFile(file,'r') as z:
with z.open(binary_path) as bin:
subprocess.Popen(['gzip','-dc'], stdin=bin)
不幸的是,有些工具不会以这种方式工作,通常是因为它们需要可搜索的文件而不仅仅是流。我相信 readelf
就是其中之一。所以这个选项不可用。
并且将任意 fd 传递给工具需要工具有一种方法来获取任意 fd 而不是文件名,而大多数工具都没有。