我有几个巨大的 TIFF 图像(60,000x60,000 ~600MB)。我想使用 Hadoop 为每个图像创建一个金字塔(深度缩放格式)并将它们存储在 HDFS 上。 理想情况下,我想实现每个节点只处理图像的一部分。
实现它的最佳方法是什么? 在 HDFS 上存储小文件会不会有很大的开销?
最佳答案
你确定你需要hadoop吗?你的图像不是那么大。我用了 6 年的台式机可以在 4 分钟内对更大的图像进行深度缩放:
$ tiffinfo huge.tif
TIFF Directory at offset 0x12d095e4 (315659748)
Image Width: 91460 Image Length: 51866
Tile Width: 512 Tile Length: 512
Resolution: 10, 10 pixels/cm
Bits/Sample: 8
Compression Scheme: JPEG
...
$ time vips dzsave huge.tif x
real 3m40.841s
user 4m57.587s
sys 0m50.375s
关于image - hadoop 上的并行图像处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11395072/