我想在HDFS上处理大量小图像。 Hadoop提供了归档API和顺序文件格式来存储大量小文件,以便在名称节点上节省内存。但是,我需要在map-reduce后检索符合我要求的图像。我不确定,但是我认为从存档和顺序文件格式中检索图像可能很困难。但是如果不使用这些方法,我们可以选择返回文件的路径,并让服务器通过这些路径从HDFS下载这些图像,尽管这可能会给namenode带来更大的压力。我无法决定使用哪种方案。任何人都可以提出建议吗?我真的很好奇Google如何将其图像存储在其数据中心上并返回这些图像以响应用户的查询。
最佳答案
您应该看一下HBase,它一方面可以存储小文件和随机读/写,另一方面可以完全参与映射/归约工作
关于hadoop - 如何在hadoop上处理大量图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11160493/