hadoop - 如何在hadoop上处理大量图像

标签 hadoop hdfs

我想在HDFS上处理大量小图像。 Hadoop提供了归档API和顺序文件格式来存储大量小文件，以便在名称节点上节省内存。但是，我需要在map-reduce后检索符合我要求的图像。我不确定，但是我认为从存档和顺序文件格式中检索图像可能很困难。但是如果不使用这些方法，我们可以选择返回文件的路径，并让服务器通过这些路径从HDFS下载这些图像，尽管这可能会给namenode带来更大的压力。我无法决定使用哪种方案。任何人都可以提出建议吗？我真的很好奇Google如何将其图像存储在其数据中心上并返回这些图像以响应用户的查询。

最佳答案

您应该看一下HBase，它一方面可以存储小文件和随机读/写，另一方面可以完全参与映射/归约工作

关于hadoop - 如何在hadoop上处理大量图像，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11160493/

上一篇：elasticsearch - Docker-compose '' NoneType'不可迭代'

下一篇：docker - 如何在独立的 Jenkins 中使用 docker 命令运行 jenkins 管道作业

相关文章：

java - 使用Mapreduce处理受密码保护的zip文件

hadoop - 无法连接到远程计算机上的dfs namenode Web UI

java - HDFS copyToLocalFile 抛出 java.io.IOException : Mkdirs failed to create file

hadoop 2.7.3 HDFS Namenode -format No Such FIle or Directory 错误

hdfs - Kafka Storm HDFS/S3 数据流

java - 如何在 Hadoop 的 Map Reduce 中执行 perl 程序？

hadoop - 从包中提取有序的元组值

java - 多节点 hadoop 集群中的 Apache Spark Sql 问题

hadoop - 安装后 Hadoop 2.6 中没有文件夹

apache-spark - 如何将具有相同/共享分区的HDFS文件 block 放置在同一数据节点上的不同文件/表上