hadoop - 索引谷歌数据的 Mapreduce

标签 hadoop mapreduce search-engine

MapReduce是Google产生即时搜索结果的原因还是它只是用来索引海量网页数据？我的意思是 MApreduce 在我输入的每个搜索查询背后起作用吗？我很困惑，因为据我了解，运行 Hadoop 会产生延迟，因此它不能作为用于搜索查询索引数据的工具。

最佳答案

Google 在 2010 年之前一直使用 MapReduce 来构建搜索索引。您的搜索查询将针对该索引触发，然后返回快速响应。 MapReduce 的问题是更新频率太低，无法跟上网络的更新。自 2010 年起 Google 使用 Caffeine ，基于BigTable 。另请参阅here和 here .

关于hadoop - 索引谷歌数据的 Mapreduce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34876051/

上一篇：php - 如何使nginx和php容器之间进行通信

下一篇：process - Dockerfile:RUN导致无操作

相关文章：

java - 来自 Java 的 HDFS - 指定用户

java - map reduce程序无法加载csv文件的hbase表

java - 映射器可以写入多个文件吗

hadoop - Hadoop如何在各个数据节点的硬盘上写入数据？

hadoop - hadoop中的输入拆分和 block

sql-server - 如何实现企业搜索

google-app-engine - 如何基于查询构建自定义 DatastoreInputReader？

java - Hadoop Mapreduce Wordcount 示例意外终止

java - 实现谷歌建议

search-engine - CommonCrawl : How to find a specific web page?