hadoop - 索引谷歌数据的 Mapreduce

标签 hadoop mapreduce search-engine

MapReduce是Google产生即时搜索结果的原因还是它只是用来索引海量网页数据?我的意思是 MApreduce 在我输入的每个搜索查询背后起作用吗? 我很困惑,因为据我了解,运行 Hadoop 会产生延迟,因此它不能作为用于搜索查询索引数据的工具。

最佳答案

Google 在 2010 年之前一直使用 MapReduce 来构建搜索索引。您的搜索查询将针对该索引触发,然后返回快速响应。 MapReduce 的问题是更新频率太低,无法跟上网络的更新。 自 2010 年起 Google 使用 Caffeine ,基于BigTable 。另请参阅herehere .

关于hadoop - 索引谷歌数据的 Mapreduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34876051/

相关文章:

java - 来自 Java 的 HDFS - 指定用户

java - map reduce程序无法加载csv文件的hbase表

java - 映射器可以写入多个文件吗

hadoop - Hadoop如何在各个数据节点的硬盘上写入数据?

hadoop - hadoop中的输入拆分和 block

sql-server - 如何实现企业搜索

google-app-engine - 如何基于查询构建自定义 DatastoreInputReader?

java - Hadoop Mapreduce Wordcount 示例意外终止

java - 实现谷歌建议

search-engine - CommonCrawl : How to find a specific web page?