solr - 有关 Nutch、Hadoop、Solr、MapReduce 和 Mahout 的信息

标签 solr hadoop mapreduce nutch mahout

PS:如有错误,请指正

我正在使用 Nutch 和 Solr 构建一个搜索引擎。
我知道通过使用 Solr,我可以提高搜索的效率 - 让 Nutch 单独爬取整个 web。
我也知道 Hadoop 是用来处理 PB 级数据的,通过形成集群和 MapReduce。

现在,我想知道的是
1) 因为,我将只在一台机器上运行这些开源软件,即我在本地主机上的笔记本电脑...... Hadoop 在我的情况下有什么好处,因为它形成了集群?如何在一台机器上形成集群?

2) 在我的案例中,MapReduce 的重要性是什么?

3) MAHOUT、CASSANDRA 和 HBASE 将如何影响我的引擎???

非常感谢这方面的任何帮助。如果我问了一个菜鸟问题,请向我道歉!!
谢谢
问候

最佳答案

1) 因为,我将只在一台机器上运行这些开源软件,即我的笔记本电脑在本地主机上... Hadoop 在我的情况下有什么好处,因为它形成了集群?

Hadoop was created to process large scale data. Hadoop is a distributed application. It is not going to provide you benefits on a single machine.

如何在一台机器上形成集群??

Install Hadoop in pseudo cluster mode

在我的案例中,MapReduce 的重要性是什么?

Again, if you want to process pages fetched by a crawler on the scale of 1000s of gigabyte. Map-Reduce is useful in processing such large data

MAHOUT、CASSANDRA 和 HBASE 将如何影响我的引擎???

They are different tools for different needs.

Mahout is machine learning algorithms adapted for running as map-reduce tasks on Hadoop or local files. Do you want to learn languages like Google Translate, you can use it.

HBase is a no-sql database that provides more real time data processing over ad hoc analysis for which map-reduce is more useful.

我建议您回到您的问题陈述,根据需要使用尽可能少的工具进行设计,当您点击注释时,您就会明白其中一些工具何时有用。

关于solr - 有关 Nutch、Hadoop、Solr、MapReduce 和 Mahout 的信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11319941/

相关文章:

xml - Spark master 不调用 Custom InputFormat

hadoop - Pig 0.11.1 - 对时间范围内的组进行计数

hadoop - Map-reduce hadoop错误

hadoop - 提高 Java MapReduce 性能的思路

java - Solr:带空格和不带空格的匹配结果

hadoop - Solr以文档或RTF格式返回响应

java - org.apache.solr.common.SolrException : Document is missing mandatory uniqueKey field: id

tomcat - 通过 3.5 索引问题将数据从 Solr 1.4 迁移到 4.10

hadoop - hive 查询中的 hive 参数

hadoop - Amazon EMR和Hadoop MR之间的区别