apache - Solr具有多核分布式架构？

我打算将Solr用作搜索服务器，并将开发自己的Spider或扩展Nutch。

我正在尝试设计一种最佳的经济拓扑，该拓扑目前可以满足我的目的，并且保持开放状态，以便将来扩展。

我打算使用Amazon AWS托管所有计算机。我的问题是了解以下想法和要求的可行性，将不胜感激!

一个Solr节点(专用于仅提供查询-作为Web前端的查询服务器)

按需Solr节点(1个或多个)(作为索引服务器-Nutch或其他蜘蛛将连接到此节点并充斥新内容以进行爬网和索引)

我不确定是否可以像其他许多搜索服务器(例如Microsoft FAST或SharePoint搜索)一样使用通用数据库部署分布式拓扑。

我愿意使用Hadoop或任何其他支持这种拓扑的分布式文件系统。

因此，主要是将其可视化如下

                  ---------------------------------------------------

                Hadoop or anyother distributed file system / db system

                  ---------------------------------------------------

                                           ||
                                           ||
                                           ||
                                           VV
                  ----------------                ------------------------

                  Solr query node                  Dedicated Solr index nodes 
                (1 powerful server)         +              (on demand)
                                                 with Nutch or other web spider

                  ----------------                ------------------------

                         ||                                   ||
                         VV                                   VV
                    Web Front End                          Internet

我是这项技术的新手，在其他论坛和自由网站上的许多社区成员都提出了多核实现，但是我的理解是多核是为了支持区分数据节点(与集群或分布式体系结构无关)!我对么？

请告知可行性!

提前谢谢了。

尼来

最佳答案

solr中的“核心”用于描述“全文索引环境”。
您可以运行1个Java EE容器(tomcat，ant等)，以便为不同的数据库和不同的全文索引提供不同的服务。
示例1:用于产品搜索的核心，用于邮件搜索的1核心，依此类推。

每个运行有solr的Java EE容器都至少具有一个内核。
从拓扑上看，您似乎需要一个前端Solr-Envorinment，可能需要1个核心，而一个后端Solr-Envoronment也可能需要1个核心。

因此，您有2个服务器，2个Java EE容器和2个核心。
您可以将这2个核心视为“多”(多个)核心，但实际上这是2个单核心安装，(可能)使用了类似复制的方式。
http://wiki.apache.org/solr/SolrReplication

关于apache - Solr具有多核分布式架构？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8817668/

apache - Solr具有多核分布式架构？

上一篇：docker - Docker Toolbox端口映射不起作用

下一篇：hadoop - 将HBase数据导出到RDBMS