我打算将Solr用作搜索服务器,并将开发自己的Spider或扩展Nutch。
我正在尝试设计一种最佳的经济拓扑,该拓扑目前可以满足我的目的,并且保持开放状态,以便将来扩展。
我打算使用Amazon AWS托管所有计算机。我的问题是了解以下想法和要求的可行性,将不胜感激!
我不确定是否可以像其他许多搜索服务器(例如Microsoft FAST或SharePoint搜索)一样使用通用数据库部署分布式拓扑。
我愿意使用Hadoop或任何其他支持这种拓扑的分布式文件系统。
因此,主要是将其可视化如下
---------------------------------------------------
Hadoop or anyother distributed file system / db system
---------------------------------------------------
||
||
||
VV
---------------- ------------------------
Solr query node Dedicated Solr index nodes
(1 powerful server) + (on demand)
with Nutch or other web spider
---------------- ------------------------
|| ||
VV VV
Web Front End Internet
我是这项技术的新手,在其他论坛和自由网站上的许多社区成员都提出了多核实现,但是我的理解是多核是为了支持区分数据节点(与集群或分布式体系结构无关)!我对么?
请告知可行性!
提前谢谢了。
尼来
最佳答案
solr中的“核心”用于描述“全文索引环境”。
您可以运行1个Java EE容器(tomcat,ant等),以便为不同的数据库和不同的全文索引提供不同的服务。
示例1:用于产品搜索的核心,用于邮件搜索的1核心,依此类推。
每个运行有solr的Java EE容器都至少具有一个内核。
从拓扑上看,您似乎需要一个前端Solr-Envorinment,可能需要1个核心,而一个后端Solr-Envoronment也可能需要1个核心。
因此,您有2个服务器,2个Java EE容器和2个核心。
您可以将这2个核心视为“多”(多个)核心,但实际上这是2个单核心安装,(可能)使用了类似复制的方式。
http://wiki.apache.org/solr/SolrReplication
关于apache - Solr具有多核分布式架构?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8817668/