apache - Solr具有多核分布式架构?

标签 apache solr hadoop search-engine

我打算将Solr用作搜索服务器,并将开发自己的Spider或扩展Nutch。

我正在尝试设计一种最佳的经济拓扑,该拓扑目前可以满足我的目的,并且保持开放状态,以便将来扩展。

我打算使用Amazon AWS托管所有计算机。我的问题是了解以下想法和要求的可行性,将不胜感激!

  • 一个Solr节点(专用于仅提供查询-作为Web前端的查询服务器)
  • 按需Solr节点(1个或多个)(作为索引服务器-Nutch或其他蜘蛛将连接到此节点并充斥新内容以进行爬网和索引)

    我不确定是否可以像其他许多搜索服务器(例如Microsoft FAST或SharePoint搜索)一样使用通用数据库部署分布式拓扑。

    我愿意使用Hadoop或任何其他支持这种拓扑的分布式文件系统。

    因此,主要是将其可视化如下
                      ---------------------------------------------------
    
                    Hadoop or anyother distributed file system / db system
    
                      ---------------------------------------------------
    
                                               ||
                                               ||
                                               ||
                                               VV
                      ----------------                ------------------------
    
                      Solr query node                  Dedicated Solr index nodes 
                    (1 powerful server)         +              (on demand)
                                                     with Nutch or other web spider
    
                      ----------------                ------------------------
    
                             ||                                   ||
                             VV                                   VV
                        Web Front End                          Internet       
    

    我是这项技术的新手,在其他论坛和自由网站上的许多社区成员都提出了多核实现,但是我的理解是多核是为了支持区分数据节点(与集群或分布式体系结构无关)!我对么?

    请告知可行性!

    提前谢谢了。

    尼来

  • 最佳答案

    solr中的“核心”用于描述“全文索引环境”。
    您可以运行1个Java EE容器(tomcat,ant等),以便为不同的数据库和不同的全文索引提供不同的服务。
    示例1:用于产品搜索的核心,用于邮件搜索的1核心,依此类推。

    每个运行有solr的Java EE容器都至少具有一个内核。
    从拓扑上看,您似乎需要一个前端Solr-Envorinment,可能需要1个核心,而一个后端Solr-Envoronment也可能需要1个核心。

    因此,您有2个服务器,2个Java EE容器和2个核心。
    您可以将这2个核心视为“多”(多个)核心,但实际上这是2个单核心安装,(可能)使用了类似复制的方式。
    http://wiki.apache.org/solr/SolrReplication

    关于apache - Solr具有多核分布式架构?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8817668/

    相关文章:

    hadoop - 在 Spark-on-Yarn 中配置执行器和驱动程序内存

    eclipse - 如何使用eclipse调试hadoop wordcount?

    apache - mod_rewrite - 排除 url

    solr - 如何使 Solr 拼写检查器更正拉丁语和西里尔语单词?

    php - 服务器安全图片

    database - 查询超过 1500 万行的最佳方式?

    solr - 方面查询的巨大时间差异

    java - 在MacOS High Sierra上设置Hadoop单节点时遇到问题

    php - 测试站点和生产站点的软件版本有所不同

    php - Apache不显示目录索引