search - Apache Lucene与Google Search Appliance

标签 search lucene google-search-appliance

有没有人遇到过Apache Lucene的功能?我听说它甚至可以与Google Search Appliance(GSA)相提并论。我正在寻找两者之间的明确比较,如果可能的话?

在线上进行的比较非常模糊。

最佳答案

在Apache Lucene和Google Search Appliance之间可能很难找到比较之处,因为它们是如此不同。 Lucene是用于建立具有基本相关性“增强”功能的文档的索引的软件组件,而GSA是企业搜索产品(设备/物理硬件),具有许多现成的功能,可基于以下功能调整和优化搜索结果: Google搜索算法。

因此,它们基本上是具有不同实现方案的两种出色工具。但是当然可以重叠,尤其是如果用于在您的普通网站上提供搜索时。

在我头顶上,您可能想开始进行比较的一些主题:

部署/体系结构

  • Lucene是一个软件组件,可以深度集成到您自己的软件中,从而提供索引(通常基于文件,有时在内存中)以快速索引和检索内容。
  • lucene项目提供了大量分析器,可以对不同语言(西方语言,阿拉伯语,亚洲语等)进行适当的索引编制,但是在分析器
  • 上仍有改进的空间
    NET的
  • Lucene是一个非常流行的端口,可以集成在Microsoft .Net Plattforms上。
  • GSA软件和硬件 bundle 在一起,并作为带有HTTP(s)接口(interface)的设备出售,以HTML(通过其自己的XSLT)或XML(以更好地与您的网站集成)提供搜索结果。
  • GSA附带了语言包(已安装和可下载)。您必须选择一个 bundle 包。如果您需要更多语言的支持,则可能需要向基础架构中添加另一个GSA(如果所有必需的语言不在同一 bundle 中)
  • GSA表现出色,需要很少的维护
  • GSA让您几乎无需任何工程工作即可进行扩展。全局分布,但是可以通过Web界面
  • 设置连接的GSA
    可以通过购买便宜的热备份模块来使
  • GSA HA

    索引
  • Lucene提供了搜寻器(和搜寻器API)来索引内容。不管您的搜寻器实际上是像Google一样对网站进行爬网,还是您基于SQL语句对数据库进行爬网,还是提供从平面文件中读取的文本流,都可以。但是通常,如果提供的内容不符合您的需求,则必须实现搜寻器
  • GSA使用Google使用的搜寻器技术,并遵守机器人指令(在TXT或Meta标签中),为无法被搜寻的源(即它们之间没有链接)提供了提要API,并且支持对所有市长设置SQL查询从数据库中检索数据的数据库(是要爬网的URL还是数据本身)

  • 检索/相关性调整
  • Lucene并不针对相关调整,也没有很好的支持(增强索引中的条目除外)。由应用程序使用索引结果来进行
  • 的调整
  • Lucene是SOLR使用的索引,它提供的调整和体系结构更类似于GSA(包括通过HTTP检索结果)
  • GSA让您根据元数据,日期和URL模式对结果集进行偏倚。在最新版本中,您甚至可以设置自己的实体并根据它们对结果进行偏倚
  • GSA支持开箱即用的方面,用于元数据以及其界面上的更多奇特功能,例如文档的预览图像,自动建议等。

  • 商业事物
  • Lucene是开源(免费)产品,但需要购买硬件
  • 50万个文档/ URL的GSA起始价为2万美元左右
  • Google提供了几种支持级别
  • GSA许可证必须每2年或3年更新一次(您将获得新的硬件)
  • GSA不需要任何其他硬件(包括设备)

  • ...还有更多要添加的内容,但我希望您能理解。

    2016年2月更新:

    Google已通知合作伙伴,GSA将于2019年左右停产。目前,链接到的最佳网站似乎是http://fortune.com/2016/02/04/google-ends-search-appliance/

    关于search - Apache Lucene与Google Search Appliance,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16734908/

    相关文章:

    java - 广度优先搜索 - Java

    java - 使用 Lucene 库指定文档字段

    lucene - 在构建索引时提升 Lucene 术语

    lucene - Elasticsearch/Lucene亮点

    curl - AND 在 elasticsearch 中使用 curl 进行查询

    java - 自动生成站点地图

    css - 如何修复 Google Search Console 中的问题 "Clickable elements too close together"

    使用 helm-do-grep 在当前文件夹中搜索

    arrays - 在二分查找中,为什么向后遍历比向前遍历花费更多?

    android - 如何在我的应用程序中使用 Google map 搜索功能 api?