python - 搜索引擎推荐100个站点约4000个页面

标签 python search-engine

我正在寻找一个搜索引擎,它可以定期(每天)扫描大约 100 个页面以查找更改,如果发现自上次扫描以来的更改,则可以对关联站点建立索引。它应该能够处理大约 100 个站点,每个站点平均有 4000 个页面,平均大小约为 5k,每个站点位于不同的服务器上(但只有一个集中式搜索引擎)。这些网站中的每一个都会有一个提交到该搜索引擎的搜索表单。返回的结果必须特定于提交它们的站点。我为外部站点创建模板,因此我可以为搜索表单提供一个隐藏字段,用于指定从哪个站点提交表单。

您建议我研究什么?

如果可行的话,我很乐意使用基于 Python 的系统来实现此目的。

我目前正在使用名为 iSearch2 的东西。在这个规模上它似乎不太稳定,产品的描述表明它并不是真的打算做多个站点,它是用 PHP 编写的(对我来说,它不如 Python 舒服),并且对于我的具体情况还有一些其他缺点情况。

最佳答案

如果你正在寻找一个纯Python搜索引擎,你可以看看whoosh 。 Whoosh 的问题在于它速度慢且功能不全。如果您的网站没有获得太多流量,那也没关系,但您可能需要更强大的东西来进行生产。

话虽如此,我喜欢使用 Xapian及其 python bindings 。它非常快速且易于设置。

您还可以使用 solr其中有 python api 。 Solr 是用 Java 编写的,但不要让它欺骗了您,因为它是这群中表现最好的。您只需运行一个 Java 服务器即可使其正常工作。

由于我使用 Django,我可以集成 haystack到我的项目中,这使得切换搜索引擎变得很容易。我将使用 Whoosh 进行开发,因为它设置起来既简单又快速(它可以安装在 virtualenv 中),但根据我的需要使用 Xapian 或 Solr 进行部署以进行生产。

关于python - 搜索引擎推荐100个站点约4000个页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2715733/

相关文章:

css - 怎么做谷歌搜索输入表单交易位置: from center to top

python - 注释与 python 中的字符串相比

网站管理员工具中的php seo 404错误

python - 我可以覆盖 io.BufferedReader 中的默认 read() 方法吗?

python - 以编程方式管理 'balance' 时间(生病/休假)

php - 限制 post sql 结果

algorithm - 从多个表中按相关性对数据进行排序

.net - 如何在 .net 中对大约 1000 万的大量数据组织搜索架构

python - 绘制 3D numpy 数组的第三轴

python - maya/python 修改 modelPanel 布局和行为