python - 管理网站静态信息并在网站上实现搜索 API 的最佳方法是什么?

标签 python google-app-engine django-cms gae-search

最近,Google 创建了一个新的 Search API您可以将其集成到您的 Google 应用程序引擎应用程序中,以在您的网站内搜索文档和信息。酷!

我有一个网站,其中包含大量 Django 资源,其中包含大量静态信息。我想使用新的搜索 API 将此信息集成到站点范围的搜索引擎中。

对于拥有现有网站和用于内容的大量文本资源的人来说,将静态信息(来自平面 HTML 文件)集成到网站搜索 API 数据存储中的最佳方法是什么?额外的问题,管理此内容的最佳方法是什么,以便当我向网站添加其他页面时,它们将被集成到搜索数据存储中?

最佳答案

搜索 API 要求您将文档添加到搜索后端才能进行搜索。对于静态资源,这意味着您必须使用搜索 API 抓取它们并将其添加到搜索后端。

您可能希望在每次上传后执行此操作。也许最简单的方法是使用 cron 作业来遍历文件并检查它们的时间戳。如果它们比上次遍历时更新(如果有的话),请将它们添加到搜索后端/更新它们。 除了 cron 作业之外,您还可以定义一个处理程序来触发遍历,并在部署新的应用程序版本后进行触发。

关于python - 管理网站静态信息并在网站上实现搜索 API 的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10516298/

相关文章:

python - 迭代python中不断增长的集合

python - 延迟任务创建无法访问某些 python 模块的新实例

google-app-engine - 在 App Engine 上设置 LogEntries 时出现问题

python - 在另一个页面中渲染 cms 页面

python - django cms - 在此服务器上找不到请求的 URL/en/- postgresql、nginx、gunicorn

python - 列表中删除、删除和弹出的区别

python - 如何在 Python 中模仿 dict 的节省空间的版本?

python - 文件大小总和的脚本

google-app-engine - Channel API channel 在没有 onclose 或 onerror 调用的情况下断开连接。 JavaScript 控制台包含对 talkgadget.google.com 的失败 HTTP 调用的日志

Django-CMS - 全局占位符?