python - 从零开始的搜索引擎

标签 python mysql search search-engine

<分区>

我有一个 MySQL 数据库,里面有大约 10,000 篇文章,但这个数字可能会随着时间的推移而增加。我希望能够搜索这些文章并根据某些关键字提取最相关的结果。我知道有很多我可以参与的项目,它们基本上可以为我做这件事。然而,这个应用程序非常简单,如果能够直接控制和了解整个事情的运作方式,那就太好了。因此,我想研究用 Python 从头开始​​构建一个非常简单的搜索引擎。

我什至不知道从哪里开始,真的。我可以将 MySQL 数据库中的所有内容转储到一个列表中,并尝试根据相关性对该列表进行排序,但是这似乎很慢,并且随着数据库项目数量的增加而变慢。我可以使用一些基本的 MySQL 搜索来从 MySQL 的想法中获得前 100 个最相关的结果,然后对这 100 个进行排序。但这是一个两步过程,效率可能较低,而且如果一篇文章刚刚发表,我可能会错过它范围。

对此我可以采取哪些最佳方法?

最佳答案

要为 10,000 篇文章做“搜索引擎”,最好的选择是阅读 Toby Segaran 的“Programming Collective Intelligence”。精彩阅读并节省您的时间请转到 2007 年 8 月号的第 4 章。

关于python - 从零开始的搜索引擎,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14889206/

相关文章:

python - 为什么当我运行调用 B.exe 的 A.exe 时失败,因为 B.exe 尝试在 A.exe(调用者)文件夹而不是 B.exe 文件夹(调用者)中查找其模块?

sql - 通过一个 mysql 查询获得 5 级关系

mysql - 这是真的吗 : "In MySQL, fetching a column value forces a read of the entire row"?

python - 查找最不常出现的模糊字符串

ios - 在搜索栏的左侧和右侧添加按钮

python - NumPy boolean 数组警告?

python - 在 1D-NumPy 数组中查找单数/局部最大值/最小值集(再次)

php - 在 PDO 语句中将相同的 id 分配给 2 个 MySQL 表行

php - 在一个后台为MYSQL的网站上集成搜索

python - Plotly:如何在 x 轴上仅绘制月份和日期? (忽略年份)