我编写了 PHP 脚本,它应该抓取一个域的所有子页面,将文本(所有关键字)从子页面上传到数据库(MySQL)。接下来,我想快速查找具有特定关键字的网址。在我的例子中,如何保存和处理大文本数据?它应该像谷歌的网站抓取工具一样工作
我找到了两个解决方案:
- 将文本上传到一列并包含全文
- 创建 2 个表:关键字、关键字子页面,其中键为:关键字 ID、子页面 ID
您能推荐其他解决方案、方法吗?
最佳答案
您可以使用正则表达式在内存中处理完整的 html,然后仅将相关数据保存到数据库中,或者将全文保存到数据库中进行批处理。这是一篇关于 regular expression crawling 的文章.
例如,此正则表达式模式将匹配 html 中的超链接:
preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );
关于php - 网站内容如何存储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22629011/