php - 网站内容如何存储？

我编写了 PHP 脚本，它应该抓取一个域的所有子页面，将文本(所有关键字)从子页面上传到数据库(MySQL)。接下来，我想快速查找具有特定关键字的网址。在我的例子中，如何保存和处理大文本数据？它应该像谷歌的网站抓取工具一样工作

我找到了两个解决方案:

您能推荐其他解决方案、方法吗？

最佳答案

您可以使用正则表达式在内存中处理完整的 html，然后仅将相关数据保存到数据库中，或者将全文保存到数据库中进行批处理。这是一篇关于 regular expression crawling 的文章.

例如，此正则表达式模式将匹配 html 中的超链接:

preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );

关于php - 网站内容如何存储？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22629011/

相关文章：

java - 尝试在 select 语句中连接列时出现未找到列异常