php - 网站内容如何存储?

标签 php mysql web-crawler bigdata

我编写了 PHP 脚本,它应该抓取一个域的所有子页面,将文本(所有关键字)从子页面上传到数据库(MySQL)。接下来,我想快速查找具有特定关键字的网址。在我的例子中,如何保存和处理大文本数据?它应该像谷歌的网站抓取工具一样工作

我找到了两个解决方案:

  1. 将文本上传到一列并包含全文
  2. 创建 2 个表:关键字、关键字子页面,其中键为:关键字 ID、子页面 ID

您能推荐其他解决方案、方法吗?

最佳答案

您可以使用正则表达式在内存中处理完整的 html,然后仅将相关数据保存到数据库中,或者将全文保存到数据库中进行批处理。这是一篇关于 regular expression crawling 的文章.

例如,此正则表达式模式将匹配 html 中的超链接:

preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );

关于php - 网站内容如何存储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22629011/

相关文章:

java - 尝试在 select 语句中连接列时出现未找到列异常

seo - 为什么谷歌不索引页面内的链接

Java CSS 爬虫

php - 从 codeigniter 中删除查询

php - 活泼 & wkhtmltopdf : page numbering in footer

php - 准备使用选择查询失败的准备语句

php - 如何编辑 joomla 插件?

MySql - 更改 my.ini 后无法创建新表 (windows)

mysql - 将默认值更改为mysql中的子查询

python - 使用 python twisted 编写网络爬虫