php - 如何从整个网站中提取所有网址,而不仅仅是从给定的链接中

标签 php regex

我正在编写一个 PHP 代码,它使用正则表达式从页面获取所有链接,我需要对其进行转换以从整个网站获取链接。 我想应该再次检查提取的网址,以便脚本能够访问它的所有网址,而不仅仅是给定的一个页面。

我知道一切皆有可能,但是这个怎么样?谢谢您的指导。

最佳答案

嗯,为了确保您获得 google 找到的所有页面,那么抓取 google 怎么样?只需搜索“site:domain.com”,然后检索遵循此模式的任何内容:
<h3 class="r"><a href="http://domain.com/.*?" class=l
(您还必须转义正确的字符,“.*?”是正则表达式,它为您提供谷歌找到的所有网址。

无论如何,这只是对替代方法的建议。

关于php - 如何从整个网站中提取所有网址,而不仅仅是从给定的链接中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6468737/

相关文章:

javascript - 替换除第一个以外的所有匹配项

php - 编译 PHP 8 : --with-gd --enable-gd-native-ttf 时无法识别的选项

regex - 自动机和正则表达式理论工具

regex - 实用的非图灵完备语言?

java - 匹配和排序 Bukkit ChatColor 表达式

regex - 如何 grep 向量并返回单个 TRUE 或 FALSE?

php - PDO PHP 中的分页

php - 与 mysqli() 的连接不起作用,为什么?

Php 仅列出 zip 存档内的文件(不包括文件夹)

php - 获取引荐来源网址 - 来自 Paypal (HTTPS) 的访客