我正在编写一个 PHP 代码,它使用正则表达式从页面获取所有链接,我需要对其进行转换以从整个网站获取链接。 我想应该再次检查提取的网址,以便脚本能够访问它的所有网址,而不仅仅是给定的一个页面。
我知道一切皆有可能,但是这个怎么样?谢谢您的指导。
最佳答案
嗯,为了确保您获得 google 找到的所有页面,那么抓取 google 怎么样?只需搜索“site:domain.com”,然后检索遵循此模式的任何内容:
<h3 class="r"><a href="http://domain.com/.*?" class=l
(您还必须转义正确的字符,“.*?”是正则表达式,它为您提供谷歌找到的所有网址。
无论如何,这只是对替代方法的建议。
关于php - 如何从整个网站中提取所有网址,而不仅仅是从给定的链接中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6468737/