我需要一个可以抓取网站并以纯文本或类似格式返回所有抓取页面列表的脚本;我将把它作为站点地图提交给搜索引擎。我可以使用 WGET 生成网站的站点地图吗?或者是否有可以执行相同操作的 PHP 脚本?
最佳答案
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt
这会创建一个名为 sedlog.txt
的文件,其中包含在指定网站上找到的所有链接。您可以使用 PHP 或 shell 脚本将文本文件站点地图转换为 XML 站点地图。调整 wget 命令的参数(接受/拒绝/包含/排除)以仅获取您需要的链接。
关于php - 我可以使用 WGET 生成给定 URL 的网站站点地图吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3948947/