php - 我可以使用 WGET 生成给定 URL 的网站站点地图吗?

标签 php wget web-crawler bots

我需要一个可以抓取网站并以纯文本或类似格式返回所有抓取页面列表的脚本;我将把它作为站点地图提交给搜索引擎。我可以使用 WGET 生成网站的站点地图吗?或者是否有可以执行相同操作的 PHP 脚本?

最佳答案

wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt

这会创建一个名为 sedlog.txt 的文件,其中包含在指定网站上找到的所有链接。您可以使用 PHP 或 shell 脚本将文本文件站点地图转换为 XML 站点地图。调整 wget 命令的参数(接受/拒绝/包含/排除)以仅获取您需要的链接。

关于php - 我可以使用 WGET 生成给定 URL 的网站站点地图吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3948947/

相关文章:

php - MySQL "NOT IN"/"LEFT JOIN"给出错误

Java 代码等价于以下 php 代码

php - 使用 jQuery AJAX 从 Laravel 5 中的联系表单发送电子邮件

Wordpress CRON 作业命令

php - 如何只加载 html(并跳过媒体文件)

sql-server - 每分钟 10,000 个 HTTP 请求性能

php - Laravel - 显示 2 个表中的信息

c - 在 Linux 中使用系统 ("command")

linux - 如何从网站上获取所有热链接图像?

python - Apache airflow 可以在 Windows 上使用吗?应该提前做什么?