html - 抓取整个网站

标签 html web-scraping

<分区>

我正在寻找有关抓取和下载整个公司网站的程序的建议。

该网站由已停止工作的 CMS 提供支持,修复它的成本很高,我们能够重新开发该网站。

所以我只想将整个网站作为纯 html/css/图像内容,并根据需要对其进行小幅更新,直到新网站出现。

有什么建议吗?

最佳答案

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains www.website.com \
     --no-parent \
         www.website.com

阅读更多相关信息 here .

关于html - 抓取整个网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9265172/

相关文章:

html - 如何使用 Twitter Bootstrap 做这个简单的响应式布局?

python - Scrapy LinkExtractor - 要遵循哪个 RegEx?

excel - 为什么使用 MSXML v3.0 解析 XML 文档可以,而 MSXML v6.0 却不行

python - Scrapy不抓取下一页url

javascript - 如何使用指定的键码触发类似 keyup 的事件

javascript - 如何根据图像的点击隐藏/取消隐藏一组 div

c# - 在文本 block ( block 元素)末尾截断 HTML 内容

javascript - 有两个全宽 HTML 元素重叠但都可以交互

python - 从位于网站的图表中解析表格项时遇到问题

python - 使用 Python 单击按钮加载 HTML