java - 用 Java 抓取网站

标签 java screen-scraping robots.txt

我想做的是获取 URL 列表并下载每个 URL 的内容(用于索引)。最大的问题是，如果我遇到类似 facebook 事件的链接，它只是重定向到登录页面，我需要能够检测并跳过该 URL。 robots.txt 文件似乎就是为了这个目的而存在的。我研究了heritrix，但这似乎超出了我的需要。是否有一个更简单的工具可以提供有关 robots.txt 的信息并相应地抓取网站？

(此外，我不需要跟踪其他链接并建立深度索引，我只需要为列表中的各个页面建立索引。)

最佳答案

你可以只选你感兴趣的类(class)，即 http://crawler.archive.org/xref/org/archive/crawler/datamodel/Robotstxt.html

关于java - 用 Java 抓取网站，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3197592/

上一篇：java - 如何找出 Java 中 JSP 标签的名称？

下一篇：java - Spring aop与struts2

相关文章：

java - Spring Tool Suite 启动失败并报错

java - 预期的方法调用

python-2.7 - 用 BeautifulSoup 刮一页的问题

javascript - Kissmetrics 数据抓取

ruby-on-rails - 检查 Nokogiri HTML 文档是否可用

php - 在 nginx 中从 robots.txt 重定向到 robots.php

谷歌图像搜索的搜索结果显示 slider 图像

java - Java 中用户名和密码不匹配的错误消息

java - 注入(inject)类方法的读/写锁

python - django 中的 robots.txt 警告是什么，建议如何处理？