java - 用 Java 抓取网站

标签 java screen-scraping robots.txt

我想做的是获取 URL 列表并下载每个 URL 的内容(用于索引)。最大的问题是,如果我遇到类似 facebook 事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该 URL。 robots.txt 文件似乎就是为了这个目的而存在的。我研究了heritrix,但这似乎超出了我的需要。是否有一个更简单的工具可以提供有关 robots.txt 的信息并相应地抓取网站?

(此外,我不需要跟踪其他链接并建立深度索引,我只需要为列表中的各个页面建立索引。)

最佳答案

关于java - 用 Java 抓取网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3197592/

相关文章:

java - Spring Tool Suite 启动失败并报错

java - 预期的方法调用

python-2.7 - 用 BeautifulSoup 刮一页的问题

javascript - Kissmetrics 数据抓取

ruby-on-rails - 检查 Nokogiri HTML 文档是否可用

php - 在 nginx 中从 robots.txt 重定向到 robots.php

谷歌图像搜索的搜索结果显示 slider 图像

java - Java 中用户名和密码不匹配的错误消息

java - 注入(inject)类方法的读/写锁

python - django 中的 robots.txt 警告是什么,建议如何处理?