我想做的是获取 URL 列表并下载每个 URL 的内容(用于索引)。最大的问题是,如果我遇到类似 facebook 事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该 URL。 robots.txt 文件似乎就是为了这个目的而存在的。我研究了heritrix,但这似乎超出了我的需要。是否有一个更简单的工具可以提供有关 robots.txt 的信息并相应地抓取网站?
(此外,我不需要跟踪其他链接并建立深度索引,我只需要为列表中的各个页面建立索引。)
最佳答案
你可以只选你感兴趣的类(class),即 http://crawler.archive.org/xref/org/archive/crawler/datamodel/Robotstxt.html
关于java - 用 Java 抓取网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3197592/