我目前使用 crawler4j 来抓取网站并返回页面 url 和该页面的父页面 url。我正在使用基本的爬虫,它工作正常,只是它不返回 PDF。 我知道它会抓取 PDF,因为我已经检查了它在添加过滤器和显示 pdf 之前抓取的内容。 PDF 在进入时似乎消失/跳过了
public void visit(Page page) {
我不知道为什么要这样做。 谁能帮我这个? 这将不胜感激! 谢谢
最佳答案
这非常及时,实际上我今天正在处理同样的问题并且遇到了完全相同的问题。我在 shouldVisit 中为 PDF 网址返回 true,但是我没有看到它们像您一样出现在访问(页面页面)中。我追踪到 CrawlConfig 的来源:
config.setIncludeBinaryContentInCrawling(true)
将其设置为 true 将使 PDF 显示在访问方法中。尽管看起来读取二进制数据必须在实现者方面使用 Apache PDFBox 或 Apache Tika(或其他一些 PDF 库)来完成。希望这会有所帮助。
关于html - 使用 Crawler4j 抓取 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25291740/