html - 使用 Crawler4j 抓取 PDF

我目前使用 crawler4j 来抓取网站并返回页面 url 和该页面的父页面 url。我正在使用基本的爬虫，它工作正常，只是它不返回 PDF。我知道它会抓取 PDF，因为我已经检查了它在添加过滤器和显示 pdf 之前抓取的内容。 PDF 在进入时似乎消失/跳过了

public void visit(Page page) {

我不知道为什么要这样做。谁能帮我这个？这将不胜感激! 谢谢

最佳答案

这非常及时，实际上我今天正在处理同样的问题并且遇到了完全相同的问题。我在 shouldVisit 中为 PDF 网址返回 true，但是我没有看到它们像您一样出现在访问(页面页面)中。我追踪到 CrawlConfig 的来源:

config.setIncludeBinaryContentInCrawling(true)

将其设置为 true 将使 PDF 显示在访问方法中。尽管看起来读取二进制数据必须在实现者方面使用 Apache PDFBox 或 Apache Tika(或其他一些 PDF 库)来完成。希望这会有所帮助。

关于html - 使用 Crawler4j 抓取 PDF，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25291740/

相关文章：

javascript - JQuery 表排序器不适用于日期范围字符串