java - 网络爬虫与 Html 解析器

标签 java web-crawler jsoup crawler4j

网络爬虫和解析器有什么区别?

在java中,有一些用于获取库的名称。例如,他们将nutch命名为爬虫,将jsoup命名为解析器。

Are they do the same purpose?

他们的工作完全相似吗?

谢谢

最佳答案

jsoup 库是一个用于处理实际 HTML 的 Java 库。它能够获取并使用 HTML。然而,它不是一般的网络爬虫,因为它一次只能获取一页(无需使用 jsoup 编写自定义程序 (=crawler)获取、提取并获取新网址)。

网络爬虫使用 HTML 解析器从先前获取的网站中提取 URL,并将这个新发现的 URL 添加到其前沿

网络爬虫的一般序列图可以在这个答案中找到:What sequence of steps does crawler4j follow to fetch data?

总结一下:

HTML 解析器是网络爬虫的必要组件,用于从给定的 HTML 输入中解析和提取 URL。然而,单独的 HTML 解析器不是网络爬虫,因为它缺乏一些必要的功能,例如维护以前访问过的 URL、礼貌等。

关于java - 网络爬虫与 Html 解析器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53304955/

相关文章:

Python:列出没有索引的网站的所有URL

PHPCrawl 无法创建 SSL 套接字

java - 来自 url 的文本,但它被复制了 3 到 4 次

java - 如何使用jsoup从HTML解析表格

java - 从 Frege 调用 native Java 构造函数

python - 无法使用相对 URL Python Scrapy 下载图像

java - 如何等到没有带有属性ready_to_send的span标签,或者换句话说,没有带有send属性的span标签

java - 有时 IoException :Mark Invalid Jsoup Android App

java - 哪种距离计算(经度、纬度)更精确?

java - 如何使用 JRuby 和 Java?