我需要用 Java + Groovy 编写一个爬虫..
我想知道是否存在能够解析 HTML 文档并通过简单的 CSS 选择器选择我需要的信息(而不是遍历整个文档树并手动选择我需要的信息)的东西存在吗?类似于 Nokogiri对于 Ruby,只是为了让您了解我需要什么..
提前致谢!
最佳答案
我通过使用 Qt Webkit 加载一个页面并包含 JQuery 来做类似的事情。
这是一个 hack,但很适合我的用例。我需要一个不需要配置的解决方案 - 只需 sudo apt-get install libqt4-webkit 就可以开始了。
关于java - 通过 CSS 选择器抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4189534/