java - java中的网络爬行

我遇到一种情况，我需要抓取一组仅包含一些 xml 数据的网页，并且我想获取特定元素的属性。我怎样才能在java中做到这一点？

比如说，xml结构是

<page>
       <student id=2406>
        .
        .
       </student>

       .
       . 
       . 
</page>

我需要抓取很多页面，所以请推荐一个快速的抓取工具

编辑: 我看过一些与此相关的页面，但没有找到公平的答案。任何代码也将不胜感激

最佳答案

Jsoup 将是一个很好的爬虫。您可以使用它执行以下操作:

String xml = "this would be your xml";
Document doc = Jsoup.parse(xml, "", Parser.xmlParser());
for (Element e : doc.select("tag")) {
    System.out.println(e); //this will print the node with "tag"
}

要抓取网页，请使用以下代码:

Document doc = Jsoup.connect("url").get();

关于java - java中的网络爬行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33674254/

上一篇：java - 如果android终止进程如何处理后按

下一篇：java - 从数据包 header 设置 Java 字节数组大小

相关文章：

python - Python 中的网络爬虫

web-crawler - 如何扩展 Nutch 以进行文章抓取

java - 从另一个线程读取共享变量(Effective Java #66)

php - 如何使用 PHP 检查 XML 中是否存在 TAG？

java - 测试应用程序生命周期、销毁和创建

ruby - 什么是 Ruby 的快速 XML 解析器？

java - 如何从 JSONObject 获取文件或流？

javascript - 如何使用cheerio和nodejs在解析的HTML中查找特定的JavaScript代码？

java - Hamcrest:如何将任一/或可组合匹配器与集合一起使用

java - 如何使用java代码调用solr进行优化