Java代码读取网站内容

标签 java web-crawler

Java中有没有办法读取网页内容?

网页不是一个简单的HTML页面,它包含ajax调用、图像、PDF和Flash。 我需要读取/下载页面的所有内容(在执行ajax调用之后)。

请给我建议任何解决方案。

最佳答案

为此目的,存在各种 html 解析器。您可以使用其中之一

http://ccil.org/~cowan/XML/tagsoup/

http://jsoup.org/

http://jericho.htmlparser.net/docs/index.html

这些解决方案提取包含图像的 html 标签。对于 css 提取,您可以使用 css 解析器。

关于Java代码读取网站内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13757782/

相关文章:

r - 在 rvest 中提交没有提交按钮的表单

Apache Nutch 2.1 不同批处理 ID(空)

java-jar文件找不到资源

java - 如何在mybatis中为Set<MyEnum>指定typeHandler?

java - SlidingPaneLayout.getState();未找到

java - 是否可以在不降低安全级别的情况下使用 Java 版本 7 更新 51 打开自签名 Java 小程序

java - 如果 Item Reader 不返回任何内容,如何跳过 Spring Batch block 中的 Item Writer?

html - 用户控制的友好 URL 是否由 Google 自动处理?

java - java中的mkdir函数

python - Scrapy:scrapy server需要一个项目,为什么?