Java代码读取网站内容

标签 java web-crawler

Java中有没有办法读取网页内容？

网页不是一个简单的HTML页面，它包含ajax调用、图像、PDF和Flash。我需要读取/下载页面的所有内容(在执行ajax调用之后)。

请给我建议任何解决方案。

最佳答案

为此目的，存在各种 html 解析器。您可以使用其中之一

http://ccil.org/~cowan/XML/tagsoup/

http://jsoup.org/

http://jericho.htmlparser.net/docs/index.html

这些解决方案提取包含图像的 html 标签。对于 css 提取，您可以使用 css 解析器。

关于Java代码读取网站内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13757782/

上一篇：java - 如何恢复具有 ManyToOne 关系的 JPA 实体

下一篇：java - 如果我将一些小部件放入单个通用 GWT 模块中，GWT 对速度有帮助吗？

相关文章：

r - 在 rvest 中提交没有提交按钮的表单

Apache Nutch 2.1 不同批处理 ID(空)

java-jar文件找不到资源

java - 如何在mybatis中为Set<MyEnum>指定typeHandler？

java - SlidingPaneLayout.getState();未找到

java - 是否可以在不降低安全级别的情况下使用 Java 版本 7 更新 51 打开自签名 Java 小程序

java - 如果 Item Reader 不返回任何内容，如何跳过 Spring Batch block 中的 Item Writer？

html - 用户控制的友好 URL 是否由 Google 自动处理？

java - java中的mkdir函数

python - Scrapy:scrapy server需要一个项目，为什么？

©2024 IT工具网联系我们