Java中有没有办法读取网页内容?
网页不是一个简单的HTML页面,它包含ajax调用、图像、PDF和Flash。 我需要读取/下载页面的所有内容(在执行ajax调用之后)。
请给我建议任何解决方案。
最佳答案
为此目的,存在各种 html 解析器。您可以使用其中之一
http://ccil.org/~cowan/XML/tagsoup/
http://jericho.htmlparser.net/docs/index.html
这些解决方案提取包含图像的 html 标签。对于 css 提取,您可以使用 css 解析器。
关于Java代码读取网站内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13757782/