java - 如何使用java从互联网获取<html>数据</html>?

标签 java html

我正在使用以下代码从互联网检索数据,但我也得到了 HTTP header ,这对我来说毫无用处。

URL url = new URL(webURL);
            URLConnection conn = url.openConnection();
            BufferedReader in = new BufferedReader(new InputStreamReader(conn.getInputStream()));
            String inputLine;

            while ((inputLine = in.readLine()) != null) 
                System.out.println(inputLine);
            in.close();

我怎样才能只获取html数据而不获取任何标题或任何内容。

问候

最佳答案

使用 TagSoup 检索和解析文档:

Parser p = new Parser();
SAX2DOM sax2dom = new SAX2DOM();
URL url = new URL("http://stackoverflow.com");
p.setContentHandler(sax2dom);
p.parse(new InputSource(new InputStreamReader(url.openStream())));
org.w3c.dom.Node doc = sax2dom.getDOM();

TagSoup 和 SAX2DOM 包是:

import org.ccil.cowan.tagsoup.Parser;
import org.apache.xalan.xsltc.trax.SAX2DOM;

将内容写入System.out:

TransformerFactory tFact = TransformerFactory.newInstance();
Transformer transformer = tFact.newTransformer();
Source source = new DOMSource(doc);
Result result = new StreamResult(System.out);
transformer.transform(source, result);

这些都来自import javax.xml.transform.*

关于java - 如何使用java从互联网获取<html>数据</html>?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8633005/

相关文章:

html - 文本落到右栏的底部

javascript - 使用 jquery 在选择菜单项时更改菜单项颜色

jquery - 打开下拉后如何自动选择第一个 'li'?

java - 为什么 Minecraft Forge 有这些奇怪的变量名?

java - IE 8 中不一致的 GWT 行为

java - 匹配 Java 中的日历对象吗?

java同步多线程问题

html - 悬停两个元素的背景

javascript通过鼠标悬停滚动对象

java - 二叉搜索树的迭代器不沿着树向下