我正在使用以下代码从互联网检索数据,但我也得到了 HTTP header ,这对我来说毫无用处。
URL url = new URL(webURL);
URLConnection conn = url.openConnection();
BufferedReader in = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
in.close();
我怎样才能只获取html数据而不获取任何标题或任何内容。
问候
最佳答案
使用 TagSoup 检索和解析文档:
Parser p = new Parser();
SAX2DOM sax2dom = new SAX2DOM();
URL url = new URL("http://stackoverflow.com");
p.setContentHandler(sax2dom);
p.parse(new InputSource(new InputStreamReader(url.openStream())));
org.w3c.dom.Node doc = sax2dom.getDOM();
TagSoup 和 SAX2DOM 包是:
import org.ccil.cowan.tagsoup.Parser;
import org.apache.xalan.xsltc.trax.SAX2DOM;
将内容写入System.out
:
TransformerFactory tFact = TransformerFactory.newInstance();
Transformer transformer = tFact.newTransformer();
Source source = new DOMSource(doc);
Result result = new StreamResult(System.out);
transformer.transform(source, result);
这些都来自import javax.xml.transform.*
关于java - 如何使用java从互联网获取<html>数据</html>?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8633005/