java - 从 URL 中提取 HTML

标签 java html string url extract

我正在使用 Boilerpipe使用此代码从 url 中提取文本:

URL url = new URL("http://www.example.com/some-location/index.html");
String text = ArticleExtractor.INSTANCE.getText(url);

字符串 text 只包含 html 页面的文本,但我需要从中提取整个 html 代码。

有没有人用过这个库并且知道如何提取 HTML 代码?

您可以查看 demo page有关图书馆的更多信息。

最佳答案

对于像这样简单的事情,你真的不需要外部库:

 URL url = new URL("http://www.google.com");
 InputStream is = (InputStream) url.getContent();
 BufferedReader br = new BufferedReader(new InputStreamReader(is));
 String line = null;
 StringBuffer sb = new StringBuffer();
 while((line = br.readLine()) != null){
   sb.append(line);
 }
 String htmlContent = sb.toString();

关于java - 从 URL 中提取 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5213558/

相关文章:

java - 使用 FragmentScenario 对 Dagger fragment 进行单元测试

java - 返回 Java 8 流中的第一个匹配项(类似于 _.find)

java - 从另一个类的事件运行新的 GUI 窗口

html - 如何用边界边上的链接创建一个圆

css - 左 div 滚动和右 div 拉伸(stretch)布局高度/跨浏览器兼容?

javascript - 单击时保持元素突出显示

ios - Objective-C - 左下角的文本基线

java - 通过多个映射对实体进行映射中的重复列

python - 使用一组规则替换字符串中的多个字符

string - SML - 在列表中查找元素并替换它