java - 网页内容(可读性 View )

我是java编程新手。我只想要该页面的网页内容。但我得到的程序给了我 html 标签，其中包含我不想要的内容。

谁能帮我解决这个问题吗？

谢谢。

我的代码如下所示:

import java.net.*;
import java.io.*;

public class URLReader {
    public static void main(String[] args) throws Exception {

    URL oracle = new URL("http://www.oracle.com/");
    BufferedReader in = new BufferedReader(
    new InputStreamReader(oracle.openStream()));

    String inputLine;
    while ((inputLine = in.readLine()) != null)
        System.out.println(inputLine);
    in.close();
    }
}

最佳答案

如果您确实只需要网页的一小部分，则必须解析收到的 HTML 页面。没有其他办法。当您使用 InputStreamReader 读取页面内容时，您将得到与浏览器相同的结果。

浏览器和代码之间的唯一区别是浏览器解释内容。

您需要解析 HTML (XML) 内容才能找到正确的文本。

这是一个很好的教程，您可以按照它来使用内置的 Java XML 解析器:https://www.tutorialspoint.com/java_xml/java_dom_parser.htm

关于java - 网页内容(可读性 View )，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40739304/

上一篇：Java - 程序卡在 TreeSet.add() 中

下一篇：java - 如何在hibernate继承中使用父id获取数据

java - 温度转换方法输出Java

html - 使用背景图像时，如何在所有 IE 浏览器中删除 <th> 标记中的背景颜色？

javascript - 如何通过 HTML 和 ajax 中的动态按钮从动态文本框中获取文本

html - 在 DIV 中居中 TABLE

javascript - 带有标签的自定义 Material 样式输入不起作用

java - 当我执行插入查询 RDF4J 时如何获取 UpdateExpr

java - 如何使用 Playframework 渲染特殊的 XML/JSON Flavors

java - Lucene RAMDirectory 已弃用 - 无论如何如何仅保留目录 RAM？

html - 如何使 SVG 中的文本居中？