java - 网页内容(可读性 View )

标签 java html

我是java编程新手。我只想要该页面的网页内容。但我得到的程序给了我 html 标签,其中包含我不想要的内容。

谁能帮我解决这个问题吗?

谢谢。

我的代码如下所示:

import java.net.*;
import java.io.*;

public class URLReader {
    public static void main(String[] args) throws Exception {

    URL oracle = new URL("http://www.oracle.com/");
    BufferedReader in = new BufferedReader(
    new InputStreamReader(oracle.openStream()));

    String inputLine;
    while ((inputLine = in.readLine()) != null)
        System.out.println(inputLine);
    in.close();
    }
}                                                                       

最佳答案

如果您确实只需要网页的一小部分,则必须解析收到的 HTML 页面。没有其他办法。当您使用 InputStreamReader 读取页面内容时,您将得到与浏览器相同的结果。

浏览器和代码之间的唯一区别是浏览器解释内容。

您需要解析 HTML (XML) 内容才能找到正确的文本。

这是一个很好的教程,您可以按照它来使用内置的 Java XML 解析器:https://www.tutorialspoint.com/java_xml/java_dom_parser.htm

关于java - 网页内容(可读性 View ),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40739304/

相关文章:

java - 如何在 tomcat 8 嵌入式 javascript/json/java webapp 上启用 ssl

java - 温度转换方法输出Java

html - 使用背景图像时,如何在所有 IE 浏览器中删除 <th> 标记中的背景颜色?

javascript - 如何通过 HTML 和 ajax 中的动态按钮从动态文本框中获取文本

html - 在 DIV 中居中 TABLE

javascript - 带有标签的自定义 Material 样式输入不起作用

java - 当我执行插入查询 RDF4J 时如何获取 UpdateExpr

java - 如何使用 Playframework 渲染特殊的 XML/JSON Flavors

java - Lucene RAMDirectory 已弃用 - 无论如何如何仅保留目录 RAM?

html - 如何使 SVG 中的文本居中?