java - 在Java中将HTML解析为字符串

标签 java html xml-parsing

我必须获取电子邮件的内容(HTML 格式)并将其保存到一个字符串中,然后解析该字符串以获取所需的详细信息并准备 XML 输出。

我正在使用 JAMES,并且我希望用 Java 来完成它。如何将 HTML 页面转储为字符串?你认为我在解析时不会遇到双引号、空格、反斜杠的任何问题吗?

现在我正在本地系统上测试邮件服务器。 我以 HTML 格式从 user1@localhost 向 user2@localhost 发送了一封邮件 另一方面,我想转换解析 HTML 页面以创建具有所需值的 XML 文档..

最佳答案

你能尝试一下这个例子吗?转储 html 页面并将该数据写入 data.html 文件。 从下面的代码中,您可以将结果附加到 StringBuffer 并替换 html 特殊字符。

public class UrlReadPageDemo {
  public static void main(String[] args) {
    try {
        URL url = new URL("http://example.com");

        BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
        BufferedWriter writer = new BufferedWriter(new FileWriter("data.html"));

        String line;
        while ((line = reader.readLine()) != null) {
            System.out.println(line);
            writer.write(line);
            writer.newLine();
        }

        reader.close();
        writer.close();
    } catch (MalformedURLException e) {
        e.printStackTrace();
    }  catch (IOException e) {
        e.printStackTrace();
    }
}

}

关于java - 在Java中将HTML解析为字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5180124/

相关文章:

html - 更新记录时如何动态更新行背景颜色?

java - 使用 NodeList 解析 Xml

java - StaX 解析 : Transformer. 变换方法自动移动光标,并不总是很好

java - Java 播放多媒体

java - 如何在 IntelliJ IDEA 10 中打开包含的 java 类(例如 JButton)?

java - 如何使用响应式(Reactive)驱动程序连接到 Neo4J 嵌入式实例?

python - 将 HTML 表单值解释为 Flask View 中的列表

javascript - 在 IE9 中使用 history.pushstate

android - 无法正确获取 xml 中的数据解析

java - 使用带有 JSON 正文的 ReSTLet 进行多部分 POST 处理