java - 如何使用jsoup删除html文件开头的 header ？

标签 java html parsing jsoup

我正在使用jsoup来解析html文件。我已经成功地从 Html 中删除了所有标签，但问题是，我还想删除文件开头的 header 。例如:

WARC/1.0

WARC-Type: response

WARC-Date: 2012-02-10T20:37:13Z

HTTP/1.1 200 OK

Server: Apache

这是我的代码:

 static String readFile(String path, Charset encoding) throws IOException 
 {
     byte[] encoded = Files.readAllBytes(Paths.get(path));
     return new String(encoded, encoding);
 }
 String file=indexer.readFile("C:\\Users\\umair\\Downloads\\Compressed\\Assignment 1 Data IR\\Assignment 1 Data IR\\corpus\\corpus\\corpus\\clueweb12-0000tw-14-17002.txt", StandardCharsets.UTF_8);
 System.out.println(Jsoup.parse(file).text());

知道如何删除这些 header 吗？

最佳答案

你可以使用

doc.body()

仅获取 HTML 文档的正文，不包含任何 header 。当然，这假设您正在处理正确的 HTML 文档。

关于java - 如何使用jsoup删除html文件开头的 header ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39310796/

上一篇：Java MVC - 如何更改 View - JPanel

下一篇：java - 使用 Hibernate 存储数组的最佳方式是什么？

相关文章：

java - Javauto编译失败(入门)

jquery - 使用 jquery 禁用 html 列表的工具提示

javascript - 当我通过滚动到达它时，元素没有出现？

jquery - 为什么需要JSON解析？

java - 计算字符串中回文数的方法

java - 玩!模板语法

css - 如何使点击标志在 css/html 中没有 href 出现？

java - 如何从 Android 中的 post 请求响应中获取特定的 json 键值？

Python 正则表达式解析器

java - 检查字符串是否没有任何字母而只有数字

©2024 IT工具网联系我们