我正在使用jsoup来解析html文件。我已经成功地从 Html 中删除了所有标签,但问题是,我还想删除文件开头的 header 。 例如:
WARC/1.0
WARC-Type: response
WARC-Date: 2012-02-10T20:37:13Z
HTTP/1.1 200 OK
Server: Apache
这是我的代码:
static String readFile(String path, Charset encoding) throws IOException
{
byte[] encoded = Files.readAllBytes(Paths.get(path));
return new String(encoded, encoding);
}
String file=indexer.readFile("C:\\Users\\umair\\Downloads\\Compressed\\Assignment 1 Data IR\\Assignment 1 Data IR\\corpus\\corpus\\corpus\\clueweb12-0000tw-14-17002.txt", StandardCharsets.UTF_8);
System.out.println(Jsoup.parse(file).text());
知道如何删除这些 header 吗?
最佳答案
你可以使用
doc.body()
仅获取 HTML 文档的正文,不包含任何 header 。当然,这假设您正在处理正确的 HTML 文档。
关于java - 如何使用jsoup删除html文件开头的 header ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39310796/