java - 如何在 Java 中修剪网页的 HTML 以删除标签并仅显示文本内容?

标签 java html trim

我有一个 Java 任务,要制作一个简单的 GUI Web 浏览器,该浏览器接收 URL 的主机名和文件路径,并通过套接字将其发送到 Web 服务器。然后Web服务器返回网页内容。将该数据转换为字符串后,我需要首先删除 <body> 之外的所有内容和</body>标签,然后从这些标签内部删除所有标签,以仅显示用户想要查看的文本内容。我尝试使用 string.split<body> 之后进行两次分割的方法和</body> ,但由于某种原因我遇到了越界异常。我的时间很紧迫,所以如果有人知道一个简单的方法来做到这一点,我将不胜感激。

最佳答案

尝试使用Jsoup图书馆它可能对你有帮助。

Example1

Example2

关于java - 如何在 Java 中修剪网页的 HTML 以删除标签并仅显示文本内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26458683/

相关文章:

java - 如何读取java代码中的gitlab变量?

java - 我可以在 Activity 和类中声明和使用相同的按钮吗?

html - Mailchimp 选择加入确认 CSS

c# - C#中如何去掉String的最后一个字符?

Linux 密码管理器修剪密码中的尾随空格

从 .value 中删除空格的 Javascript

java - 某些 PDF 文件无法正确下载

java - 如何使用java获取Clob

javascript - 使用 javascript/jQuery 获取样式表中的 CSS 类列表

javascript - 检测资源加载错误