我有一个 Java 任务,要制作一个简单的 GUI Web 浏览器,该浏览器接收 URL 的主机名和文件路径,并通过套接字将其发送到 Web 服务器。然后Web服务器返回网页内容。将该数据转换为字符串后,我需要首先删除 <body>
之外的所有内容和</body>
标签,然后从这些标签内部删除所有标签,以仅显示用户想要查看的文本内容。我尝试使用 string.split
在 <body>
之后进行两次分割的方法和</body>
,但由于某种原因我遇到了越界异常。我的时间很紧迫,所以如果有人知道一个简单的方法来做到这一点,我将不胜感激。
最佳答案
关于java - 如何在 Java 中修剪网页的 HTML 以删除标签并仅显示文本内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26458683/