我想解析 HTML
文件并存储粗体文本(在<b>
标签内)。一种解决方案是逐行读取文件并拆分或使用 RegEx
。这意味着我应该将整个页面存储在 String
中多变的?如果我不将其保存在变量中,那么我无法保证标签的开头和结尾位于同一行。
您建议什么解决方案?
最佳答案
使用JSoup解析内容
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
关于Java:解析html文件并提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16654995/