Java:解析html文件并提取文本

标签 java parsing

我想解析 HTML文件并存储粗体文本(在<b>标签内)。一种解决方案是逐行读取文件并拆分或使用 RegEx 。这意味着我应该将整个页面存储在 String 中多变的?如果我不将其保存在变量中,那么我无法保证标签的开头和结尾位于同一行。

您建议什么解决方案?

最佳答案

使用JSoup解析内容

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);

关于Java:解析html文件并提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16654995/

相关文章:

ruby - 如何在 ruby​​ 中读取没有 quote_char 的 CSV?

Java : Convert string to Date

perl - 解析perl中的科学整数表示

java - List<List<String>> 是 Collection<Collection<T>> 的实例吗?

php - 解析 X509 证书

python - 将 Python 解析为实例列表

java - 使用 Bouncy CaSTLe 和 PDFBox 在 Java 中验证 PDF 签名

java - 关于finally block

java - selenium 服务器,selenium 客户端,在 UBUNTU GUI 服务器上

java - SAP Hybris : How to load app context in custom error page controller?