Java:解析html文件并提取文本

标签 java parsing

我想解析 HTML文件并存储粗体文本(在<b>标签内)。一种解决方案是逐行读取文件并拆分或使用 RegEx 。这意味着我应该将整个页面存储在 String 中多变的？如果我不将其保存在变量中，那么我无法保证标签的开头和结尾位于同一行。

您建议什么解决方案？

最佳答案

使用JSoup解析内容

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);

关于Java:解析html文件并提取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16654995/

上一篇：java - DateUtils 使用哪个时区？

下一篇：java - 如果操作数是较小的类型，JLS 在哪里指定加法的结果是 int？

相关文章：

ruby - 如何在 ruby 中读取没有 quote_char 的 CSV？

Java : Convert string to Date

perl - 解析perl中的科学整数表示

java - List<List<String>> 是 Collection<Collection<T>> 的实例吗？

php - 解析 X509 证书

python - 将 Python 解析为实例列表

java - 使用 Bouncy CaSTLe 和 PDFBox 在 Java 中验证 PDF 签名

java - 关于finally block

java - selenium 服务器，selenium 客户端，在 UBUNTU GUI 服务器上

java - SAP Hybris : How to load app context in custom error page controller?