java - 从 html 页面中提取元素的最佳方法?

标签 java html regex

用 Java 从 HTML 页面中提取元素的首选方法是什么?

我的 HTML 包含以下许多行:

<tr class="item-odd">
       <td class="data"><a href="http://.....">TITLE</a></td>
       <td><div class="cost">$1.99</div></td>
</tr>

该类交替使用 item-odditem-even。

我需要提取:

  1. 网址
  2. 职位
  3. 价格

正则表达式是正确的选择吗?

最佳答案

我会使用像 HTML Parser 这样的库为了这份工作。看看 samples和/或 javadoc .也看看 previous questions在这里。

HTML Parser非常易于使用,应该可以胜任。对于替代方案,请查看此 previous answer .

关于java - 从 html 页面中提取元素的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2016959/

相关文章:

php - 如何使用 php preg_split 从字符串中获取除括号之外的所有内容?

Javascript全局字符串替换为数组中的不同元素?

java - 具有多态泛型的映射

html - Bootstrap 页脚覆盖内容

html - 展开 float 元素后的空白

javascript - 如何从单个文本框中获取多个值并将其存储在数组中并将其存储在数据库中

PHP 正则表达式替换

java - 使用 application.properties 在 Spring 中配置枚举

java - 从 Microsoft CRM 2011 Online 检索多个帐户

java - 通过 scala 实现 docker pull 的自动化