我有一个像这样的字符串(由 HTML 源代码制成):
<tr>
<td>
<tr>First</tr>
</td>
</tr>
<tr>
<td>Second</td>
</tr>
<tr>
<td>
<tr>
<td>Upper</td>
</tr>
<tr>
<td>Lower</td>
</tr>
</td>
</tr>
但在一行中 - 我将其分开以使其看起来更好。 我想要实现的是一个正则表达式,它将捕获该表的整行,因此匹配项是:
<td>
<tr>First</tr>
</td>
,
<td>Second</td>
,
<td>
<tr>
<td>Upper</td>
</tr>
<tr>
<td>Lower</td>
</tr>
</td>
最简单的选项:
-
<tr>.*</tr>
- 捕捉一切 -
<tr>.*?</tr>
- 从第一次捕获<tr>
到第一个</tr>
.
我希望它捕获相应的标签。有人可以帮忙吗?
最佳答案
您可以使用html解析引擎jsoup并运行类似的操作从表中提取行
String url = "a.html";
Document doc = Jsoup.connect(url).get();
Elements rows = doc.select("table tr");
关于Java正则表达式复杂模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17087084/