我想从此示例 html 中提取项目,更具体地说,我想隔离以下项目: 阿尔格普1, 生产 50733 GEN_APPL 坎图尔
<table width="95%" border="1">
<tr><td colspan=3><a name="algp1"></a><img src="menu/db2inst.jpg"> <font color="#FF0000" size="+1">algp1</font> (PRODUCTION, 50733)</td></tr>
<tr><td width="20%" valign=top><a name="GENAPPLP"></a><img src="menu/db2db.jpg"><font color="#00CC00"><b> GEN_APPL</font></b><br>(GENAPPLP)</td><td width="15%" valign=top>PARK</td><td width="70%" valign=top><font size="2">BOOKINGCARPARKING‚ CUSTOMERS‚ </font></td></tr>
<tr><td width="20%" valign=top></td><td width="15%" valign=top>RDC</td><td width="70%" valign=top><font size="2">DBREL_SCHEMA_RDCPROJECT‚ DBVERSION‚ </font></td></tr>
<tr><td width="20%" valign=top><a name="KANTOORP"></a><img src="menu/db2db.jpg"><font color="#00CC00"><b> KANTOOR</font></b><br>(KANTOORP)</td><td width="15%" valign=top>CDDB</td><td width="70%" valign=top><font size="2">BATIMENTS‚ BATIMENTS_EXC‚ OFFICES‚ OFFICES_EXC‚ RECETTES‚ RECETTES_EXC‚ </font></td></tr>
<tr><td width="20%" valign=top></td><td width="15%" valign=top>IDR</td><td width="70%" valign=top><font size="2">ADMINISTRATION‚ ADMINISTRATION_EXC‚ ARROND‚ ARROND_EXC‚ BUREAU‚ BUREAU_EXC‚ CODEX‚ CODEX_EXC‚ COMMUNE‚ COMMUNE_EXC‚ COMPETENCE‚ COMPETENCE_EXC‚ COMPTE‚ COMPTE_EXC‚ LNKBCC‚ LNKBCC_EXC‚ LNKBCI‚ LNKBCI_EXC‚ LNKBPC‚ LNKBPC_EXC‚ LNKBS‚ LNKBS_EXC‚ LNKCBRR‚ LNKCBRR_EXC‚ LNKCS‚ LNKCS_EXC‚ MAP_CP_BUREAU‚ PAYS‚ PAYS_EXC‚ PROVINCE‚ PROVINCE_EXC‚ RANGE_RUE‚ RANGE_RUE_EXC‚ REGION‚ REGION_EXC‚ RUE‚ RUE_EXC‚ SERVICE‚ SERVICE_EXC‚ TPCODEX‚ TPCODEX_EXC‚ TPCOMPTE‚ TPCOMPTE_EXC‚ </font></td></tr>
<tr><td width="20%" valign=top></td><td width="15%" valign=top>RDC</td><td width="70%" valign=top><font size="2">DBREL_SCHEMA_RDCPROJECT‚ DBVERSION‚ </font></td></tr>
</table>
最佳答案
查看JTidy 。它将解析 HTML 并为您提供一个可迭代的 DOM 接口(interface)。
我强烈建议除了最简单的情况之外的所有情况都不要使用正则表达式。 HTML 不是常规的,并且有无数的边缘情况会让您陷入困境。
关于java - 使用正则表达式从 html 中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1409976/