java - 如何使用 Jericho HTML 解析器获取特定标签之间的文本和其他标签?

标签 java html-parsing jericho-html-parser

我有一个包含特定标签的 HTML 文件,例如<TABLE cellspacing=0>结束标签是</TABLE> .现在我想获取这些标签之间的所有内容。我在 Java 中使用 Jericho HTML 解析器来解析 HTML。是否可以获取 Jericho 解析器中特定标签之间的文本和其他标签?

例如:

<TABLE  cellspacing=0>    
  <tr><td>HELLO</td>  
  <td>How are you</td></tr>
</TABLE>

回答:

<tr><td>HELLO</td>  
<td>How are you</td></tr> 

最佳答案

一旦找到表的元素,您所要做的就是调用 getContent().toString()。下面是一个使用示例 HTML 的简单示例:

Source source = new Source("<TABLE  cellspacing=0>\n" +
    "  <tr><td>HELLO</td>  \n" +
    "  <td>How are you</td></tr>\n" +
    "</TABLE>");

Element table = source.getFirstElement();
String tableContent = table.getContent().toString();

System.out.println(tableContent);

输出:

    <tr><td>HELLO</td>  
    <td>How are you</td></tr>

关于java - 如何使用 Jericho HTML 解析器获取特定标签之间的文本和其他标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5625888/

相关文章:

java - 环境变量不适用于 64 位单独

java - VisualVM内存采样: Not available with websphere

java - GWT:显示作为 POST 响应创建的 PDF

python - 在 BeautifulSoup 中扩展 CSS 选择器

python - 用 beautifulsoup 中的链接拆分一个逗号分隔的列表

java - 使用java查找html页面内容中元素的xpath

java - Pretty print ("indentation-only") Java 中的 HTML 文档(无 JTidy)

java - 直接文件路径不起作用

python - 使用 BeautifulSoup 解析嵌套的 HTML 列表