html - 我可以使用 XSLT 解析 HTML 吗?

标签 html xslt parsing

我必须解析一个大的 HTML 文件,而我只对一小部分(表格)感兴趣。 因此,我考虑使用 XSLT 以更简单的方式简化/转换 HTML,然后我可以轻松处理。

我遇到的问题是找不到我的 table 。所以我不知道是否可以使用 XSL 样式表解析 HTML。

顺便说一下,HTML 文件看起来是这样的(原理图,缺少标签):

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html id="ctl00_htmlDocumento" xmlns="http://www.w3.org/1999/xhtml" lang="es-ES" xml:lang="es-ES">
<div> some content </div>
<div class="NON_IMPORTANT"></div>
<div class="IMPORTANT_FATHER>
    <div class="IMPORTANT">
        <table>
            HERE IS THE DATA IM LOOKING FOR
        </table>
    </div>
</div>

根据要求,这是我的xsl

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
    <xsl:template match="tbody">
        tbody found, lets process it
    <xsl:for-each select="tr">
        new tf found, lets process it
    </xsl:for-each>
    </xsl:template>

</xsl:stylesheet>

完整的 HTML 相当大,所以我不知道如何在这里展示它...我已经在 Oxygen 上测试了有效文档,它说它有效。

提前致谢。 贡索

最佳答案

您没有在 match 属性中正确使用 XPath。您需要 xsl:stylesheet 元素中的 xmlns:xhtml="http://www.w3.org/1999/xhtml" 属性,然后您需要在您的 XPath 表达式中使用 xhtml: 前缀(您需要一个前缀;XPath 不遵守默认 namespace )。

在此之后,您仍然会遇到它也会处理其他所有内容的问题。我不知道是否有更好的解决方案,但我认为您需要明确处理指向 tbody 元素的路径,例如

<xsl:template match="xhtml:html">
  <xsl:apply-templates select="xhtml:body"/>
</xsl:template>

对于 body 也是如此,直到你到达你的 tbody 匹配。

XPath 还支持比上面的特定子项更复杂的匹配。例如,匹配第三个子 div 标签可以用

<xsl:template match="xhtml:div[3]">

并将具有特定属性的元素与

匹配
<xsl:template match="xhtml:div[@class='IMPORTANT']">

这里的 [] 包含一个额外的条件,需要满足该条件才能将元素视为匹配项。普通数字意味着对匹配项进行索引并仅采用具有该索引的匹配项(索引从 1 开始),@ 符号位于属性之前,但您可以在其中包含任意复杂的 XPath , 因此您几乎可以匹配您想要的任何子结构。

关于html - 我可以使用 XSLT 解析 HTML 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1639625/

相关文章:

parsing - 解析输入并执行操作

javascript - 在 "area-tag"上结合 jquery 和 css

html - 试图在图像旁边堆叠一个 <aside>

html - 浏览器放大/缩小与不同屏幕尺寸相同吗?

xml - xsl :sort with imperial measurements

xslt - 使用 XSLT 1.0 输出多个 namespace 定义

xml - 匹配 XSL 中的子元素

JavaScript 不适用于隐藏和显示文本框

android - 如何使用 Jsoup 解析 <div class ="name"> 中的文本?

bash - 如何按 "blocks"文本拆分解析的文本?