xml - XSLT - 适合任务吗?

标签 xml xslt parallel-processing transformation text-processing

我需要将一个巨大 XML 文档转换为多个 HTML 文档。 XML如下:

<society>
  <party_members>
    <member id="1" first_name="" last_name="O'Brien">
      <ministry_id>1</ministry_id>
      <ministry_id>3</ministry_id>
    </member>
    <member id="2" first_name="Julia" last_name="">
      <ministry_id>2</ministry_id>
    </member>
    <member id="3" first_name="Winston" last_name="Smith">
      <ministry_id>1</ministry_id>
    </member>
  </party_members>
  <ministries>
    <ministry>
      <id>1</id>
      <short_title>Minitrue</short_title>
      <long_title>Ministry of truth</long_title>
      <concerns>News, entertainment,education and arts </concerns>      
    </ministry>
    <ministry>
      <id>2</id>
      <short_title>Minipax</short_title>
      <long_title>Ministry of Peace</long_title>
      <concerns>War</concerns>
    </ministry>
    <ministry>
      <id>3</id>
      <short_title>Minilove</short_title>
      <long_title>Ministry of Love</long_title>
      <concerns>Dissidents</concerns>      
    </ministry>
  </ministries>
</society>

党员的潜在数量可能相当大 - 数百万,而部委的数量很少,大约 300-400。对于每个党员,应该有一个包含以下内容的输出 HTML:

<html>  
  <body>
    <h2>Party member: Winston Smith</h2>
    <h3>Works in:</h3>
    <div class="ministry">
      <h4>Ministry of truth</h4> - Minitrue
      <h5>Ministry of truth <i>concerns</i> itself with <i>News, entertainment,education and arts</i></h5>  
    </div>
  </body>
</html>

输出文件的数量应该==党员人数。

我现在正在为 XSLT 苦苦挣扎,但无法让它工作。

请帮助我确定 XSLT 是否是这项工作的好工具,如果是,请提示我如何实现它,应该使用什么 XSLT 构造等。

当然,我可以简单地用过程语言编写迷你转换,但我正在寻找一种“应用转换模板”方法,而不是为了能够处理模板而进行的过程解析和修改其他用户进行进一步修改(CSS、格式等)。

我使用的是 ruby​​ + nokogiri(这是一组对 libxslt 的绑定(bind)),但可以使用任何语言。

如果 XSTL 不适合这项任务,那么这里可以使用哪些其他工具,前提是我必须在几分钟内转换 ~1M 用户且内存消耗小?

额外的好处是能够并行处理。

谢谢。

最佳答案

使用纯 XSLT 1.0,您无法通过您似乎想要执行的单个转换来创建多个结果文档。为此,您需要使用 XSLT 2.0 处理器(如 Saxon 9 或 AltovaXML)和 XSLT 2.0 指令 [xsl:result-document][1] 或者您需要使用 XSLT 1.0 处理器(如 xsltproc/libxslt)它实现了 http://www.exslt.org/exsl/elements/document/index.html .如果您可以使用其中之一,那么 XSLT 非常适合您的任务。

[编辑] 分别用libxslt xsltproc 样式表代码如下

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  xmlns:exsl="http://exslt.org/common"
  exclude-result-prefixes="exsl"
  extension-element-prefixes="exsl"
  version="1.0">

<xsl:output method="html" indent="yes"/>

<xsl:key name="ministry-by-id" match="ministry" use="id"/>

<xsl:template match="/">
  <xsl:apply-templates select="society/party_members/member" mode="doc"/>
</xsl:template>

<xsl:template match="member" mode="doc">
  <exsl:document href="member{@id}.xml">
    <html>
      <body>
        <h2>Party member: <xsl:value-of select="concat(@first_name, ' ', @last_name)"/></h2>
        <h3>Works in</h3>
        <xsl:apply-templates select="key('ministry-by-id', ministry_id)"/>
      </body>
    </html>
  </exsl:document>
</xsl:template>

<xsl:template match="ministry">
  <div class="ministry">
    <h4><xsl:value-of select="long_title"/></h4>
    <h5><xsl:value-of select="long_title"/> <i>concerns</i> itself with <i><xsl:value-of select="concerns"/></i></h5>
  </div>
</xsl:template>

</xsl:stylesheet>

展示了如何使用 exsl:document 通过一次转换输出多个结果文档。它还使用 key 来提高性能。让我们知道该代码是否适用于您的大量输入数据。

关于xml - XSLT - 适合任务吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13067956/

相关文章:

Java Fork-Join 不适用于大型 ArrayList

xml - 是否可以使用 XSLT 翻转和旋转文本?

xml - 通过 xslt 将超链接添加到 excel 单元格

python - 同时运行多个模拟

python - 向通过 pool.map 调用的函数添加状态——如何避免酸洗错误

xslt 树状结构仅部分起作用

c++ - QXmlStreamReader读取空文本,文档肯定不为空

java - 写入 NFS 存储的文件有时会损坏

java - 将 XML 解析为 Java

mysql - 解析数据库中的元素并将其更改为 XML 文件