java sax 解析器破坏 xml 1.1 的属性

我正在使用 java 的 sax 类来解析 xml 文件。如果 xml 文件是 1.0 版，一切正常，但如果是 1.1 版，一些属性会被破坏，给我错误的结果，但不会抛出任何异常。

我的 xml 文件基本上是这样的:

<?xml version="1.1" encoding="UTF-8" ?>
<gpx>
  <trk>
    <name>Name of the track</name>
    <trkseg>
      <trkpt lat="12.3456789" lon="1.2345678">
        <ele>1234</ele>
        <time>2013-03-26T12:34:56Z</time>
        <speed>0</speed>
      </trkpt>
      ... and then 419 further identical copies of this trkpt
    </trkseg>
  </trk>
</gpx>

因此，当我使用 sax 解析此文件时，我希望找到 420 个 trkpt 标签，并且每个标签都具有 lat 和 lon 属性。特别是，我希望找到 420 个“lat”属性，它们都是“12.3456789”。

为了解析，我构造了一个处理程序对象并将其提供给此本地文件的流:

SAXParser saxParser = SAXParserFactory.newInstance().newSAXParser();
inStream = new FileInputStream(file);
saxParser.parse(inStream, handler);
System.out.println("done");

处理程序类扩展 org.xml.sax.helpers.DefaultHandler 并且只有一个方法 startElement 来响应 trkpt 标签的打开:

public void startElement(String uri, String localName, String qName, Attributes attributes)
{
    if (qName.equals("trkpt") && attributes != null
        && attributes.getLength() == 2
        && attributes.getValue(0).charAt(0) != '1')
    {
        // The trkpt tag has two attributes
        // but the value of the first one doesn't begin with '1'
        System.out.println(attributes.getQName(0) + " = " + attributes.getValue(0));
    }
    super.startElement(uri, localName, qName, attributes);
}

那么结果呢？如果 xml 文件的版本是 1.0，那么我所看到的就是“完成”。找到了 420 个 trkpt 标签，它们都有两个属性，第一个总是称为“lat”，这个属性的值总是以“1”开头，正如我所料。太棒了!

如果将 xml 文件更改为在第一行指定 version="1.1"，那么我会得到以下输出:

lat = :34.56Z</t
lat = :56Z</time
done

所以即使我所有的 420 点应该是相同的，但其中有两个给了我一个完全错误的属性值。没有异常被抛出。仍然找到了 420 个 trkpt，并且都有两个属性，称为“lat”和“lon”。奇怪的是，lon 值总是正常的。

我通过直接复制/粘贴第一个 trkpt 在文本编辑器中创建了这个 xml 文件，所以我确定所有值都是相同的，我确定 xml 文件中没有具有有趣属性值的点，并且我确定文件中没有非 ascii 字符值或实体代码或任何其他奇怪的内容。

我已经在具有两个不同操作系统的三台不同机器上使用 Sun 的 JRE6、OpenJDK6 和 OpenJDK7 进行了尝试。所以要么我做错了什么，要么这个特定的 xml 文件以某种方式与 xml1.1 不兼容，要么存在一个普遍存在的 sax 错误(这似乎不太可能，因为我预计它会影响很多人)。再次请注意，使用 xml1.0 一切正常。还要注意，数字 420 没有什么特别之处，只是如果文件只有 100 个条目，那么它们都会被正确解析。如果您有几千个条目，那么其中一定数量的第一个属性值会以这种方式被破坏。属性值的长度似乎总是正确的，但它从文件中的错误位置拉出字符。索引溢出？

我尝试删除所有速度标签，但如果您有足够的 trkpts，问题仍然存在。它对额外的空格也很敏感，所以如果我在 trkpts 之间添加换行符，问题会出现在不同的点或返回不同的属性值。

最佳答案

此错误已在 JDK XML 解析器中存在多年，Sun 和 Oracle 都没有表现出任何修复它的兴趣。我强烈建议优先使用 Apache Xerces XML 解析器。

关于java sax 解析器破坏 xml 1.1 的属性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15634536/

java sax 解析器破坏 xml 1.1 的属性

上一篇：XML 转换 - XSL 模板匹配多个条件

下一篇：c# - 将具有多个 namespace 的 XML 反序列化为对象