java - 使用 Java 拆分 1GB Xml 文件

标签 java xml

我有一个 1GB 的 Xml 文件,我如何使用 Java 将它拆分为格式正确、大小更小的 Xml 文件?

这是一个例子:

<records>
  <record id="001">
    <name>john</name>
  </record>
 ....
</records>

谢谢。

最佳答案

对于这种情况,我会使用 StAX 解析器。它将防止整个文档被一次读入内存。

  1. 将 XMLStreamReader 推进到子片段的本地根元素。
  2. 然后您可以使用 javax.xml.transform API 从这个 XML 片段生成一个新文档。这会将 XMLStreamReader 推进到该片段的末尾。
  3. 对下一个片段重复步骤 1。

代码示例

对于以下 XML,将每个“语句”部分输出到以“帐户属性值”命名的文件中:

<statements>
   <statement account="123">
      ...stuff...
   </statement>
   <statement account="456">
      ...stuff...
   </statement>
</statements>

这可以通过以下代码完成:

import java.io.File;
import java.io.FileReader;
import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamConstants;
import javax.xml.stream.XMLStreamReader;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.stax.StAXSource;
import javax.xml.transform.stream.StreamResult;

public class Demo {

    public static void main(String[] args) throws Exception  {
        XMLInputFactory xif = XMLInputFactory.newInstance();
        XMLStreamReader xsr = xif.createXMLStreamReader(new FileReader("input.xml"));
        xsr.nextTag(); // Advance to statements element

        TransformerFactory tf = TransformerFactory.newInstance();
        Transformer t = tf.newTransformer();
        while(xsr.nextTag() == XMLStreamConstants.START_ELEMENT) {
            File file = new File("out/" + xsr.getAttributeValue(null, "account") + ".xml");
            t.transform(new StAXSource(xsr), new StreamResult(file));
        }
    }

} 

关于java - 使用 Java 拆分 1GB Xml 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5169978/

相关文章:

javascript - 使用变量名查找 xml 属性值

java - 我的 R.java 文件无法重新生成(Clean 方法)

java - 使用 Maven 命令执行特定的 JUnit 测试用例

java - 为什么在 JSP 中需要 pageContext?

javascript - 正则表达式删除标记Notepad++内的特定文本

ruby-on-rails - ebay BulkDataExchangeRequests API XML - 缺少 UUID

xml - 如何使用 XStream 框架对 UTF-8 进行编码?

java - HttpRequestException : Could Not Head warning in Android Studio 3. 1.1(但同步成功)

java - ImageMetadataReader.readMetadata(file) 缺少数据

java - 在一个位置有一个访问数据库文件,以便它可以在开发和分发时使用