java - 排序大数据 XML 文件

标签 java xml bigdata

我有一个压缩大小约为 100 GB(未压缩 1 TB)的 XML 文件。该文件包含约 1 亿个条目,方式如下:

<root>
  <entry>
    <id>1234</id>
     ...
  </entry>
  <entry>
    <id>1230</id>
    ...
  </entry
</root>

我想按 id 对这个文件进行排序。这样做的好方法是什么?

顺便说一句,我可以使用 16 核和 128 GB RAM 的机器。

最佳答案

你可以考虑使用像 Saxon 这样的流处理器 http://www.saxonica.com/html/documentation/sourcedocs/streaming/并使用 XSLT 进行排序。

另一种选择可能是将数据作为键和值存储在数据库中,使用 SQL 对它们进行排序并重新创建 XML。您将利用数据库的强大功能来管理大量数据。

类似问题(不相同):Sort multigigabyte xml file

关于java - 排序大数据 XML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39109032/

相关文章:

java - 如何膨胀子布局

java - HBase Java 上的限制命令

java - JDBC 更新未显示错误但不起作用?

java - 如果我有多个线程要插入MySQL,我是否需要同步?

java - 全屏DialogFragment不适合屏幕

java - 如何制作固定的XML布局?

hadoop - Apache Spark S3 错误

java - 排序的 Hadoop WordCount Java

java - 由于 int 数据赋值中的逻辑错误而打印零值

java - 在 Java Spring 中是否可以使用两个 Controller 类和一个 URI?