java - 读取 gz 文件并跟踪文件中的位置

标签 java io

所以,情况是这样的:

我必须阅读大的 .gz 文件 (GB) 并对它们进行某种“索引”,以便以后能够使用随机访问检索特定片段。 换句话说,我希望逐行读取存档,并能够获取任何此类行在文件中的具体位置。 (以便我可以根据要求直接跳转到这些特定位置)。 (PS:...而且它是 UTF-8,所以我们不能假设 1 个字节 == 1 个字符。)

所以,基本上,我只需要一个 BufferedReader 来跟踪它在文件中的位置。然而,这似乎并不存在。

有什么可用的吗?还是我必须自己动手?

一些补充意见:

  • 我不能直接使用 BufferedReader,因为文件位置与目前缓冲的内容相对应。换句话说,内部缓冲区大小的倍数而不是行位置。
  • 出于性能原因,我不能直接使用 InputStreamReader。无缓冲会减慢速度,顺便说一句,缺少读取行的便捷方法。
  • 我不能使用 RandomAccessFile,因为 1. 它是压缩的,并且 2. RandomAccessFile 使用“修改过的”UTF-8

我想最好的办法是使用一种缓冲读取器来跟踪文件位置和缓冲区偏移量……但这听起来很麻烦。但也许我错过了什么。也许已经有一些东西可以做到这一点,逐行读取文件并跟踪位置(即使压缩)。

感谢您的提示,

阿诺

最佳答案

我认为jzran可能正是您要找的东西:

It's a Java library based on the zran.c sample from zlib.

You can preprocess a large gzip archive, producing an "index" that can be used for random read access.

You can balance between index size and access speed.

关于java - 读取 gz 文件并跟踪文件中的位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5210588/

相关文章:

java - 从 PDF 中提取的图像水平碎片化

java - 安卓自动拒接来电

c - 如何正确使用 EOF?

python - 读取所有子目录中的wav文件

python - 用python锁定txt文件

java - 如何将 JSF InputText 值传递给 ajax 监听器

java - 如何在 spring cloud contract stub 上获取服务状态

bash - 相当于 `getrusage()` 的命令行

java - 链接多个 CompletableFuture 时加括号的正确方法是什么?

java - 如何在具有写权限的 Java 中获取原始磁盘访问权限 - Windows 7