所以,情况是这样的:
我必须阅读大的 .gz 文件 (GB) 并对它们进行某种“索引”,以便以后能够使用随机访问检索特定片段。 换句话说,我希望逐行读取存档,并能够获取任何此类行在文件中的具体位置。 (以便我可以根据要求直接跳转到这些特定位置)。 (PS:...而且它是 UTF-8,所以我们不能假设 1 个字节 == 1 个字符。)
所以,基本上,我只需要一个 BufferedReader 来跟踪它在文件中的位置。然而,这似乎并不存在。
有什么可用的吗?还是我必须自己动手?
一些补充意见:
- 我不能直接使用 BufferedReader,因为文件位置与目前缓冲的内容相对应。换句话说,内部缓冲区大小的倍数而不是行位置。
- 出于性能原因,我不能直接使用 InputStreamReader。无缓冲会减慢速度,顺便说一句,缺少读取行的便捷方法。
- 我不能使用 RandomAccessFile,因为 1. 它是压缩的,并且 2. RandomAccessFile 使用“修改过的”UTF-8
我想最好的办法是使用一种缓冲读取器来跟踪文件位置和缓冲区偏移量……但这听起来很麻烦。但也许我错过了什么。也许已经有一些东西可以做到这一点,逐行读取文件并跟踪位置(即使压缩)。
感谢您的提示,
阿诺
最佳答案
我认为jzran可能正是您要找的东西:
It's a Java library based on the zran.c sample from zlib.
You can preprocess a large gzip archive, producing an "index" that can be used for random read access.
You can balance between index size and access speed.
关于java - 读取 gz 文件并跟踪文件中的位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5210588/