java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip?)访问给定文本文件行的最快方法

标签 java gzip text-files

我给出了 (5-7) 个大型 UTF8 文本文件 (7 MB)。在 unicode 中,它们的大小约为 15MB。

我需要加载给定文件的给定部分。这些文件是已知的,不会更改。我想尽快访问和加载给定位置的线路。我加载这些添加 HTML 标记的行并将它们显示在 JEditorPane 中。我知道瓶颈将由生成的 HTML 的 JEditorPane 呈现,但现在我想专注于文件访问性能。

此外,用户可以在所有文件中搜索给定的单词。

目前我使用的代码是:

private static void loadFile(String filename, int startLine, int stopLine) {
    try {
        FileInputStream fis = new FileInputStream(filename);                
        InputStreamReader isr = new InputStreamReader(fis, "UTF8");
        BufferedReader reader = new BufferedReader(isr);
        for (int j = startLine; j <= stopLine; j++) {
            //here I add HTML tags
            //or do string comparison in case of search by the user 
            sb.append(reader.readLine());
        }
        reader.close();
    } catch (FileNotFoundException e) {
        System.out.println(e);
    } catch (IOException e) {
        System.out.println(e);
    }
}

现在我的问题:

由于每个文件的部分数量是已知的,在我的例子中是 67 个(对于每个文件),我可以创建 67 个较小的文件。加载给定部分会“更快”,但当我进行搜索时会更慢,因为我必须打开 67 个文件中的每一个。

我没有做过基准测试,但我的感觉是,在搜索的情况下打开 67 个文件比加载文件的一部分时执行空 reader.readlines 的时间要长得多。

所以在我的情况下,最好有一个更大的文件。你同意吗?

如果我将每个大文件都放在资源中,我的意思是放在 Jar 文件中,性能会更差吗?如果是,性能会更差吗?

相关的问题是,如果我将每个文件压缩到备用大小会怎样。据我所知,Jar 文件只是一个 zip 文件。

我想我不知道解压缩是如何工作的。如果我压缩一个文件,该文件是否会在内存中解压缩,或者我的程序是否能够直接在磁盘上访问我需要的给定行。 Jar文件同样会在内存中解压。

如果解压缩不在内存中,有人可以编辑我的代码以使用 zip 文件。

最后一个问题,也是对我来说最重要的问题。如果一切都在内存中执行,我可以提高所有性能,但由于 unicode 和相当大的文件,这很容易导致超过 100MB 的内存堆。是否有可能将 zip 文件加载到内存中并对其进行处理。这会很快并且只使用很少的内存。

问题总结

  1. 就我而言,1 个大文件比大量小文件更好。

  2. 如果文件被压缩,解压缩过程 (GZipInputStream) 是否在内存中执行。是所有文件都解压在内存中然后访问还是可以直接在磁盘上访问。

  3. 如果问题 2 是"is",有人可以编辑我的代码以实现它吗?

  4. 最重要的是:是否可以将 zip 文件加载到内存中以及如何加载?

我希望我的问题足够清楚。 ;-)

更新:感谢 Mike 的 getResourceAsStream 提示,我让它工作了

请注意,基准测试表明加载 Gzip 文件是高效的,但在大多数情况下速度太慢。

gzip 文件大约 200 毫秒 标准文件约为 125 毫秒,因此快了 1.6 倍。

假设资源文件夹名为resources

private static void loadFile(String filename, int startLine, int stopLine) {
    try {                           
        GZIPInputStream zip = new GZIPInputStream(this.class.getResourceAsStream("resources/"+filename));            
        InputStreamReader isr = new InputStreamReader(zip, "UTF8");
        BufferedReader reader = new BufferedReader(isr);
        for (int j = startLine; j <= stopLine; j++) {
            //here I add HTML tags
            //or do string comparison in case of search by the user 
            sb.append(reader.readLine());
        }
        reader.close();
    } catch (FileNotFoundException e) {
        System.out.println(e);
    } catch (IOException e) {
        System.out.println(e);
    }
}

最佳答案

如果文件确实不经常更改,我会建议使用其他一些数据结构。创建所有出现的单词和位置的哈希表将使搜索速度更快,创建所有行起始位置的索引将使该过程更快。

但是,更直接地回答您的问题:

  1. 是的,一个大文件可能仍然比许多小文件好,我怀疑与打开许多文件或解压缩许多文件相比,从 UTF8 读取一行并解码是否会很明显。

    <
  2. 是的,解压缩过程是在内存中即时执行的。它在您请求数据时发生,但充当缓冲流,它会一次解压缩整个 block ,因此实际上非常高效。

  3. 我无法直接修复您的代码,但我可以建议查找 getResourceAsStream: http://docs.oracle.com/javase/6/docs/api/java/lang/Class.html#getResourceAsStream%28java.lang.String%29 此函数将打开一个 zip/jar 文件中的文件,并让您以流的形式访问它,并在您使用它时自动将其解压缩到内存中。

  4. 如果您将它视为一种资源,java 会为您完成这一切,您将不得不阅读处理资源的一些细节,但 java 应该公平地处理它聪明地。

关于java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip?)访问给定文本文件行的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8914135/

相关文章:

iis-7 - 静态内容未从 IIS7 压缩到 IE9

java - 使用 line.Split 创建带有文本文件的自定义二维数组 Tile Map 会出现空异常错误

javascript - 为什么我的 javascript 文件有时压缩有时不压缩?(IIS Gzip 问题)

json - gzip json 与高效二进制序列化的性能

c - 如何在C上打开用户输入的文本文件

c - 文本文件到排序的二进制文件,C 语言

java - MVC注解 Spring MVC <mvc :annotation-driven/>

java - Android 中 jcraft jsch SFTP 库的 ClassNotFound 异常

java - Android onBackPressed 适用于所有 Activity

java - Apache Camel : Discarding Split Processors When Complete