java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip？)访问给定文本文件行的最快方法

我给出了 (5-7) 个大型 UTF8 文本文件 (7 MB)。在 unicode 中，它们的大小约为 15MB。

我需要加载给定文件的给定部分。这些文件是已知的，不会更改。我想尽快访问和加载给定位置的线路。我加载这些添加 HTML 标记的行并将它们显示在 JEditorPane 中。我知道瓶颈将由生成的 HTML 的 JEditorPane 呈现，但现在我想专注于文件访问性能。

此外，用户可以在所有文件中搜索给定的单词。

目前我使用的代码是:

private static void loadFile(String filename, int startLine, int stopLine) {
    try {
        FileInputStream fis = new FileInputStream(filename);                
        InputStreamReader isr = new InputStreamReader(fis, "UTF8");
        BufferedReader reader = new BufferedReader(isr);
        for (int j = startLine; j <= stopLine; j++) {
            //here I add HTML tags
            //or do string comparison in case of search by the user 
            sb.append(reader.readLine());
        }
        reader.close();
    } catch (FileNotFoundException e) {
        System.out.println(e);
    } catch (IOException e) {
        System.out.println(e);
    }
}

现在我的问题:

由于每个文件的部分数量是已知的，在我的例子中是 67 个(对于每个文件)，我可以创建 67 个较小的文件。加载给定部分会“更快”，但当我进行搜索时会更慢，因为我必须打开 67 个文件中的每一个。

我没有做过基准测试，但我的感觉是，在搜索的情况下打开 67 个文件比加载文件的一部分时执行空 reader.readlines 的时间要长得多。

所以在我的情况下，最好有一个更大的文件。你同意吗？

如果我将每个大文件都放在资源中，我的意思是放在 Jar 文件中，性能会更差吗？如果是，性能会更差吗？

相关的问题是，如果我将每个文件压缩到备用大小会怎样。据我所知，Jar 文件只是一个 zip 文件。

我想我不知道解压缩是如何工作的。如果我压缩一个文件，该文件是否会在内存中解压缩，或者我的程序是否能够直接在磁盘上访问我需要的给定行。 Jar文件同样会在内存中解压。

如果解压缩不在内存中，有人可以编辑我的代码以使用 zip 文件。

最后一个问题，也是对我来说最重要的问题。如果一切都在内存中执行，我可以提高所有性能，但由于 unicode 和相当大的文件，这很容易导致超过 100MB 的内存堆。是否有可能将 zip 文件加载到内存中并对其进行处理。这会很快并且只使用很少的内存。

问题总结

就我而言，1 个大文件比大量小文件更好。
如果文件被压缩，解压缩过程 (GZipInputStream) 是否在内存中执行。是所有文件都解压在内存中然后访问还是可以直接在磁盘上访问。
如果问题 2 是"is"，有人可以编辑我的代码以实现它吗？
最重要的是:是否可以将 zip 文件加载到内存中以及如何加载？

我希望我的问题足够清楚。 ;-)

更新:感谢 Mike 的 getResourceAsStream 提示，我让它工作了

请注意，基准测试表明加载 Gzip 文件是高效的，但在大多数情况下速度太慢。

gzip 文件大约 200 毫秒标准文件约为 125 毫秒，因此快了 1.6 倍。

假设资源文件夹名为resources

private static void loadFile(String filename, int startLine, int stopLine) {
    try {                           
        GZIPInputStream zip = new GZIPInputStream(this.class.getResourceAsStream("resources/"+filename));            
        InputStreamReader isr = new InputStreamReader(zip, "UTF8");
        BufferedReader reader = new BufferedReader(isr);
        for (int j = startLine; j <= stopLine; j++) {
            //here I add HTML tags
            //or do string comparison in case of search by the user 
            sb.append(reader.readLine());
        }
        reader.close();
    } catch (FileNotFoundException e) {
        System.out.println(e);
    } catch (IOException e) {
        System.out.println(e);
    }
}

最佳答案

如果文件确实不经常更改，我会建议使用其他一些数据结构。创建所有出现的单词和位置的哈希表将使搜索速度更快，创建所有行起始位置的索引将使该过程更快。

但是，更直接地回答您的问题:

是的，一个大文件可能仍然比许多小文件好，我怀疑与打开许多文件或解压缩许多文件相比，从 UTF8 读取一行并解码是否会很明显。
<
是的，解压缩过程是在内存中即时执行的。它在您请求数据时发生，但充当缓冲流，它会一次解压缩整个 block ，因此实际上非常高效。
我无法直接修复您的代码，但我可以建议查找 getResourceAsStream: http://docs.oracle.com/javase/6/docs/api/java/lang/Class.html#getResourceAsStream%28java.lang.String%29 此函数将打开一个 zip/jar 文件中的文件，并让您以流的形式访问它，并在您使用它时自动将其解压缩到内存中。
如果您将它视为一种资源，java 会为您完成这一切，您将不得不阅读处理资源的一些细节，但 java 应该公平地处理它聪明地。

关于java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip？)访问给定文本文件行的最快方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8914135/

java - 使用和不使用 GZip 和 Jar 文件(内存中的 GZip？)访问给定文本文件行的最快方法

上一篇：java - Eclipse bin文件夹位置

下一篇：java - Java 中的重力模拟器