我正在做与解析大量文本文件有关的事情,并且正在测试要使用的输入法。
使用 c++ std::ifstreams 与 c FILE 没有太大区别,
根据zlib的文档,它支持解压文件,无需解压即可读取文件。
我看到使用非 zlib 的 12 秒与使用 zlib.h 的 4 多分钟之间的差异
这我已经测试过多次运行,所以它不是磁盘缓存问题。
我是否以错误的方式使用了 zlib?
谢谢
#include <zlib.h>
#include <cstdio>
#include <cstdlib>
#include <fstream>
#define LENS 1000000
size_t fg(const char *fname){
fprintf(stderr,"\t-> using fgets\n");
FILE *fp =fopen(fname,"r");
size_t nLines =0;
char *buffer = new char[LENS];
while(NULL!=fgets(buffer,LENS,fp))
nLines++;
fprintf(stderr,"%lu\n",nLines);
return nLines;
}
size_t is(const char *fname){
fprintf(stderr,"\t-> using ifstream\n");
std::ifstream is(fname,std::ios::in);
size_t nLines =0;
char *buffer = new char[LENS];
while(is. getline(buffer,LENS))
nLines++;
fprintf(stderr,"%lu\n",nLines);
return nLines;
}
size_t iz(const char *fname){
fprintf(stderr,"\t-> using zlib\n");
gzFile fp =gzopen(fname,"r");
size_t nLines =0;
char *buffer = new char[LENS];
while(0!=gzgets(fp,buffer,LENS))
nLines++;
fprintf(stderr,"%lu\n",nLines);
return nLines;
}
int main(int argc,char**argv){
if(atoi(argv[2])==0)
fg(argv[1]);
if(atoi(argv[2])==1)
is(argv[1]);
if(atoi(argv[2])==2)
iz(argv[1]);
}
最佳答案
我猜你正在使用 zlib-1.2.3。在这个版本中,gzgets() 实际上是为每个字节调用 gzread()。以这种方式调用 gzread() 有很大的开销。您可以比较一次调用 gzread(gzfp, buffer, 4096) 和调用 gzread(gzfp, buffer, 1) 4096 次的 CPU 时间。结果是一样的,但 CPU 时间却大不相同。
你应该做的是为 zlib 实现缓冲 I/O,通过一次 gzread() 调用读取一个 block 中的 ~4KB 数据(就像 fread() 对 read() 所做的一样)。据说最新的 zlib-1.2.5 在 gzread/gzgetc/.... 上有显着改进。你也可以试试。由于是最近发布的,我还没有亲自尝试过。
编辑:
我刚刚试过zlib-1.2.5。 1.2.5 中的 gzgetc 和 gzgets 比 1.2.3 中的快得多。
关于c++ - zlib gzgets 非常慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2832485/