c++ - zlib gzgets 非常慢?

标签 c++ c text zlib

我正在做与解析大量文本文件有关的事情,并且正在测试要使用的输入法。

使用 c++ std::ifstreams 与 c FILE 没有太大区别,

根据zlib的文档,它支持解压文件,无需解压即可读取文件。

我看到使用非 zlib 的 12 秒与使用 zlib.h 的 4 多分钟之间的差异

这我已经测试过多次运行,所以它不是磁盘缓存问题。

我是否以错误的方式使用了 zlib?

谢谢

#include <zlib.h>
#include <cstdio>
#include <cstdlib>
#include <fstream>
#define LENS 1000000


size_t fg(const char *fname){
  fprintf(stderr,"\t-> using fgets\n");
  FILE *fp =fopen(fname,"r");
  size_t nLines =0;
  char *buffer = new char[LENS];
  while(NULL!=fgets(buffer,LENS,fp))
    nLines++;

  fprintf(stderr,"%lu\n",nLines);
  return nLines;
}

size_t is(const char *fname){
  fprintf(stderr,"\t-> using ifstream\n");
  std::ifstream is(fname,std::ios::in);
  size_t nLines =0;
  char *buffer = new char[LENS];
  while(is. getline(buffer,LENS))
    nLines++;

  fprintf(stderr,"%lu\n",nLines);
  return nLines;
}

size_t iz(const char *fname){
  fprintf(stderr,"\t-> using zlib\n");
  gzFile fp =gzopen(fname,"r");
  size_t nLines =0;
  char *buffer = new char[LENS];
  while(0!=gzgets(fp,buffer,LENS))
    nLines++;

  fprintf(stderr,"%lu\n",nLines);
  return nLines;
}

int main(int argc,char**argv){
  if(atoi(argv[2])==0)
    fg(argv[1]);
  if(atoi(argv[2])==1)
    is(argv[1]);
  if(atoi(argv[2])==2)
    iz(argv[1]);

}

最佳答案

我猜你正在使用 zlib-1.2.3。在这个版本中,gzgets() 实际上是为每个字节调用 gzread()。以这种方式调用 gzread() 有很大的开销。您可以比较一次调用 gzread(gzfp, buffer, 4096) 和调用 gzread(gzfp, buffer, 1) 4096 次的 CPU 时间。结果是一样的,但 CPU 时间却大不相同。

你应该做的是为 zlib 实现缓冲 I/O,通过一次 gzread() 调用读取一个 block 中的 ~4KB 数据(就像 fread() 对 read() 所做的一样)。据说最新的 zlib-1.2.5 在 gzread/gzgetc/.... 上有显着改进。你也可以试试。由于是最近发布的,我还没有亲自尝试过。

编辑:

我刚刚试过zlib-1.2.5。 1.2.5 中的 gzgetc 和 gzgets 比 1.2.3 中的快得多。

关于c++ - zlib gzgets 非常慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2832485/

相关文章:

javascript - gif动画结束时显示文字

c# - decimal.Parse 中接受的小数的正则表达式

c++ - 线程在完成执行代码之前在动态库中中止

c++ - OpenMP 和 STL vector

c++ - 如何更改 QProgressBar 文本的颜色及其值?

c - 插入排序代码使用insert和insertsort!

c - 获取指向 char 指针的指针数组的地址

c++ - 分割大量文本数据的算法

c - 在 O(N) 中找到 m 个最小元素的数据结构?

text - d3 尝试选择 svg 文本元素中的文本