c - 使用 OpenMP 并行化 while 循环

标签 c while-loop parallel-processing openmp

我有一个非常大的数据文件,这个数据文件中的每条记录有 4 行。我写了一个非常简单的 C 程序来分析这种类型的文件并打印出一些有用的信息。该程序的基本思想是这样的。

int main()
{
  char buffer[BUFFER_SIZE];
  while(fgets(buffer, BUFFER_SIZE, stdin))
  {
    fgets(buffer, BUFFER_SIZE, stdin);
    do_some_simple_processing_on_the_second_line_of_the_record(buffer);
    fgets(buffer, BUFFER_SIZE, stdin);
    fgets(buffer, BUFFER_SIZE, stdin);
  }
  print_out_result();
}

这当然遗漏了一些细节(完整性/错误检查等),但这与问题无关。

程序运行良好,但我正在处理的数据文件很大。我想我会尝试通过使用 OpenMP 并行化循环来加速程序。不过,经过一番搜索后,OpenMP 似乎只能处理预先知道迭代次数的 for 循环。由于我事先不知道文件的大小,甚至像 wc -l 这样的简单命令也需要很长时间才能运行,我该如何并行化这个程序?

最佳答案

正如 thiton 所提到的,这段代码可能是 I/O 限制的。然而,如今许多计算机可能都配备了 SSD 和高吞吐量 RAID 磁盘。在这种情况下,您可以通过并行化获得加速。此外,如果计算不是微不足道的,那么并行化会获胜。即使 I/O 由于带宽饱和而被有效地串行化,您仍然可以通过将计算分配给多核来获得加速。


回到问题本身,您可以通过 OpenMP 并行化此循环。使用 stdin,我不知道并行化,因为它需要顺序读取并且没有结束的先验信息。但是,如果您处理的是典型文件,则可以这样做。

这是我使用omp parallel 的代码。我使用了一些 Win32 API 和 MSVC CRT:

void test_io2()
{
  const static int BUFFER_SIZE = 1024;
  const static int CONCURRENCY = 4;

  uint64_t local_checksums[CONCURRENCY];
  uint64_t local_reads[CONCURRENCY];

  DWORD start = GetTickCount();

  omp_set_num_threads(CONCURRENCY);

  #pragma omp parallel
  {
    int tid = omp_get_thread_num();

    FILE* file = fopen("huge_file.dat", "rb");
    _fseeki64(file, 0, SEEK_END);
    uint64_t total_size = _ftelli64(file);

    uint64_t my_start_pos = total_size/CONCURRENCY * tid;
    uint64_t my_end_pos   = min((total_size/CONCURRENCY * (tid + 1)), total_size);
    uint64_t my_read_size = my_end_pos - my_start_pos;
    _fseeki64(file, my_start_pos, SEEK_SET);

    char* buffer = new char[BUFFER_SIZE];

    uint64_t local_checksum = 0;
    uint64_t local_read = 0;
    size_t read_bytes;
    while ((read_bytes = fread(buffer, 1, min(my_read_size, BUFFER_SIZE), file)) != 0 &&
      my_read_size != 0)
    {
      local_read += read_bytes;
      my_read_size -= read_bytes;
      for (int i = 0; i < read_bytes; ++i)
        local_checksum += (buffer[i]);
    }

    local_checksums[tid] = local_checksum;
    local_reads[tid]     = local_read;

    fclose(file);
  }

  uint64_t checksum = 0;
  uint64_t total_read = 0;
  for (int i = 0; i < CONCURRENCY; ++i)
    checksum += local_checksums[i], total_read += local_reads[i];

  std::cout << checksum << std::endl
    << total_read << std::endl
    << double(GetTickCount() - start)/1000. << std::endl;
}

这段代码看起来有点脏,因为我需要精确分配要读取的文件量。但是,代码相当简单。请记住一件事是您需要有一个每线程文件指针。您不能简单地共享文件指针,因为内部数据结构可能不是线程安全的。此外,此代码可以通过parallel for 并行化。但是,我认为这种方法更自然。


简单实验结果

我已经测试过这段代码可以在 HDD (WD Green 2TB) 和 SSD (Intel 120GB) 上读取 10GB 的文件。

使用 HDD,是的,没有获得任何加速。甚至观察到放缓。这清楚地表明此代码受 I/O 限制。这段代码几乎没有计算。只是 I/O。

但是,对于 SSD,我的 4 核加速为 1.2。是的,加速比很小。但是,您仍然可以使用 SSD 获得它。而且,如果计算变得更多(我只是放了一个非常短的忙等待循环),加速将是显着的。我能够获得 2.5 的加速。


总而言之,我建议您尝试并行化此代码。

此外,如果计算不是微不足道的,我会推荐流水线。上面的代码简单的分成了几个大块,导致缓存效率很低。然而,管道并行化可能会产生更好的缓存利用率。尝试使用 TBB 进行管道并行化。它们提供了一个简单的管道结构。

关于c - 使用 OpenMP 并行化 while 循环,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7532067/

相关文章:

python - 使用 sleep() 时高效快速的 Python While 循环

python - 使用多处理并行化 scipy.optimize.leastsq

c - uint vs. unsigned int - 为什么不用 typedef uint?

c - scanf 与 ^ 运算符

c - c语言用俄语符号修改字符串

c - 在 C 中,我如何只接受某些字符串并继续要求用户输入直到输入有效输入?

python - 在 'while' 循环之外定义变量

bash - 子外壳和并行处理

msbuild - 如何在MSBuild中并行运行任务

c - free() 使用不同的指针释放相同的堆内存