mpi - 带有 SysV 共享内存的异步 MPI

标签 mpi shared-memory fortran90

我们有一个大型 Fortran/MPI 代码库,它利用节点上的 system-V 共享内存段。我们在具有 32 个处理器的胖节点上运行,但只有 2 或 4 个 NIC,每个 CPU 的内存相对较少;所以我们的想法是我们建立一个共享内存段,每个 CPU 在它上面执行它的计算(在它的 SMP 数组块中)。 MPI 然后用于处理节点间通信,但仅在 SMP 组中的主站上。该过程是双缓冲的,对我们来说效果很好。

当我们决定切换到异步通信以隐藏一些延迟时,问题就出现了。由于节点上只有几个 CPU 通过 MPI 通信,但所有 CPU 都看到接收到的数组(通过共享内存),CPU 不知道通信 CPU 何时完成,除非我们设置某种屏障,并且那么为什么要做异步通信呢?

理想的假设解决方案是将请求标签放在 SMP 段中,并在需要知道的 CPU 上运行 mpi_request_get_status。当然,请求标签只注册在正在通信的CPU上,所以是行不通的!另一种建议的可能性是在通信线程上分支一个线程,并使用它在循环中运行 mpi_request_get_status,在共享内存段中使用标志参数,以便所有其他图像都可以看到。不幸的是,这也不是一个选项,因为我们被限制不能使用线程库。

我们提出的唯一可行的选择似乎有效,但感觉就像一个肮脏的黑客。我们在接收缓冲区的上限地址中放置了一个不可能的值,这样一旦 mpi_irecv 完成,该值就会改变,因此每个 CPU 都知道何时可以安全地使用缓冲区。这可以吗?似乎只有在 MPI 实现可以保证连续传输数据的情况下,它才能可靠地工作。这听起来很有说服力,因为我们是用 Fortran 编写的,所以我们的数组是连续的;我会想象访问也会。

有什么想法吗?

谢谢,
乔利

这是我正在做的事情的伪代码模板。家里还没拿到代码作为引用,所以我希望我没有忘记任何重要的东西,但我回到办公室时会确保......

pseudo(array_arg1(:,:), array_arg2(:,:)...)

  integer,      parameter : num_buffers=2
  Complex64bit, smp       : buffer(:,:,num_buffers)
  integer                 : prev_node, next_node
  integer                 : send_tag(num_buffers), recv_tag(num_buffers)
  integer                 : current, next
  integer                 : num_nodes

  boolean                 : do_comms
  boolean,      smp       : safe(num_buffers)
  boolean,      smp       : calc_complete(num_cores_on_node,num_buffers)

  allocate_arrays(...)

  work_out_neighbours(prev_node,next_node)

  am_i_a_slave(do_comms)

  setup_ipc(buffer,...)

  setup_ipc(safe,...)

  setup_ipc(calc_complete,...)

  current = 1
  next = mod(current,num_buffers)+1

  safe=true

  calc_complete=false

  work_out_num_nodes_in_ring(num_nodes)

  do i=1,num_nodes

    if(do_comms)
      check_all_tags_and_set_safe_flags(send_tag, recv_tag, safe) # just in case anything else has finished.
      check_tags_and_wait_if_need_be(current, send_tag, recv_tag)
      safe(current)=true
    else
      wait_until_true(safe(current))
    end if

    calc_complete(my_rank,current)=false
    calc_complete(my_rank,current)=calculate_stuff(array_arg1,array_arg2..., buffer(current), bounds_on_process)
    if(not calc_complete(my_rank,current)) error("fail!")

    if(do_comms)
      check_all_tags_and_set_safe(send_tag, recv_tag, safe)

      check_tags_and_wait_if_need_be(next, send_tag, recv_tag)
      recv(prev_node, buffer(next), recv_tag(next))
      safe(next)=false

      wait_until_true(all(calc_complete(:,current)))
      check_tags_and_wait_if_need_be(current, send_tag, recv_tag)
      send(next_node, buffer(current), send_tag(current))
      safe(current)=false
    end if

    work_out_new_bounds()

    current=next
    next=mod(next,num_buffers)+1

  end do
end pseudo

因此,理想情况下,我希望在通信进程的另一个线程中的循环中运行“check_all_tags_and_set_safe_flags”,或者甚至更好:取消“安全标志”并使发送/接收的句柄在从属设备上可用,然后我可以运行:“check_tags_and_wait_if_need_be(current,send_tag,recv_tag)”(mpi_wait)而不是“wait_until_true(safe(current))”。

最佳答案

“……除非我们设置某种障碍,否则为什么要进行异步通信?”

这句话有点糊涂。异步通信的目的是重叠通信和计算;希望您可以在通信进行的同时完成一些真正的工作。但这意味着您现在有两个最终必须同步的任务发生,所以有 成为在第一个通信阶段结束时阻止任务进入第二个计算阶段(或其他)之前的东西。

在这种情况下该怎么做才能很好地实现事物(看起来您现在所拥有的东西可以工作,但您正确地担心结果的脆弱性)的问题取决于您如何进行实现。您使用线程这个词,但是 (a) 您使用的是 sysv 共享内存段,如果您有线程,则不需要这样做,并且 (b) 您被限制不能使用线程库,所以大概您实际上意味着你在 MPI_Init() 之后 fork()ing 进程或其他什么?

我同意 Hristo 的观点,您最好的选择几乎肯定是使用 OpenMP 进行计算的节点上分布,并且可能会大大简化您的代码。了解更多关于不使用线程库的约束会有所帮助。

除了 MPI 之外,另一种仍然可以避免您必须“推出自己的”基于进程的通信层的方法是让节点上的所有进程都是 MPI 进程,但创建一些通信器 - 一个来执行全局通信,每个节点一个“本地”通信器。每个节点只有几个进程是实际进行节点外通信的通信器的一部分,而其他进程则在共享内存段上工作。然后,您可以使用基于 MPI 的同步方法(Wait 或 Barrier)进行节点同步。即将推出的 MPI3 实际上将明确支持以这种方式使用本地共享内存段。

最后,如果您绝对有信心并决心继续通过本质上是您自己的本地节点专用 IPC 实现来做事 --- 因为您已经在使用 SysV 共享内存段,您不妨使用 SysV semaphores做同步。当数据准备好计算时,您已经在使用自己的(有点微妙的)类似信号量的机制来“标记”;在这里,您可以使用更强大的、已经编写好的信号量来让非 MPI 进程知道数据何时可以进行计算(以及让 MPI 进程知道其他进程何时完成计算的类似机制)。

关于mpi - 带有 SysV 共享内存的异步 MPI,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10627715/

相关文章:

linux - f77 中多个无法识别的选项

crash - 运行时Fortran程序崩溃

c - MPI_Bcast - 二维数组中的一行

types - 使用 MPI 和 Fortran 90 发送自定义类型

c - 在 C 中使用 mpi 在函数中分配和填充二维数组

python-3.x - 多处理 Pipe() 包装器损坏 : Something is Hanging. V5

c - 为什么这个 POSIX 共享内存代码会出现段错误?

fortran - Fortran 中变量和静态数组的生命周期

c - 如何创建分布式阵列 MPI

c - 具有结构数组的共享内存