opengl - 渲染命令中着色器调用的频率

着色器具有调用，每个调用(通常)都被赋予一组唯一的输入数据，并且每个调用器(通常)都被写入各自独立的输出数据。发出渲染命令时，每个着色器被调用多少次？

最佳答案

每个着色器阶段都有其自己的调用频率。我将使用OpenGL术语，但D3D的工作方式相同(因为它们都为相同的硬件关系建模)。

顶点着色器

这些是第二复杂的。他们为每个输入顶点执行一次...有点。如果您使用的是非索引渲染，则该比例正好为1:1。每个输入顶点将在单独的顶点着色器实例上执行。

如果您使用索引渲染，那么它将变得很复杂。它大约是1:1，每个顶点都有自己的VS调用。但是，由于有了post-T&L caching，每个输入顶点可以执行一次少于一次的顶点着色器。

请参见，假定顶点着色器的执行是在输入顶点数据和输出顶点数据之间创建1:1映射。这意味着，如果将相同的输入数据传递到顶点着色器(在同一渲染命令中)，则您的VS会生成相同的输出数据。因此，如果硬件能够检测到它即将对先前使用的相同输入数据执行顶点着色器，则它可以跳过该执行过程，而仅使用先前执行的输出。假设它具有那些值，例如在高速缓存中。

硬件通过使用顶点的索引(这就是为什么它不适用于非索引渲染)检测到这一点的原因。如果为顶点着色器提供相同的索引，则假定该着色器将获得所有相同的输入值，因此将生成相同的输出值。因此，硬件将基于索引缓存输出值。如果索引位于T＆L后缓存中，则硬件将跳过VS的执行，而仅使用输出值。

实例化只会使T＆L后的缓存稍微复杂化。它不是仅在顶点索引上进行缓存，而是根据索引和实例ID进行缓存。因此，如果两个值相同，则仅使用缓存的数据。

因此，通常，VS对每个顶点执行一次，但是如果使用索引数据优化几何，则VS执行的次数会减少。有时要少得多，具体取决于您的操作方式。

镶嵌控制着色器

或D3D方面的Hull Shaders。

在这方面，TCS非常简单。对于渲染命令的每个补丁中的每个顶点，它将只执行一次。在此不进行缓存或其他优化。

镶嵌评估着色器

或以D3D的说法是Domain Shaders。

在分割图元生成器生成新顶点之后，将执行TES。因此，它执行的频率显然取决于您的镶嵌参数。

TES提取由分割器生成的顶点并输出顶点。它以1:1的比例进行操作。

但是，与“顶点着色器”相似，每个输出图元中的每个顶点不必都是1:1。像VS一样，假定TES在棋盘格化图元中的位置与输出参数之间提供直接1:1映射。因此，如果您使用相同的修补程序位置多次调用TES，则预期输出相同的值。

这样，如果生成的图元共享顶点，则对于此类共享顶点，TES通常通常仅被调用一次。与顶点着色器不同，您无法控制硬件将利用它的程度。您能做的最好的就是希望生成算法足够聪明，以最小化调用TES的频率。

几何着色器

将为每个点，线或三角形图元调用一次几何着色器，该着色器直接由渲染命令指定或由镶嵌器生成。因此，如果将6个顶点渲染为未连接的线，则GS将被精确调用3次。

每个GS调用可以生成零个或多个原语作为输出。

GS可以在内部使用实例化(在OpenGL 4.0或Direct3D 11中)。这意味着，对于到达GS的每个原语，GS将被调用X次，其中X是GS实例的数量。每个这样的调用将获得相同的输入原始数据(具有用于区分这些实例的特殊输入值)。这对于更有效地将图元定向到分层帧缓冲区的不同层很有用。

片段着色器

或以D3D说法的像素着色器。即使它们还不是像素，也可能不会变成像素，并且可以对同一像素执行多次；)

关于调用频率，这些是最复杂的。他们执行的频率取决于很多事情。

对于基本图元光栅化到的每个像素大小的区域，必须至少执行一次FS。但是它们的执行范围可能不止这些。

为了计算纹理函数的导数，一个FS调用通常会从其相邻调用之一中借用值。如果没有这样的调用，如果邻居落在被栅格化的图元的边界之外，则这是有问题的。

在这种情况下，仍然会有相邻的FS调用。即使它不产生任何实际数据，它仍然存在并且仍然有效。好的方面是，这些助手调用不会损害性能。他们基本上是在消耗着色器资源，否则这些着色器资源将不会被使用。而且，此类帮助程序调用对实际输出数据的任何尝试都将被系统忽略。

但是它们在技术上仍然存在。

一个不太透明的问题围绕着多重采样。看到，多重采样实现(尤其是在OpenGL中)被允许自行决定要发出多少个FS调用。尽管有多种方法可以强制多采样渲染为每个样本创建FS调用，但不能保证在这些情况下，实现仅对每个覆盖像素执行一次FS。

例如，如果我没记错的话，如果您在某些NVIDIA硬件(8到16或类似的东西)上创建了具有高样本计数的多样本图像，则该硬件可能决定多次执行FS。不一定每个样本一次，而是每四个样本一次。

那么，您获得了多少个FS调用？对于要栅格化的图元而言，每个像素大小的区域至少要有一个。如果要进行多采样渲染，则可能更多。

计算着色器

您指定的确切调用次数。也就是说，您分派(dispatch)的工作组数* CS指定的每个组的调用数(您的本地组数)。不多不少。

关于opengl - 渲染命令中着色器调用的频率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35243518/

opengl - 渲染命令中着色器调用的频率

上一篇：sql-server - 如何在 SQL Server 上的 CASE WHEN 中选择多个列？

下一篇：delphi - 如何沿着图像中的弧线渲染文本？