android - 如何在 Nvidia Shield 上正确计时 Android RenderScript 代码

标签 android multithreading performance timing renderscript

我已经在 RenderScript 中实现了一个小型 CNN,并且想分析不同硬件上的性能。在我的 Nexus 7 上,时间有意义,但在 NVIDIA Shield 上却没有。

CNN (LeNet) 在队列中的 9 层中实现,计算按顺序执行。每层单独计时。

这是一个例子:

       conv1  pool1 conv2  pool2 resh1 ip1    relu1  ip2    softmax
nexus7 11.177 7.813 13.357 8.367 8.097 2.1    0.326  1.557  2.667
shield 13.219 1.024 1.567  1.081 0.988 14.588 13.323 14.318 40.347

时间的分布对于 nexus 来说是正确的,conv1 和 conv2(卷积层)占据了大部分时间。但是在盾牌上,时间下降的方式远远超出了第 2-4 层的合理范围,并且似乎在接近尾声时聚集起来。 softmax 层是一个相对较小的工作,所以 40 毫秒太大了。一定是我的计时方法有问题,或者有其他问题。

运行层的代码看起来像这样:

double[] times = new double[layers.size()];
int layerindex = 0;
for (Layer a : layers) {

    double t = SystemClock.elapsedRealtime(); 
    //long t = System.currentTimeMillis(); // makes no difference

    blob = a.forward(blob); // here we call renderscript forEach_(), invoke_() etc

    //mRS.finish(); // makes no difference

    t = SystemClock.elapsedRealtime() - t; 
    //t = System.currentTimeMillis() - t; // makes no difference

    times[layerindex] += t; // later we take average etc

    layerindex++;
}

据我了解,一旦 forEach_() 返回,作业就应该完成。在任何情况下,mRS.finish() 都应该提供最后一道屏障。但纵观时代,唯一合理的解释是作业仍在后台处理。

应用程序非常简单,我只是从 MainActivity 运行测试并打印到 logcat。 Android Studio 将应用构建为一个版本,并在通过 USB 连接的设备上运行。

(1) 为 RenderScript 进程计时的正确方法是什么? (2) 当 forEach_() 返回时,脚本生成的线程是否保证完成? (3) 在我的测试应用程序中,我只是直接从 MainActivity 运行。这是一个问题吗(除了阻塞 UI 线程并使应用程序无响应)?如果这会影响时间或导致异常,那么像这样设置测试应用程序的正确方法是什么?

最佳答案

我自己在 RenderScript 中实现了 CNN,正如您所解释的,如果您将它们分别实现为不同的内核,它确实需要链接多个进程并为每一层多次调用 forEach_*() .因此,我可以向您保证,返回的 forEach 调用并不能真正保证该过程已完成。理论上,这只会安排内核,所有排队的请求实际上会在系统确定最佳运行时运行,尤其是当它们在平板电脑的 GPU 中得到处理时。

通常,要绝对确保您对真正运行的内核具有某种控制权的唯一方法是显式读取层间 RS 内核的输出,例如使用 .copyTo() 在该内核的输出分配对象上。这“强制”任何尚未运行的排队 RS 作业(该层的输出分配依赖于它)在那个时候执行。当然,这可能会引入数据传输开销,并且您的计时不会完全准确——事实上,如果以这种方式计时,整个网络的执行时间肯定会低于各个层的总和。但据我所知,这是为链中的单个内核计时的唯一可靠方法,它会为您提供一些反馈以找出瓶颈所在,并更好地指导您的优化,如果那是您所追求的。

关于android - 如何在 Nvidia Shield 上正确计时 Android RenderScript 代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37080673/

相关文章:

java - 我们可以同时从多个线程访问同一个实例的同步方法和非同步方法吗?

database - 速度、CouchDB View 和替代方案

java - 球线碰撞

java - 外部存储和 HTC One V

java - 日期格式格式不正确

python - 按键组合两个大型词典的最快方法是什么?

sql - 有关最佳SQL性能更新和/或计算现有库存总数的建议

java - 绘制背景使我的应用变慢

java - 两个线程写入同一个 JTextArea

c++ - 适用于调试但不适用于发布