这是有关 MobileNet V3 的论文的链接。
MobileNet V3
根据该论文,h-swish 和 Squeeze-and-excitation 模块是在 MobileNet V3 中实现的,但它们旨在提高准确性,而无助于提高速度。
h-swish 比 swish 快,有助于提高准确性,但如果我没记错的话,它比 ReLU 慢得多。
SE 也有助于提高准确性,但它增加了网络的参数数量。
我错过了什么吗?我仍然不知道 MobileNet V3 如何比 V2 更快,上面所说的在 V3 中实现。
我没有提到他们还修改了他们网络的最后一部分,因为我计划使用 MobileNet V3 作为 Backbone 络并将其与 SSD 层结合起来进行检测,因此网络的最后一部分不会用过的。
下表(可在上述论文中找到)显示 V3 仍然比 V2 快。
Object detection results for comparison
最佳答案
MobileNetV3 在分类任务上比 MobileNetV2 更快、更准确,但在不同的任务上不一定如此,例如对象检测。
正如您自己提到的,他们在网络最深端所做的优化主要与分类变体相关,并且从您引用的表中可以看出,mAP 也好不到哪里去。
不过有几点需要考虑:
一些 FLOP 和参数,并且 h-swish 增加了复杂性,并且两者都
导致一些延迟。但是,两者都被添加,使得
准确性 - 延迟权衡更好,这意味着延迟
加法值得提高准确性,或者您可以保持相同
准确性,同时减少其他内容,从而减少整体延迟。
特别是关于 h-swish,请注意他们主要在
更深的层,张量更小。它们更厚,但
由于分辨率的二次下降(高度 x 宽度),它们是
整体较小,因此 h-swish 会导致较少的延迟。
关于deep-learning - MobileNet V3 比 V2 快多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56949807/