我有两个网络。其中一个有以下内容:
总参数:2,246,550
可训练参数:2,246,550
不可训练参数:0
第二个网络的可训练参数总数约为 333,013
但是在推理时间的情况下,第二个网络花费了 0.12 秒 第一个网络平均耗时 0.08 秒。
造成这种差异的原因是什么?
最佳答案
你不一定能这么说。假设 0.4M 参数网络主要由卷积层组成,而 2M 参数网络由全连接层组成。那么第一个将需要更长的前传。所以它取决于很多东西,包括深度、参数、运算次数等。一般来说,你可以说它取决于乘法的次数。
关于machine-learning - 推理时间取决于参数数量吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43489912/