我正在尝试使用以 TensorRT C++ API 原生编写的模型运行半精度推理(未从其他框架(如 caffe、tensorflow)解析); 据我所知,没有这个问题的公共(public)工作示例;我找到的最接近的是 sampleMLP 示例代码,与 TensorRT 4.0.0.3 一起发布, 然而 release notes说不支持 fp16;
我的玩具示例代码可以在 this repo 中找到.它包含 API 实现的架构和推理例程,以及我用来将我的训练权重字典转换为 wtd TensorRT 格式的 python 脚本。
我的玩具架构只包含一个卷积;目标是在 fp32 和 fp16 之间获得相似的结果,除了一些合理的精度损失;该代码似乎适用于 fp32,而我在 fp16 推理的情况下获得的是完全不同数量级的值 (~1e40);所以看起来我在转换过程中做错了什么;
对于理解问题的任何帮助,我将不胜感激。
谢谢,
f
最佳答案
快速阅读您的代码后,我发现您所做的工作超出了获得半精度优化网络所需的范围。您不应自己手动将加载的权重从 float32
转换为 float16
。相反,您应该像往常一样创建您的网络,并使用您的 nvinfer1::IBuilder
对象调用 nvinfer1::IBuilder::setFp16Mode(true)
让 TensorRT 进行转换在合适的地方为您服务。
关于c++ - 如何在使用 TensorRT C++ API 编写的 TensorRT 模型上运行半精度推理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50945257/