为什么SimKD蒸馏后的模型的推理时间比teacher模型还慢呢

Question

首先感谢作者提供的源码，为学术界做出极大的贡献。
我复现了该论文代码，使用ResNet38x4预训练模型作为teacher网络，使用ShuffleNetv2x1.5

DefangChen · Answer

<div class="snippet-clipboard-content notranslate position-relative overflow-auto" data-snippet-clip

DefangChen · Answer

<p dir="auto">对于SimKD来说，Student网络在推理时对Teacher模型进行了一次前向传播（helper/loops.py 278-283行），而这部分代码是不必要的，可以注释掉

DonMuv · Answer

对于SimKD来说，Student网络在推理时对Teacher模型进行了一次前向传播（helper/loops.py 278-283行），而这部分

DefangChen · Answer

当然不是，照样用Teacher分类器进行推理（这对参数和计算量都影响很小），但是没必要对Teacher整个模型做前向传播。

DonMuv · Answer

当然不是，照样用Teacher分类器进行推理（这对参数和计算量都影响很小），但是没必要对Teacher整个模型做前向传播。

qiuxiaqing · Answer

<p dir="auto">看了代码，如果将helper/loops.py 278-283行注释掉的话，只能运行output = model_s(images)这句，即只用student获得推理结果，

qiuxiaqing · Answer

<p dir="auto">我将保存的学生模型测试了一下，直接用“output = model_s(images)”，得到的结果很差（训练精度能达到78.45%，而测试精度只达到0.0127%）。分析

DefangChen · Answer

你所谓的“将学生网络的backbone+空间和通道对齐部分+教师网络分类器”正是我们保存模型的方法，见train_student.py Line 394-412

qiuxiaqing · Answer

对，你是保存了“projector”部分的权重。

qiuxiaqing · Answer

<p dir="auto">关键问题是：您应该在保存时候，将学生网络的backbone+空间和通道对齐部分+教师网络分类器 这三部分的权重都加载进一个新的网络s'中，这样推理起来就不需要加载教师网络的

DefangChen · Answer

你可以测试一下，加载参数的时间可以忽略不计，这种细节跟论文讨论的内容也没有关系。你可以按照自己喜欢的方式去保存参数。

qiuxiaqing · Answer

好的，感谢您的回复

为什么SimKD蒸馏后的模型的推理时间比teacher模型还慢呢 about simkd HOT 12 CLOSED