深度神经网络一般有较多的参数冗余,目前有几种主要的方法对模型进行压缩,减小其参数量。如裁剪、量化、知识蒸馏等,其中知识蒸馏是指使用教师模型(teacher model)去指导学生模型(student model)学习特定任务,保证小模型在参数量不变的情况下,得到比较大的性能提升,甚至获得与大模型相似的精度指标 [1]。
根据蒸馏方式的不同,可以将知识蒸馏方法分为3个不同的类别:Response based distillation、Feature based distillation、Relation based distillation。下面进行详细介绍。
最早的知识蒸馏算法 KD,由 Hinton 提出,训练的损失函数中除了 gt loss 之外,还引入了学生模型与教师模型输出的 KL 散度,最终精度超过单纯使用 gt loss 训练的精度。这里需要注意的是,在训练的时候,需要首先训练得到一个更大的教师模型,来指导学生模型的训练过程。
上述标准的蒸馏方法是通过一个大模型作为教师模型来指导学生模型提升效果,而后来又发展出 DML(Deep Mutual Learning)互学习蒸馏方法 [7],即通过两个结构相同的模型互相学习。具体的。相比于 KD 等依赖于大的教师模型的知识蒸馏算法,DML 脱离了对大的教师模型的依赖,蒸馏训练的流程更加简单,模型产出效率也要更高一些。
Heo 等人提出了 OverHaul [8], 计算学生模型与教师模型的 feature map distance,作为蒸馏的 loss,在这里使用了学生模型、教师模型的转移,来保证二者的 feature map 可以正常地进行 distance 的计算。
基于 feature map distance 的知识蒸馏方法也能够和 1.1 章节
中的基于 response 的知识蒸馏算法融合在一起,同时对学生模型的输出结果和中间层 feature map 进行监督。而对于 DML 方法来说,这种融合过程更为简单,因为不需要对学生和教师模型的 feature map 进行转换,便可以完成对齐(alignment)过程。P
1.1 和 1.2 章节中的论文中主要是考虑到学生模型与教师模型的输出或者中间层 feature map,这些知识蒸馏算法只关注个体的输出结果,没有考虑到个体之间的输出关系。
Park 等人提出了 RKD [10],基于关系的知识蒸馏算法,RKD 中进一步考虑个体输出之间的关系,使用 2 种损失函数,二阶的距离损失(distance-wise)和三阶的角度损失(angle-wise)
本论文提出的算法关系知识蒸馏(RKD)迁移教师模型得到的输出结果间的结构化关系给学生模型,不同于之前的只关注个体输出结果,RKD 算法使用两种损失函数:二阶的距离损失(distance-wise)和三阶的角度损失(angle-wise)。在最终计算蒸馏损失函数的时候,同时考虑 KD loss 和 RKD loss。最终精度优于单独使用 KD loss 蒸馏得到的模型精度。
Ying Zhang, Tao Xiang, Timothy M. Hospedales, Huchuan Lu
CVPR, 2018
策略 | 骨干网络 | 配置文件 | Top-1 acc |
baseline | PP-TSMv2 | pptsm_lcnet_k400_frames_uniform.yaml | 73.1% |
DML | PP-TSMv2 | pptsm_lcnet_k400_frames_uniform_dml_distillation.yaml | 74.38%(+1.28%) |
(学生与教师之间的JS-Div loss)以及DistillationCELoss
(学生与教师关于真值标签的CE loss),作为训练的损失函数。
使用蒸馏训练,配置文件需要做一定的修改: 原始Student模型训练配置文件:
framework: "Recognizer2D"
name: "PPTSM_v2"
pretrained: "data/PPLCNetV2_base_ssld_pretrained.pdparams"
num_seg: 16
name: "MoViNetHead"
framework: "RecognizerDistillation"
- False # Teacher是否可学习
- False # Student是否可学习
- Teacher: # 指定Teacher模型
name: "ResNetTweaksTSM" #Teacher模型名称
pretrained: "data/ResNet50_vd_ssld_v2_pretrained.pdparams"
depth: 50
num_seg: 16
name: "ppTSMHead" # Teacher模型head
num_classes: 400
in_channels: 2048
drop_ratio: 0.5
std: 0.01
num_seg: 16
- Student:
backbone: # 指定Student模型
name: "PPTSM_v2" #Student模型名称
pretrained: "data/PPLCNetV2_base_ssld_pretrained.pdparams"
num_seg: 16
name: "MoViNetHead" # Student模型head
loss: # 指定蒸馏loss
Train: # 训练时loss计算
- name: "DistillationCELoss" # 蒸馏损失1
model_name_pairs: ["Student", "GroundTruth"] # 计算loss的对象
- name: "DistillationCELoss" # 蒸馏损失2
model_name_pairs: ["Teacher", "GroundTruth"]
- name: "DistillationDMLLoss" # 蒸馏损失3
model_name_pairs: ["Student", "Teacher"]
Val: # 评估时loss计算
- name: "DistillationCELoss"
model_name_pairs: ["Student", "GroundTruth"]
framework: "RecognizerDistillation"
- False # Teacher是否可学习
- False # Student是否可学习
- Teacher: # 指定Teacher模型
name: "PPTSM_v2"
pretrained: "data/PPLCNetV2_base_ssld_pretrained.pdparams"
num_seg: 16
name: "MoViNetHead"
- Student:
backbone: # 指定Student模型
name: "PPTSM_v2"
pretrained: "data/PPLCNetV2_base_ssld_pretrained.pdparams"
num_seg: 16
name: "MoViNetHead"
loss: # 指定蒸馏loss
Train: # 训练时loss计算
- name: "DistillationCELoss" # 蒸馏损失1
model_name_pairs: ["Student", "GroundTruth"] # 计算loss的对象
- name: "DistillationCELoss" # 蒸馏损失2
model_name_pairs: ["Teacher", "GroundTruth"]
- name: "DistillationDMLLoss" # 蒸馏损失3
model_name_pairs: ["Student", "Teacher"]
Val: # 评估时loss计算
- name: "DistillationCELoss"
model_name_pairs: ["Student", "GroundTruth"]
策略 | 教师网络 | Top-1 acc |
baseline | - | 69.06% |
DML | PP-TSMv2 | 70.34%(+1.28%) |
DML | PP-TSM_ResNet50 | 71.27%(+2.20%) |
- 注:完整的PP-TSMv2加了其它trick训练,这里为了方便对比,baseline未加其它tricks,因此指标比官网最终开源出来的模型精度(74.38%)低一些。
