← 返回列表
基于知识蒸馏与非参数卷积的模型加速方法及装置
摘要文本
本发明公开了一种基于知识蒸馏与非参数卷积的模型加速方法及装置,其中,该方法包括以下步骤:裁剪步骤,裁剪卷积神经网络的非线性层与聚合冗余的卷积层;第一蒸馏步骤,在对卷积神经网络裁剪后,对原有模型进行蒸馏以得到初始卷积神经网络;替换步骤,将第一网络中剩余的卷积层替换为非参数的卷积层;第二蒸馏步骤,通过知识蒸馏来维持替换以后的模型精度,以得到最终卷积神经。该方法采用知识蒸馏的手段学习得到轻量级的非参数卷积进而减少模型大小和提高运行时速度。
申请人信息
- 申请人:清华大学
- 申请人地址:100084 北京市海淀区清华园
- 发明人: 清华大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于知识蒸馏与非参数卷积的模型加速方法及装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN201811108089.8 |
| 申请日 | 2018年9月21日 |
| 公告号 | CN109409500B |
| 公开日 | 2024年1月12日 |
| IPC主分类号 | G06N3/0464 |
| 权利人 | 清华大学 |
| 发明人 | 鲁继文; 周杰; 袁鑫; 任亮亮 |
| 地址 | 北京市海淀区双清路30号 |
专利主权项内容
1.一种基于知识蒸馏与非参数卷积的模型加速方法,其特征在于,所述模型加速方法应用于移动设备或者嵌入式便携设备上的图像分类应用或者目标检测应用或者语义分割应用或者语音识别应用中部署的卷积神经网络,包括以下步骤:裁剪步骤,裁剪卷积神经网络的非线性层与聚合冗余的卷积层;第一蒸馏步骤,在对所述卷积神经网络裁剪后,对原有模型进行蒸馏以得到初始卷积神经网络;替换步骤,将初始卷积神经网络中剩余的卷积层替换为非参数的卷积层;以及第二蒸馏步骤,通过知识蒸馏来维持替换以后的模型精度,以得到最终卷积神经,以根据所述最终卷积神经进行图像分类或者目标检测或者语义分割或者语音识别;所述裁剪步骤进一步包括:将所述聚合冗余的卷积层替换成单一的小卷积以模拟原先多个网络的行为,其中,目标函数为:其中,F为卷积层在第i个卷积神经网络模块的制造特征,K为卷积核,f是一个对输入特征F和输出特征F的新映射,conv(F, K)是对于特征图F和卷积核K卷积操作。i, ji, jii, 1i, j