基于知识蒸馏与非参数卷积的模型加速方法及装置

申请号: CN201811108089.8

申请人: 清华大学

申请日期: 2018年9月21日

摘要文本

本发明公开了一种基于知识蒸馏与非参数卷积的模型加速方法及装置，其中，该方法包括以下步骤：裁剪步骤，裁剪卷积神经网络的非线性层与聚合冗余的卷积层；第一蒸馏步骤，在对卷积神经网络裁剪后，对原有模型进行蒸馏以得到初始卷积神经网络；替换步骤，将第一网络中剩余的卷积层替换为非参数的卷积层；第二蒸馏步骤，通过知识蒸馏来维持替换以后的模型精度，以得到最终卷积神经。该方法采用知识蒸馏的手段学习得到轻量级的非参数卷积进而减少模型大小和提高运行时速度。

申请人信息

申请人:清华大学
申请人地址:100084 北京市海淀区清华园
发明人: 清华大学

专利详细信息

项目	内容
专利名称	基于知识蒸馏与非参数卷积的模型加速方法及装置
专利类型	发明授权
申请号	CN201811108089.8
申请日	2018年9月21日
公告号	CN109409500B
公开日	2024年1月12日
IPC主分类号	G06N3/0464
权利人	清华大学
发明人	鲁继文; 周杰; 袁鑫; 任亮亮
地址	北京市海淀区双清路30号

专利主权项内容

1.一种基于知识蒸馏与非参数卷积的模型加速方法，其特征在于，所述模型加速方法应用于移动设备或者嵌入式便携设备上的图像分类应用或者目标检测应用或者语义分割应用或者语音识别应用中部署的卷积神经网络，包括以下步骤：裁剪步骤，裁剪卷积神经网络的非线性层与聚合冗余的卷积层；第一蒸馏步骤，在对所述卷积神经网络裁剪后，对原有模型进行蒸馏以得到初始卷积神经网络；替换步骤，将初始卷积神经网络中剩余的卷积层替换为非参数的卷积层；以及第二蒸馏步骤，通过知识蒸馏来维持替换以后的模型精度，以得到最终卷积神经，以根据所述最终卷积神经进行图像分类或者目标检测或者语义分割或者语音识别；所述裁剪步骤进一步包括：将所述聚合冗余的卷积层替换成单一的小卷积以模拟原先多个网络的行为，其中，目标函数为：其中，F为卷积层在第i个卷积神经网络模块的制造特征，K为卷积核，f是一个对输入特征F和输出特征F的新映射，conv(F, K)是对于特征图F和卷积核K卷积操作。i, ji, jii, 1i, j

基于知识蒸馏与非参数卷积的模型加速方法及装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

基于知识蒸馏与非参数卷积的模型加速方法及装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料