一种音频数据处理方法、装置、设备及可读存储介质

申请号: CN201810690071.7

申请人: 北京搜狗科技发展有限公司

申请日期: 2018年6月28日

摘要文本

本发明实施例提供了一种音频数据的处理方法、装置、设备及可读存储介质，该方法包括：获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；检测所述音频数据是否包含有混响干扰数据；若所述音频数据包含有混响干扰数据，则采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据，得到目标音频数据。本申请实施例直接在时域上消除音频数据中的混响干扰数据，以避免将音频数据变换到频域进行解混响导致解混后的语音质量受限的问题，提高语音解混响的鲁棒性。

申请人信息

申请人:北京搜狗科技发展有限公司
申请人地址:100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
发明人: 北京搜狗科技发展有限公司

专利详细信息

项目	内容
专利名称	一种音频数据处理方法、装置、设备及可读存储介质
专利类型	发明授权
申请号	CN201810690071.7
申请日	2018年6月28日
公告号	CN110660403B
公开日	2024年3月8日
IPC主分类号	G10L21/0208
权利人	北京搜狗科技发展有限公司
发明人	文仕学; 潘逸倩
地址	北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间

专利主权项内容

1.一种音频数据的处理方法，其特征在于，包括：获取音频输入设备采集到的音频数据，其中，所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据；检测所述音频数据是否包含有混响干扰数据；若所述音频数据包含有混响干扰数据，将所述音频数据传输给语音解混响模型；所述语音解混响模型为GAN模型，生成式模型作为生成器，判别式模型作为辨别器；采用所述语音解混响模型中的生成器，对所述音频数据中的混响干扰数据进行消除，得到解混响音频数据；采用所述语音解混响模型中的辨别器，判断解混响音频数据是否含有残留混响数据；若所述解混响音频数据含有残留混响数据，则采用所述生成器对所述解混响音频数据中的残留混响数据进行消除；否则，将所述解混响音频数据确定为目标音频数据。

一种音频数据处理方法、装置、设备及可读存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

一种音频数据处理方法、装置、设备及可读存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料