← 返回列表
一种音频数据处理方法、装置、设备及可读存储介质
摘要文本
本发明实施例提供了一种音频数据的处理方法、装置、设备及可读存储介质,该方法包括:获取音频输入设备采集到的音频数据,其中,所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据;检测所述音频数据是否包含有混响干扰数据;若所述音频数据包含有混响干扰数据,则采用语音解混响模型在时域上消除所述音频数据中含有的混响干扰数据,得到目标音频数据。本申请实施例直接在时域上消除音频数据中的混响干扰数据,以避免将音频数据变换到频域进行解混响导致解混后的语音质量受限的问题,提高语音解混响的鲁棒性。
申请人信息
- 申请人:北京搜狗科技发展有限公司
- 申请人地址:100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
- 发明人: 北京搜狗科技发展有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种音频数据处理方法、装置、设备及可读存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN201810690071.7 |
| 申请日 | 2018年6月28日 |
| 公告号 | CN110660403B |
| 公开日 | 2024年3月8日 |
| IPC主分类号 | G10L21/0208 |
| 权利人 | 北京搜狗科技发展有限公司 |
| 发明人 | 文仕学; 潘逸倩 |
| 地址 | 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 |
专利主权项内容
1.一种音频数据的处理方法,其特征在于,包括:获取音频输入设备采集到的音频数据,其中,所述音频数据为所述音频输入设备在封闭音频输入场景中采集到的时域数据;检测所述音频数据是否包含有混响干扰数据;若所述音频数据包含有混响干扰数据,将所述音频数据传输给语音解混响模型;所述语音解混响模型为GAN模型,生成式模型作为生成器,判别式模型作为辨别器;采用所述语音解混响模型中的生成器,对所述音频数据中的混响干扰数据进行消除,得到解混响音频数据;采用所述语音解混响模型中的辨别器,判断解混响音频数据是否含有残留混响数据;若所述解混响音频数据含有残留混响数据,则采用所述生成器对所述解混响音频数据中的残留混响数据进行消除;否则,将所述解混响音频数据确定为目标音频数据。