← 返回列表

用于数据中台的数据智能清洗方法

申请号: CN202410160028.5
申请人: 卓世智星(成都)科技有限公司
申请日期: 2024/2/5

摘要文本

本发明涉及数据处理技术领域,具体涉及用于数据中台的数据智能清洗方法,包括:采集语音信号数据;将原始语音数据分成多个数据区间;将任意一个数据区间记为参考数据区间,根据数据区间中数据的变化与对应时间段内的原始语音数据的变化,获得参考数据区间的纯噪声程度;通过比较预设阈值与参考数据区间的纯噪声程度的数值大小获得噪声数据区间和非噪声数据区间;根据噪声数据区间之间的相似性与非噪声数据区间之间的差异性获得每个噪声数据区间的权重;根据每个噪声数据区间的权重对始语音信号数据进行去噪。本发明通过分析语音信号在不同数据区间上的变化,自适应噪声数据区间与非噪声数据区间的权重,使得对语音信号的去噪更彻底。

专利详细信息

项目 内容
专利名称 用于数据中台的数据智能清洗方法
专利类型 发明申请
申请号 CN202410160028.5
申请日 2024/2/5
公告号 CN117711419A
公开日 2024/3/15
IPC主分类号 G10L21/0232
权利人 卓世智星(成都)科技有限公司
发明人 赵策; 王亚; 屠静; 张玥; 雷媛媛; 孙岩; 潘亮亮; 刘岩
地址 四川省成都市中国(四川)自由贸易试验区成都高新区天府三街288号1栋18层1802号

专利主权项内容

1.用于数据中台的数据智能清洗方法,其特征在于,该方法包括以下步骤:采集语音信号数据,记为原始语音数据;将原始语音数据分成多个短时帧,将任意一个短时帧记为参考短时帧;获取参考短时帧的第一极值序列,根据第一极值序列的数据间隔构建直角坐标系;根据直角坐标系中的数据点的分布获得多个数据区间;将任意一个数据区间记为参考数据区间,根据参考数据区间中数据的变化与对应时间段内的原始语音数据的变化,获得参考数据区间的纯噪声程度;通过比较预设阈值与参考数据区间的纯噪声程度的数值大小获得噪声数据区间和非噪声数据区间;根据噪声数据区间之间的相似性与非噪声数据区间之间的差异性获得每个噪声数据区间的最终权重;根据每个噪声数据区间的最终权重对原始语音数据进行去噪。