首页 > 乐器声学 专利正文
获取声纹模型的方法、装置、存储介质以及计算机设备与流程

时间:2022-02-13 阅读: 作者:专利查询

获取声纹模型的方法、装置、存储介质以及计算机设备与流程

1.本发明涉及声纹识别技术领域,尤其涉及一种获取声纹模型的方法、系统、存储介质以及计算机设备。


背景技术:

2.声纹特征是一种具有个体特殊性的人体生物特征,可以用于声纹购物,声纹认证等领域。
3.目前市面上具有很多可以进行声纹购物的智能设备,例如带屏音箱,带屏音箱可以对支付者的语音信号通过声纹模型进行声纹识别来判断支付者的身份。声纹购物不仅涉及到支付安全性,且进行声纹支付的环境相对来说是比较复杂的,进行声纹购物需要进行声纹录制,支付场景中有很多噪声,例如在家庭场景中,这些因素将影响声纹模型进行声纹识别的准确性。
4.综上所述,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。


技术实现要素:

5.针对上述的缺陷,本发明的目的在于提供一种获取声纹模型的方法、系统、存储介质以及计算机设备,可以提高声纹识别的准确率。
6.为了实现上述目的,本发明提供了一种获取声纹模型的方法,包括:
7.获取与用户所在场景相匹配的目标远场噪音模型;
8.通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征;
9.根据所述声纹特征训练声纹模型。
10.根据所述的获取声纹模型的方法,获取与用户所在场景相匹配的目标远场噪音模型的步骤之前包括:
11.录制所述用户的多个第二语音信号,并且标注每个所述第二语音信号的录制场景;
12.将多个所述录制场景进行分组;
13.分别根据每组所述录制场景相对应的第二语音信号训练一个远场噪音模型,获得多个所述远场噪音模型。
14.根据所述的获取声纹模型的方法,获取与用户所在场景相匹配的目标远场噪音模型的步骤包括:
15.获取所述用户所在场景;
16.根据所述用户所在场景与所述远场噪音模型相对应的所述录制场景进行匹配,选取所述目标远场噪音模型。
17.根据所述的获取声纹模型的方法,获取所述用户所在场景的步骤包括:
18.获取所述用户的位置信息,通过所述位置信息判断所述用户所在场景。
19.根据所述的获取声纹模型的方法,获取所述用户所在场景的步骤包括:
20.拍摄所述用户的环境信息,通过所述环境信息判断所述用户所在场景。
21.根据所述的获取声纹模型的方法,获取所述用户所在场景的步骤包括:
22.提供所在场景信息输入界面,通过所述输入界面输入所述用户所在场景信息;
23.根据所述用户所在场景信息获取所述用户所在场景。
24.根据所述的获取声纹模型的方法,通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征的步骤包括:
25.通过所述目标远场噪音模型获取所述第一语音信号的语音频谱特征;
26.采用所述语音频谱特征提取所述声纹特征。
27.为了实现上述目的,本发明还提供了一种获取声纹模型的装置,包括:
28.远场噪音模型选取模块,用于获取与用户所在场景相匹配的目标远场噪音模型;
29.声纹特征获取模块,用于通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征;
30.声纹模型训练模块,用于根据所述声纹特征训练声纹模型。
31.为了实现上述目的,本发明还提供了一种存储介质,用于存储一种用于执行上述任意一种获取声纹模型的方法的计算机程序。
32.为了实现上述目的,本发明还提供了一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的获取声纹模型的方法。
33.本发明通过获取与用户所在场景相匹配的目标远场噪音模型,由此可以根据不同的用户所在场景选择不同的远场噪音模型,远场噪音模型是通过将噪音语音信号加入到声纹的录制中进行训练获得的,不同场景的噪音不同,通过匹配目标远场噪音模型,具有针对性;通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征;根据所述声纹特征训练声纹模型。借此,本发明实现了提高声纹识别的准确率。
附图说明
34.图1是本发明优选实施例的获取声纹模型的装置的示意图;
35.图2是本发明优选实施例的获取声纹模型的装置的示意图;
36.图3是本发明优选实施例的获取声纹模型的方法的流程图;
37.图4是本发明提供的计算机设备的结构示意图。
具体实施方式
38.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
39.需要说明的,本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,不管有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
40.此外,在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件,所属领域中具有通常知识者应可理解,制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式,而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语,故应解释成“包含但不限定于”。以外,“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
41.参见图1~图2,在本发明的第一实施例中提供了一种获取声纹模型的装置100,包括:
42.远场噪音模型选取模块10,用于获取与用户所在场景相匹配的目标远场噪音模型;
43.声纹特征获取模块20,用于通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征;
44.声纹模型训练模块30,用于根据所述声纹特征训练声纹模型。
45.在该实施例中,声纹模型并不是固定不变的,声纹模型随着用户所在场景的变化而变化,因为用户所在场景的环境噪音会影响声纹模型进行声纹识别的准确率。由此,为了提高准确率,训练不同的声纹模型适配不同的所述用户所在场景。具体的是,获取与用户所在场景相匹配的目标远场噪音模型,远场噪音模型是通过将噪音语音信号加入到声纹的录制中进行训练获得的,不同场景的噪音不同,通过根据所述用户所在场景匹配目标远场噪音模型,具有针对性;远场噪音模型选取模块10优选为云端;目标远场噪音模型输出所述用户的第一语音信号的声纹特征用于声纹模型训练模块30根据所述声纹特征训练声纹模型,由此可以获得与所述用户所在场景相适配的声纹模型,提高声纹识别的准确率。
46.在本发明的第二实施例中,还包括:
47.训练语音录制模块40,用于录制所述用户的多个第二语音信号,并且标注每个所述第二语音信号的录制场景;
48.场景分组模块50,用于将多个所述录制场景进行分组;
49.远场噪音模型生成模块60,用于分别根据每组所述录制场景相对应的第二语音信号训练一个远场噪音模型,获得多个所述远场噪音模型。
50.在该实施例中,是所述用户上传的多个各种录制场景下的第二语音信号作为训练各个远场噪音模型的训练数据,每种录制场景的所述第二语音信号训练一个所述远场噪音模型,从而生成多个分别对应各个录制场景的所述远场噪音模型。增加训练数据可以增强所述远场噪音模型的训练效果,可以每次所述用户上传所述训练数据则对对应的所述远场噪音模型进行一次训练,逐步优化各个所述远场噪音模型。
51.在本发明的第三实施例中,远场噪音模型选取模块10包括:
52.场景获取子模块11,用于获取所述用户所在场景;
53.远场噪音模型选取子模块12,用于根据所述用户所在场景与所述远场噪音模型相对应的所述录制场景进行匹配,选取所述目标远场噪音模型。
54.在该实施例中,通过将所述用户所在场景与所述远场噪音模型相对应的所述录制场景进行匹配来选取所述目标远场噪音模型,使得所述目标远场噪音模型与所述用户所在
场景相适配,最终获得可以对该用户所在场景下录制的语音信号进行声纹识别准确率高的声纹模型。
55.在本发明的第四实施例中,场景获取子模块11包括:
56.位置信息获取单元111,用于获取所述用户的位置信息,通过所述位置信息判断所述用户所在场景。可以通过gps技术来定位所述用户的智能设备,从而实现对所述用户的定位,获取所述用户的位置信息。通过所述用户的位置信息判断所述用户所在场景。例如,获取所述用户的位置信息为所述用户的居所位置,则判断所述用户所在场景为家庭场景。
57.在本发明的第五实施例中,场景获取子模块11包括:
58.拍摄单元112,用于拍摄所述用户的环境信息,通过所述环境信息判断所述用户所在场景。通过拍摄所述用户的环境信息,获取所述用户所在的环境图像,将该环境图像与数据库进行比对,判断出所述用户所在场景。
59.在本发明的第六实施例中,场景获取子模块11包括:
60.输入单元113,用于提供所在场景信息输入界面,通过所述输入界面输入所述用户所在场景信息,根据所述用户所在场景信息获取所述用户所在场景。所述用户所在场景可以通过所述用户进行输入,输入单元113可以设置于所述用户的智能设备中。所述用户可以输入家庭成员信息(也可以由系统根据大数据先行推荐几个不同结构的家庭模型让所述用户选择,如三口之家、四口之家、七口之家等)。所述用户通过还可以直接录入噪声的方式,让云端判断其所在场景。例如所述用户在其居所中,可以录入家庭环境、智能家居(包括一些空调、厨房家居等声音)等对环境影响特别大的噪声,录入结束后,通过智能终端设备将噪声数据上传到云端,由云端选择与所述噪声数据相适应的远场噪音模型。
61.在本发明的第七实施例中,所述录制场景包括所述用户的居所。随着人工智能走入家庭,现有的人工智能设备进行声纹识别的场所很多是在用户的居所,例如,所述用户在居所中使用带屏音箱进行声纹购物。在家庭场景中进行声纹购物是会伴随有很多噪音,例如,家庭成员的声音,电视声音,脚步声音,空调声音等等,这些噪音都将影响声纹模型进行声纹识别的准确率,由此,需要在录制场景中加入所述用户的居所,训练与家庭场景向匹配的远场噪音模型,从而实现提高声纹识别的准确率。
62.在本发明的第八实施例中,声纹特征获取模块20包括:
63.语音频谱特征获取子模块21,用于通过所述目标远场噪音模型获取所述第一语音信号的语音频谱特征;
64.声纹特征提取子模块22,用于采用所述语音频谱特征提取所述声纹特征。
65.在本发明的第九实施例中,还包括:
66.声纹识别模块70,用于根据所述声纹模型进行声纹识别。
67.图3是本发明实施例的获取声纹模型的方法的流程图,所述方法可以通过上述任一项所述的装置100实现,获取声纹模型的方法包括:
68.步骤s301,获取与用户所在场景相匹配的目标远场噪音模型;通过远场噪音模型选取模块10实现;
69.步骤s302,通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征;通过声纹特征获取模块20实现;
70.步骤s303,根据所述声纹特征训练声纹模型;通过声纹模型训练模块30实现。
71.在该实施例中,所述方法可以通过上述任一项所述的装置100实现,具体实施过程参见上述描述,在此不再赘述。
72.在本发明的一个实施例中,步骤s301之前包括:
73.录制所述用户的多个第二语音信号,并且标注每个所述第二语音信号的录制场景;通过训练语音录制模块40实现;
74.将多个所述录制场景进行分组;通过场景分组模块50实现;
75.分别根据每组所述录制场景相对应的第二语音信号训练一个远场噪音模型,获得多个所述远场噪音模型;通过远场噪音模型生成模块60实现。
76.在本发明的一个实施例中,步骤s301包括:
77.获取所述用户所在场景;通过场景获取子模块11实现;
78.根据所述用户所在场景与所述远场噪音模型相对应的所述录制场景进行匹配,选取所述目标远场噪音模型;通过远场噪音模型选取子模块12实现。
79.在本发明的一个实施例中,获取所述用户所在场景的步骤包括:
80.获取所述用户的位置信息,通过所述位置信息判断所述用户所在场景;通过位置信息获取单元111实现。
81.在本发明的一个实施例中,获取所述用户所在场景的步骤包括:
82.拍摄所述用户的环境信息,通过所述环境信息判断所述用户所在场景;通过拍摄单元112实现。
83.在本发明的一个实施例中,获取所述用户所在场景的步骤包括:
84.提供所在场景信息输入界面,通过所述输入界面输入所述用户所在场景信息;
85.根据所述用户所在场景信息获取所述用户所在场景;通过输入单元113实现。
86.在本发明的一个实施例中,所述录制场景包括所述用户的居所。
87.在本发明的一个实施例中,步骤s302包括:
88.通过所述目标远场噪音模型获取所述第一语音信号的语音频谱特征;通过语音频谱特征获取子模块21实现;
89.采用所述语音频谱特征提取所述声纹特征;通过声纹特征提取子模块22实现。
90.在本发明的一个实施例中,步骤s303之后包括:
91.根据所述声纹模型进行声纹识别;通过声纹识别模块70实现。
92.本发明还提供一种存储介质,用于存储一种用于执行上述任意一种任务调度方法的计算机程序。例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令,可能被存储在固定的或可移动的存储介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的计算机设备的存储介质中。在此,根据本技术的一个实施例中,包括一个如图4所示的计算机设备400,所述计算机设备400优选包括用于存储计算机程序的存储介质200和用于执行计算机程序的处理器300,其中,当该计算机程序被该处理器300执行时,触发该计算机设备400执行基于前述多个实施例中的方法和/或技术方案。
93.需要注意的是,本技术可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例
中,本技术的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本技术的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
94.根据本发明的方法可以作为计算机实现方法在计算机上实现、或者在专用硬件中实现、或以两者的组合的方式实现。用于根据本发明的方法的可执行代码或其部分可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。优选地,计算机程序产品包括存储在计算机可读介质上以便当所述程序产品在计算机上执行时执行根据本发明的方法的非临时程序代码部件。
95.在优选实施例中,计算机程序包括适合于当计算机程序在计算机上运行时执行根据本发明的方法的所有步骤的计算机程序代码部件。优选地,在计算机可读介质上体现计算机程序。
96.综上所述,本发明通过获取与用户所在场景相匹配的目标远场噪音模型,由此可以根据不同的用户所在场景选择不同的远场噪音模型,远场噪音模型是通过将噪音语音信号加入到声纹的录制中进行训练获得的,不同场景的噪音不同,通过匹配目标远场噪音模型,具有针对性;通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征;根据所述声纹特征训练声纹模型。借此,本发明实现了提高声纹识别的准确率。
97.当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
98.本发明还公开了:a1、一种获取声纹模型的方法,包括:
99.获取与用户所在场景相匹配的目标远场噪音模型;
100.通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征;
101.根据所述声纹特征训练声纹模型。
102.a2、根据a1所述的获取声纹模型的方法,获取与用户所在场景相匹配的目标远场噪音模型的步骤之前包括:
103.录制所述用户的多个第二语音信号,并且标注每个所述第二语音信号的录制场景;
104.将多个所述录制场景进行分组;
105.分别根据每组所述录制场景相对应的第二语音信号训练一个远场噪音模型,获得多个所述远场噪音模型。
106.a3、根据a2所述的获取声纹模型的方法,获取与用户所在场景相匹配的目标远场噪音模型的步骤包括:
107.获取所述用户所在场景;
108.根据所述用户所在场景与所述远场噪音模型相对应的所述录制场景进行匹配,选取所述目标远场噪音模型。
109.a4、根据a3所述的获取声纹模型的方法,获取所述用户所在场景的步骤包括:
110.获取所述用户的位置信息,通过所述位置信息判断所述用户所在场景。
111.a5、根据a3所述的获取声纹模型的方法,获取所述用户所在场景的步骤包括:
112.拍摄所述用户的环境信息,通过所述环境信息判断所述用户所在场景。
113.a6、根据a3所述的获取声纹模型的方法,获取所述用户所在场景的步骤包括:
114.提供所在场景信息输入界面,通过所述输入界面输入所述用户所在场景信息;
115.根据所述用户所在场景信息获取所述用户所在场景。
116.a7、根据a3所述的获取声纹模型的方法,所述录制场景包括所述用户的居所。
117.a8、根据a1所述的获取声纹模型的方法,通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征的步骤包括:
118.通过所述目标远场噪音模型获取所述第一语音信号的语音频谱特征;
119.采用所述语音频谱特征提取所述声纹特征。
120.a9、根据a1所述的获取声纹模型的方法,根据所述声纹特征训练声纹模型的步骤之后包括:
121.根据所述声纹模型进行声纹识别。
122.b10、一种获取声纹模型的装置,包括:
123.远场噪音模型选取模块,用于获取与用户所在场景相匹配的目标远场噪音模型;
124.声纹特征获取模块,用于通过所述目标远场噪音模型输出所述用户的第一语音信号的声纹特征;
125.声纹模型训练模块,用于根据所述声纹特征训练声纹模型。
126.b11、根据b10所述的获取声纹模型的装置,还包括:
127.训练语音录制模块,用于录制所述用户的多个第二语音信号,并且标注每个所述第二语音信号的录制场景;
128.场景分组模块,用于将多个所述录制场景进行分组;
129.远场噪音模型生成模块,用于分别根据每组所述录制场景相对应的第二语音信号训练一个远场噪音模型,获得多个所述远场噪音模型。
130.b12、根据b11所述的获取声纹模型的装置,远场噪音模型选取模块包括:
131.场景获取子模块,用于获取所述用户所在场景;
132.远场噪音模型选取子模块,用于根据所述用户所在场景与所述远场噪音模型相对应的所述录制场景进行匹配,选取所述目标远场噪音模型。
133.b13、根据b12所述的获取声纹模型的装置,场景获取子模块包括:
134.位置信息获取单元,用于获取所述用户的位置信息,通过所述位置信息判断所述用户所在场景。
135.b14、根据b12所述的获取声纹模型的装置,,场景获取子模块包括:
136.拍摄单元,用于拍摄所述用户的环境信息,通过所述环境信息判断所述用户所在场景。
137.b15、根据b12所述的获取声纹模型的装置,场景获取子模块包括:
138.输入单元,用于提供所在场景信息输入界面,通过所述输入界面输入所述用户所在场景信息,根据所述用户所在场景信息获取所述用户所在场景。
139.b16、根据b12所述的获取声纹模型的装置,所述录制场景包括所述用户的居所。
140.b17、根据b10所述的获取声纹模型的装置,声纹特征获取模块包括:
141.语音频谱特征获取子模块,用于通过所述目标远场噪音模型获取所述第一语音信
号的语音频谱特征;
142.声纹特征提取子模块,用于采用所述语音频谱特征提取所述声纹特征。
143.b18、根据b10所述的获取声纹模型的装置,还包括:
144.声纹识别模块,用于根据所述声纹模型进行声纹识别。
145.c19、一种存储介质,用于存储一种用于执行a1~a9中任意一种获取声纹模型的方法的计算机程序。
146.d20、一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现a1~a9任一项所述的获取声纹模型的方法。