首页 > 乐器声学 专利正文
模型训练方法、装置、电子设备和可读存储介质与流程

时间:2022-02-20 阅读: 作者:专利查询

模型训练方法、装置、电子设备和可读存储介质与流程

1.本技术涉及移动终端技术领域,更具体的,涉及一种模型训练方法、装置、电子设备和可读存储介质。


背景技术:

2.近年来,随着智能语音处理技术、互联网和云计算技术的快速发展,目前市面上出现电子设备已经可以针对用户发送的语音指令进行响应。并且,在执行特定操作时,电子设备需通过识别用户输入的音频数据来确定用户的身份,进而确定是否执行对应操作,故在用户使用电子设备之前通常需要输入声纹信息,以保证电子设备能够根据其输入的音频数据来对应执行不同的操作。因此,如何简单有效的输入声纹信息是亟待解决的技术问题。


技术实现要素:

3.本技术提出了一种模型训练方法、装置、电子设备和可读存储介质,以改善上述缺陷。
4.第一方面,本技术实施例提供了一种模型训练方法,应用于电子设备,所述方法包括:检测是否接收到用户输入的第一语音信息;在接收到所述第一语音信息的情况下,根据所述第一语音信息确定所述用户的年龄;若所述用户的年龄满足预设条件,则获取与该年龄匹配的目标声纹录入模式;在所述目标声纹录入模式下采集所述用户输入的第二语音信息,并根据所述第二语音信息训练声纹模型。
5.第二方面,本技术实施例还提供了一种模型训练装置,所述装置应用于电子设备,该装置包括:检测模块、确定模块、获取模块以及采集模块。其中,检测模块,用于检测是否接收到用户输入的第一语音信息。确定模块,用于在接收到所述第一语音信息的情况下,根据所述第一语音信息确定所述用户的年龄。获取模块,用于若所述用户的年龄满足预设条件,则获取与该年龄匹配的目标声纹录入模式。采集模块,用于在所述目标声纹录入模式下采集所述用户输入的第二语音信息,并根据所述第二语音信息训练声纹模型。
6.第三方面,本技术实施例还提供了一种电子设备,包括一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述方法。
7.第四方面,本技术实施例还提供了一种计算机可读介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
8.本技术实施例提供的模型训练方法、装置、电子设备和可读存储介质,在目标声纹录入模式下采集用户输入的第二语音信息可以提高用户输入声纹的使用体验,具体的,检测是否接收到用户输入的第一语音信息,如果接收到第一语音信息,则根据该第一语音信息确定用户的年龄,并在确定用户的年龄满足预设条件时,获取与该年龄匹配的目标声纹录入模式,而后在该目标声纹录入模式下采集用户输入的第二语音信息,并根据第二语音信息训练声纹模型。本技术通过用户的年龄来获取目标声纹录入模式,并在目标声纹录入
模式下采集用户输入的第二语音信息,不仅可以提高用户输入声纹的使用体验,而且可以提高模型训练的灵活性和有效性。
9.本技术实施例的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例而了解。本技术实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1示出了本技术一个实施例提供的模型训练方法的方法流程图;
12.图2示出了本技术一个实施例提供的模型训练方法中触发声纹模型训练功能之前的界面显示示意图;
13.图3示出了本技术一个实施例提供的模型训练方法中触发声纹模型训练功能之后的界面显示示意图;
14.图4示出了本技术一个实施例提供的模型训练方法中电子设备进入目标声纹录入模式时的界面显示示意图;
15.图5示出了本技术一个实施例提供的模型训练方法中电子设备进入目标声纹录入模式时的界面显示示意图;
16.图6示出了本技术另一个实施例提供的模型训练方法的方法流程图;
17.图7示出了本技术又一个实施例提供的模型训练方法的方法流程图;
18.图8示出了本技术又一个实施例提供的模型训练方法中步骤s360的流程图;
19.图9示出了本技术又一个实施例提供的模型训练方法中音频录入合格时电子设备的界面显示示意图;
20.图10示出了本技术又一个实施例提供的模型训练方法中音频录入不合格时电子设备的界面显示示意图;
21.图11示出了本技术实施例提供的模型训练装置的结构框图;
22.图12示出了本技术实施例提供的电子设备的结构框图;
23.图13示出了本技术实施例提供的用于保存或者携带实现根据本技术实施例的模型训练方法的程序代码的存储单元。
具体实施方式
24.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
25.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
26.首先,对本技术中的部分用语进行解释说明,以便于本领域技术人员理解。
27.现有的身份识别技术除了包括指纹识别和人脸识别等生物特征识别之外,还包括语音识别,声纹识别是语音识别的主要技术,而声纹特征是人体重要的生物特征之一,其具有较强的个体特殊性,声纹特征常用于声纹识别、声纹认证等电子设备产品中,并且在物联网(internet of things,iot)设备中的应用也在不断得到普及。由于声纹特征的个体特殊性,用户在使用电子设备时,需要输入训练数据,以获取到用户特有的声纹模型。
28.目前,电子设备在获取声纹模型时,通常需要采集用户输入的音频数据,该音频数据可以是用户通过点击电子设备中的声纹录入按钮一次性采集的预设数量的用户语音数据,电子设备在采集到这些音频数据之后,可以提取声纹信息,以生成声纹唤醒模型。现有技术在采集音频数据时,通常需要用户与电子设备的屏幕界面进行交互,以实现声纹信息的录入,然而现有技术更多关注点在如何使交互或者交互界面更加实用或者美观,其针对的客户多数是年轻用户群体,而对于老年用户群体来说,现有的声纹录入交互界面则不是很友好,如此导致老年用户群体的使用体验不佳。
29.针对上述问题,发明人提出了本技术实施例提供的模型训练方法、装置电子设备以及存储介质,在目标声纹录入模式下采集用户输入的第二语音信息可以提高用户输入声纹的使用体验,具体的,检测是否接收到用户输入的第一语音信息,如果接收到第一语音信息,则根据该第一语音信息确定用户的年龄,并在确定用户的年龄满足预设条件时,获取与该年龄匹配的目标声纹录入模式,而后在该目标声纹录入模式下采集用户输入的第二语音信息,并根据第二语音信息训练声纹模型。本技术通过用户的年龄来获取目标声纹录入模式,并在目标声纹录入模式下采集用户输入的第二语音信息,不仅可以提高用户输入声纹的使用体验,而且可以提高模型训练的灵活性。其中,具体的模型训练方法在后续的实施例中进行详细的说明。
30.请参阅图1,图1示出了本技术一个实施例提供的模型训练方法的流程示意图。在具体的实施例中,所述模型训练方法应用于如图11所示的模型训练装置400以及应用于如图12所示的电子设备500。下面将针对图1所示的流程进行详细的阐述,所述模型训练方法具体可以该方法可包括步骤110至步骤s140。
31.步骤s110:检测是否接收到用户输入的第一语音信息。
32.本技术实施例可以应用于电子设备,该电子设备可以是蜂窝电话、智能电话、智能音箱、智能手表、便携式电脑、手持通信设备、手持计算设备、卫星无线电装置、全球定位系统以及掌上电脑(personal digital assistant,pda)等,但并不局限于此。另外,该电子设备可以设置音频采集装置,电子设备通过该音频采集装置获取用户输入的音频数据。
33.在一些实施方式中,电子设备可以检测是否接收到用户输入的第一语音信息,所述第一语音信息可以是用户输入的任一语音信息。例如,所述第一语音信息可以是“声纹训练”。
34.作为一种方式,第一语音信息可以是声纹模型训练功能被触发之后采集到的语音信息,其中,声纹模型训练功能可以是用户通过触发指定控件后打开的功能,所述指定控件
可以是设备按键,也可以是电子设备屏幕上显示的控件。如图2所示的“开始录入”按钮便可以作为指定控件。
35.作为另一种方式,当用户通过触发指定控件触发声纹模型训练功能后,电子设备屏幕上显示的内容可以从第一界面跳转到第二界面,其中,第一界面可以包括指定控件,第二界面可以用于采集用户输入的语音信息。例如,当用户触发图2所示的“开始录入”按钮后,电子的显示界面便可以调整至如图3所示的界面。在图3所示的界面下,用户可以根据指示输入多条语音信息。换句话说,第一语音信息可以是用户在第二界面下输入的信息。
36.作为一个示例,当用户触发“开始录入”控件后,电子设备可以检测用户是否输入包含关键词“声纹训练”的语音信息,如果检测到用户输入包含关键词“声纹训练”的语音信息时,确定接收到用户输入的第一语音信息。
37.作为另一种方式,在接收到用户输入的第一语音信息时,本技术实施例可以对第一语音信息进行语音识别,得到语音识别结果,而后根据该语音识别结果,确定第一语音信息是否包含指定关键词,如果第一语音信息包括指定关键词,则确定电子设备接收到用户输入的第一语音信息。如果第一语音信息未包括指定关键词,则可以确定电子设备未接收到用户输入的第一语音信息。
38.作为另一种方式,如果第一语音信息未包括指定关键词,本技术实施例也可以对第一语音信息进行语义识别,得到语义识别结果,而后根据语义识别结果,确定第一语音信息是否符合语音条件,如果符合语义条件,则确定接收到用户输入的第一语音信息。其中,语义条件可以是语义识别结果是否与输入声纹信息相关,如果语义识别结果与输入声纹信息相关,则确定第一语音信息符合语音条件。例如,第一语音信息可以为“训练开始”、“怎么输入训练声音”等都是和声纹训练相关,此时可以确定接收到用户输入的第一语音信息。
39.在一些实施方式中,电子设备可以包括音频采集模块,在确定声纹训练功能被触发之后,本技术实施例便可以利用该音频采集模块采集用户输入的语音信息,并将该语音信息作为第一语音信息。当电子设备确定音频采集模块采集到第一语音信息时,且确定第一语音信息符合语音条件时,确定接收到用户输入的第一语音信息,此时电子设备可以根据第一语音信息确定用户的年龄,即进入步骤s120。
40.在一些实施方式中,在确定声纹训练功能被触发之后,电子设备可以检测预设时间段内是否接收到用户输入的第一语音信息,如果接收到,则根据第一语音信息确定用户的年龄,如果预设时间段内未接收到用户输入的第一语音信息,则可以输出提示信息,通过该提示信息提示用户尽快输入第一语音信息。具体的,电子设备可以通过语音提示功能提示用户输入第一语音信息,或者也可以通过界面显示的方式提示用输入第一语音信息。另外,在输出提示信息的预设时长之后,如果仍未接收到用户输入的第一语音信息,本技术实施例则可以关闭声纹训练功能,以此避免声纹训练长期处于打开状态,为电子设备带来不必要的功耗。此时,电子设备的件界面显示可以从图3跳转至图2,或者是直接关闭声纹输入界面。
41.步骤s120:在接收到所述第一语音信息的情况下,根据所述第一语音信息确定所述用户的年龄。
42.作为一种方式,在接收到用户输入的第一语音信息的情况下,本技术实施例可以根据该第一语音信息确定用户的年龄,不同的用户,其音频信息有所不同,并且不同年龄段
的用户,其音频信息也有所不同,故本技术实施例可以基于用户输入的第一语音信息预测出用户的年龄。具体的,通过已训练好的年龄识别模型识别第一语音信息得到用户的年龄。可选的,本技术实施例可以预先训练年龄识别模型,通过将第一语音信息作为已训练好的年龄识别模型的输入,将年龄识别模型的输出作为用户的年龄。
43.在一个可选的实施例中,年龄识别模型的训练过程可以包括:获取不同年龄的多个用户的语音;提取每个语音的梅尔频率倒谱系数;将所述年龄及对应的梅尔频率倒谱系数(mel frequency cestrum coefficient,mfcc系数)作为样本数据集;将所述样本数据集划分为训练集和测试集;将所述训练集输入预设神经网络中进行训练,得到年龄识别模型;将所述测试集输入所述年龄识别模型中进行测试;获取测试通过率;当所述测试通过率大于或者等于预设通过率阈值,结束所述年龄识别模型的训练;当所述测试通过率小于预设通过率阈值,则增加训练集的数量,重新进行年龄识别模型的训练。本实施例中,可以获取不同年龄段的用户的语音信息,然后提取出语音的mfcc,基于不同年龄段的用户对应的mfcc训练年龄识别模型。
44.作为一种方式,本技术实施例在根据第一语音信息确定用户的年龄时,其可以利用模板匹配方法、最近邻方法、神经网络方法、隐式马尔可夫模型(hmm)方法、vq聚类方法(如lbg)、多项式分类器方法等中的至少一种方法获取用户的年龄。
45.本技术实施例中,用户的年龄可以包括第一年龄段和第二年龄段,第一年龄段可以是年龄大于指定年龄的用户,第一年龄段的用户也可以称作是老年用户群体,第二年龄段可以称作是其他用户群体,所述其他用户群体可以包括年轻用户群体。
46.在一些实施方式中,根据第一语音信息确定用户的年龄之后,为了保证获取的准确性,本技术实施例也可以采集用户的人脸图像,并结合人脸图像和第一语音信息综合确定用户的年龄,其中,人脸图像和第一语音信息可以为同一个用户对应的不同生物特征信息。
47.在另一些实施方式中,根据第一语音信息确定出用户的年龄时,电子设备也可以获取可以通过所述用户的第一语音信息查找所述用户的出生日期(包括年、月和日),并根据所述用户的出生日期与所述电子设备的当前日期(包括年、月和日)确定出所述用户的年龄。具体的,电子设备可以通过获取用户的历史操作数据,并根据历史操作数据获取用户的出生年月,历史操作数据可以是用户频繁输入的历史数据,如用户频繁输入的身份证件数据,所述历史操作数据也可以是和用户相关的其他身份信息,通过分析这些身份信息,本技术实施例便可以获取到用户的出生年月,进而确定出用户的年龄。
48.在一些实施方式中,根据第一语音信息确定出用户的年龄之后,电子设备可以确定用户的年龄是否满足预设条件,如果用户的年龄满足预设条件,则可以获取与该年龄匹配的目标声纹录入模式,即进入步骤s130。
49.步骤s130:若所述用户的年龄满足预设条件,则获取与该年龄匹配的目标声纹录入模式。
50.本技术实施例中,预设条件可以是用户的年龄是否大于指定年龄,如本技术实施例可以确定用户的年龄是否大于50岁,如果大于50岁,则确定用户的年龄满足预设条件。另外,预设条件也可以是用户的年龄是否位于预设年龄范围等,如果用户的年龄满足预设条件,则可以获取与该年龄匹配的目标声纹录入模式。其中,目标声纹录入模式可以称作是老
年模式,该目标声纹录入模式相对老人来说更友好。
51.作为一种方式,电子设备可以接收用户在第一声纹录入模式下输入第一语音信息,其中,第一声纹录入模式也可以称作是正常模式,根据第一语音信息确定出用户的年龄满足预设条件时,本技术实施例可以将声纹录入模式从第一声纹录入模式切换为目标声纹录入模式,即将声纹录入模式从正常模式切换为老年模式。
52.作为另一种方式,电子设备在确定出用户的年龄满足预设条件时,也可以直接获取与年龄匹配的目标声纹录入模式,即电子设备可以直接进入老年模式,其不需要考虑电子设备之前的使用模式。换句话说,在确定用户的年龄满足预设条件时,本技术实施例可以不考虑电子设备当前所处的模式,而可以直接进入目标声纹录入模式。需要注意的是,当进目标声纹录入模式之前,电子设备也可以先确定其当前所处的模式是否为目标声纹录入模式,如果电子设备当前所处模式是目标声纹录入模式,则可以保持模式不变。
53.本技术实施例中,目标声纹录入模式下的提示信息大小与用户的年龄成正相关,其中,提示信息用于提示用户输入第二语音信息。其中,提示信息大小可以包括指纹录入界面中字体的大小,即用户的年龄越大,则提示信息的字体可以越大。如图3所示的可以是正常模式下电子设备的界面显示示意图,图4所示的可以是目标声纹录入模式(老年模式)下电子设备的界面显示示意图。通过对比图3和图4可以知道,目标声纹录入模式(老年模式)下显示的提示信息占用屏幕的面积大于第一声纹录入模式下(正常模式)显示的提示信息占用屏幕的面积。
54.在另一些实施方式中,提示信息大小也可以包括指纹录入界面中图像的大小,年龄越大则图像占用界面的面积可以越大,如此可以更好的实现对老年用户群体的提示。另外,提示信息大小也可以包括指纹录入界面中控件的大小,年龄越大则控件占用界面的面积可以越大。
55.作为另一种方式,目标声纹录入模式配置有语音提示功能,该语音提示功能用于提示用户输入第二语音信息。具体的,电子设备可以配置音频播放装置,电子设备可以通过该音频播放装置实现语音提示功能。另外,语音提示功能在提示用户输入第二语音信息时,其输出的提示信息可以是与电子设备界面上显示的内容相同。例如,电子设备的界面上显示的文本提示内容为“请输入小布小布”,同时音频播放装置可以输出音频“请输入小布小布”。
56.作为另一种方式,语音提示功能在提示用户输入第二语音信息时,其输出的提示信息也可以与电子设备界面上显示的内容不相同。例如,电子设备的界面上显示的内容为语音信息输入失败的图标,而音频播放装置输出的音频可以为“小主,音频输入失败,麻烦重新输入”。
57.在另一些实施方式中,电子设备界面上显示的内容和音频播放装置输出的音频可以根据用户的实际情况变化。用户的实际情况不同则对应显示的内容以及输出的音频则可以不相同。具体的,电子设备在确定用户的年龄满足预设条件时,本技术实施例可以获取用户的历史使用数据,并通过分析用户的历史使用数据获取用户的实际情况,所述实际情况可以包括用户的听力较差,或者是视力较差。具体的,电子设备可以从历史数据中获取用户输入视力相关数据的反应速度,以及获取用户输入听力相关数据的反应速度。如果确定视力反应速度和听力反应速度差不多,则音频播放装置输出的提示信息与电子设备界面上显
示的内容信息可以相同。
58.作为另一种方式,如果确定视力反应速度远差于听力反应速度,则音频播放装置输出的提示信息与电子设备界面上显示的内容信息可以不相同,并且,音频播放装置输出的提示信息相较电子设备界面上显示的内容信息可以更详细。另外,在确定视力反应速度远差于听力反应速度时,本技术实施例可以加大电子设备界面显示的内容的大小。具体的,可以加大字体显示的大小,或者是加大控件显示的大小,或者是加大图像显示的大小等。
59.作为另一种方式,如果确定听力反应速度远差于视力反应速度,则音频播放装置输出的提示信息与电子设备界面上显示的内容信息可以不相同,并且,电子设备界面上显示的内容信息相较音频播放装置输出的提示信息可以更详细。另外,在确定听力反应速度远差于视力反应速度时,本技术实施例可以加大音频播放装置输出音量的大小。
60.作为另一种方式,目标声纹录入模式下的显示控件的数量与用户的年龄成反比,所述显示控件用于辅助用户输入第二语音信息。其中,显示控件可以包括可操作控件,也可以包括不可操作控件,所述不可操作控件可以是图层。例如,图5相较图3而言,其对应的显示控件的数量更少。另外,目标声纹录入模式下的图层与用户的年龄成反比,即用户的年龄越大,则目标声纹录入模式下包含的图层数量可以越少,且图层可以越简单。例如,图5相较图3而言,其图层越简单且包含的控件的数量也越少。通过控制显示控件以及图层的数量本技术实施例可以为用户提供一个更加简单明了的显示界面,其对于老年用户群体也更加友好。
61.可选的,目标声纹录入模式下的颜色数量与用户的年龄成反比,用户的年龄越大则目标声纹录入模式下界面显示的颜色数量更少,如此用户界面更加简洁,对于老年用户群体来说更容易实现模型训练。
62.在另一些实施方式中,根据第一语音信息确定用户的年龄时,本技术实施例可以关闭语音采集模块,即语音采集模块停止音频信号的采集,然后调用人工智能分类算法根据用户输入的第一语音信息对用户的年龄进行分类,即根据第一语音信息确定用户的年龄。
63.需要说明的是,为了避免音频采集装置采集音频播放装置播放的音频数据,本技术实施例可以在音频采集装置工作时,不进行音频数据的播放,以及在音频播放装置播放时,本技术实施例也可以控制音频采集装置不采集音频数据。作为另一种方式,电子设备在利用音频采集装置采集到音频数据时,本技术实施例也可以确定音频采集装置采集的音频数据是否为用户输入的输入,即确定音频采集装置采集的音频数据中是否包含音频播放装置输出的音频数据,如果包括,则将所述音频播放装置输出的音频数据滤除。如此不仅可以提高音频识别的准确性,同时可以降低不必要数据处理为电子设备带来的功耗。
64.步骤s140:在目标声纹录入模式下采集用户输入的第二语音信息,并根据所述第二语音信息训练声纹模型。
65.作为一种方式,获取到与年龄匹配的目标声纹录入模式时,本技术实施例可以在目标声纹录入模式下采集用户输入的第二语音信息,并根据所述第二语音信息训练声纹模型。
66.在一些实施方式中,第一语音信息可以是与第二语音信息相同,也可以是与第二语音信息不同,当第一语音信息与第二语音信息不同时,则该第一语音信息仅用于获取用
户的年龄,进而获取与该年龄匹配的声纹录入模式。另外,第一语音信息与第二语音信息相同时,第一语音信息不仅可以用于获取用户的年龄和声纹录入模式,并且其也可以用于声纹模型的训练。换句话说,在根据第二语音信息训练声纹模型时,本技术实施例可以仅利用第二语音信息训练声纹模型,或者也可以将结合第一语音信息和第二语音信息综合训练声纹模型。
67.本技术实施例提出的一种模型训练方法,在目标声纹录入模式下采集用户输入的第二语音信息可以提高用户输入声纹的使用体验,具体的,检测是否接收到用户输入的第一语音信息,如果接收到第一语音信息,则根据该第一语音信息确定用户的年龄,并在确定用户的年龄满足预设条件时,获取与该年龄匹配的目标声纹录入模式,而后在该目标声纹录入模式下采集用户输入的第二语音信息,并根据第二语音信息训练声纹模型。本技术通过用户的年龄来获取目标声纹录入模式,并在目标声纹录入模式下采集用户输入的第二语音信息,不仅可以提高用户输入声纹的使用体验,而且可以提高模型训练的灵活性。
68.本技术另一实施例提供了一种模型训练方法,请参阅图6,该模型训练方法可以包括步骤s210至步骤s270。
69.步骤s210:检测是否接收到用户输入的第一语音信息。
70.步骤s220:在接收到所述第一语音信息的情况下,根据所述第一语音信息确定所述用户的年龄。
71.步骤s230:若所述用户的年龄满足预设条件,则获取与该年龄匹配的目标声纹录入模式。
72.通过上述实施例介绍可以知道,在确定用户的年龄是否满足预设条件时,本技术实施例可以确定所述用户的年龄是否大于指定年龄,若所述用户的年龄大于指定年龄,则确定所述用户的年龄满足预设条件,获取与该年龄匹配的目标声纹录入模式。其中,指定年龄可以是预先设置的。例如,指定年龄可以是50岁。
73.在另一些实施方式中,指定年龄也可以根据用户的实际情况进行选择,主要原因是有些用户的视听随着年龄的变化下降比较大,而有一些用户的视听则随着年龄的变化下降比较小。因此,在确定用户的年龄是否满足预设条件时,本技术实施例可以先对用户的视力和听力进行分析,然后基于用户的视力和听力获取到指定年龄。如此可以使目标声纹录入模式更加准确,即用户的使用体验更佳。
74.需要说明的是,本技术实施例中的目标声纹录入模式可以是老人模式,也可以是小孩模式,或者是针对不同群体的特殊人士的声纹录入模式。其中,特殊人士在进行声纹录入操作时其视力或者听力存在缺陷。例如,特殊人士可以是盲人。因此,在获取年龄匹配的目标声纹录入模式时,本技术实施例也可以先对用户进行分类,即确定用户为哪一类人群,而后将该类人群对应的声纹录入模式作为目标录入模式。
75.另外,本技术实施例的使用也不仅限于模型训练,即电子设备在与用户进行交互的过程中,如果存在信息提示的操作则都可以利用本方案,以更好的适用于老年用户群体或者是特殊人士。
76.步骤s240:在目标声纹录入模式下采集用户输入的第二语音信息。
77.作为一种方式,在获取到用户的年龄之后,电子设备可以进入目标声纹录入模式,该声纹录入模式下界面提示字体相较正常模式更大,且该声纹录入模式可以配置有语音提
示功能,故在电子设备进入目标声纹录入模式时,电子设备中的语音提示功能便可以被开启。
78.步骤s250:检测所述电子设备中是否存储有历史中断数据。
79.作为一种方式,电子设备在进入目标声纹录入模式时,其可以检测电子设备中是否存储有历史中断数据,如果电子设备中存储有历史中断数据,则可以根据该历史中断数据和第二语音信息训练声纹模型,即进入步骤s260。另外,如果电子设备中未存储有历史中断数据,本技术实施例则可以利用第二语音信息对初始神经网络进行训练以得到声纹模型,即进入步骤s270。
80.步骤s260:根据所述历史中断数据和所述第二语音信息训练所述声纹模型。
81.本技术实施例中,历史中断数据可以是用户在触发当前声纹录入操作之前通过触发声纹录入操作输入的数据,并且,历史中断数据可以是用户在之前的声纹录入操作时模型训练失败产生的数据。换句话说,在触发本次声纹录入操作时,用户可能触发过多次声纹录入操作,不过由于用户的个人原因,导致声纹录入操作中断。另外,历史中断数据可以是用户前一次触发声纹录入操作产生的数据,或者也可以是用户前n次触发声纹录入操作产生的所有数据,其中,n可以小于4次。
82.在一些实施方式中,历史中断数据可以包括用户在输入第一语音信息之前训练声纹模型的音频数据,本技术实施例在确定电子设备中存储有历史中断数据时,即确定电子设备中存储有音频数据时,其可以利用该音频数据和第二语音信息训练初始神经网络,以得到声纹模型。其中,获取声纹模型输入的音频数据可以是用来训练声纹模型的用户的音频数据。
83.在另一些实施方式中,历史中断数据可以包括用户在输入第一语音信息之前利用上述音频数据训练初始神经网络得到的候选神经网络的数据,本技术实施例在确定电子设备中存储有历史中断数据时,即确定电子设备中存储有候选神经网络的数据时,其可以利用所述第二语音信息训练所述候选神经网络得到所述声纹模型,以利用所述第二语音信息实现对所述候选神经网络的数据的更新。其中,初始神经网络可以是预先存储在电子设备中的声纹识别网络,其主要用于声纹识别。候选神经网络的数据可以包括权重、偏移等。
84.在另一些实施方式中,历史中断数据也可以包括用户在输入第一语音信息之前训练声纹模型的音频数据,以及包括利用该音频数据训练初始神经网络得到的候选神经网络的数据,本技术实施例在确定电子设备中存储有历史中断数据时,即确定电子设备中存储有音频数据和候选神经网络的数据时,其可以利用所述音频数据和所述第二语音信息训练所述候选神经网络得到所述声纹模型,以利用所述第二语音信息和所述音频数据实现对所述候选神经网络的数据的更新。
85.本技术实施例中,在目标声纹录入模式下在即用户输入的第二语音信息操作可以是在检测电子设备中是否存储有历史中断数据之前,也可以是在检测电子设备中是否存储有历史中断数据之后。
86.作为一个示例,在目标声纹录入模式下在即用户输入的第二语音信息操作可以是在检测电子设备中是否存储有历史中断数据之后执行。具体的,在确定电子设备中存储有历史中断数据时,本技术实施例可以先确定历史中断数据包含的音频数据的数量,而后根据该数量提醒用户输入对应数量的第二语音信息。例如,通过确定历史中断数据包括的音
频数据为2,即在执行本次声纹录入操作之前,用户已输入2个音频数据,训练声纹模型总共需要4个音频数据,此时电子设备则可以提醒用户输入2个音频数据即可。可见,在检测电子设备中是否存储有历史中断数据之后采集用户输入的第二语音信息操作在一定程度上可以降低音频数据输入的次数,进而可以提高模型训练的效率。
87.步骤s270:利用所述第二语音信息对所述初始神经网络进行训练得到所述声纹模型。
88.在另一些实施方式中,如果确定电子设备中未存储有历史中断数据,本技术实施例则可以直接利用第二语音信息对初级神经网络进行训练,以得到声纹模型。此过程中,电子设备可以通过界面提示或者是音频提示的方式提示用户其应该输入音频数据的次数。
89.本技术实施例提出的一种模型训练方法,在目标声纹录入模式下采集用户输入的第二语音信息可以提高用户输入声纹的使用体验,具体的,检测是否接收到用户输入的第一语音信息,如果接收到第一语音信息,则根据该第一语音信息确定用户的年龄,并在确定用户的年龄满足预设条件时,获取与该年龄匹配的目标声纹录入模式,而后在该目标声纹录入模式下采集用户输入的第二语音信息,并根据第二语音信息训练声纹模型。本技术通过用户的年龄来获取目标声纹录入模式,并在目标声纹录入模式下采集用户输入的第二语音信息,不仅可以提高用户输入声纹的使用体验,而且可以提高模型训练的灵活性。另外,本技术实施例通过检测电子设备中是否存储有历史中断数可以降低音频数据输入的次数,进而可以提高模型训练的效率,并且,本技术实施例可以提升老年用户群体的使用体验。
90.本技术又一实施例提供了一种模型训练方法,请参阅图7,该模型训练方法可以包括步骤s310至步骤360。
91.步骤s310:检测是否接收到用户输入的第一语音信息。
92.步骤s320:在接收到所述第一语音信息的情况下,根据所述第一语音信息确定所述用户的年龄。
93.步骤s330:若所述用户的年龄满足预设条件,则获取与该年龄匹配的目标声纹录入模式。
94.步骤s340:在目标声纹录入模式下采集用户输入的第二语音信息。
95.作为一种方式,在获取到与年龄匹配的目标声纹录入模式时,本技术实施例也可以检测用户在指定时间段内是否输入第二语音信息,如果在指定时间段内输入第二语音信息则利用该第二语音信息训练声纹模型。本技术实施例中,指定时间段可以为10s,指定时间段可以是电子设备进入目标声纹录入模式之后的时长。
96.另外,如果在指定时间段内未输入第二语音信息,电子设备则可以输出提示信息,通过该提示信息提示用户马上输入训练数据。其中,提示信息可以以文本形式显示于电子设备的界面上,或者也可以通过音频播放装置输出该提示信息。例如,电子设备可以通过音频播放装置输入“麻烦请喊唤醒词小布小布”。
97.在另一些实施方式中,电子设备在输出提示信息的过程中,也可以对输出提示信息的次数进行统计,当所述输出提示信息的次数大于第二指定次数时,电子设备则可以增大输出提示信息的音量,并且输出提示信息的音量可以随着输出提示信息的次数的增加而增加,提示信息的输出次数越多则输出提示信息的音量越大,直到音量达到最大,仍未接收到第二语音信息则结束本次声纹录入操作。
98.在另一些实施方式中,电子设备在输出提示信息的过程中,也可以对输出提示信息的次数进行统计,当所述输出提示信息的次数大于第二指定次数时,电子设备则可以结束声纹录入操作,以避免重复弹出提示信息影响用户正常使用电子设备的使用体验。例如,在第1个10s内用户未输入第二语音信息,电子设备输出了提示信息,然而在第2个10s和第3个10s内用户仍然未输入第二语音信息,本技术实施例则可以结束本次声纹录入操作。另外,指定时间段也可以随着用户年龄的不同而不同,如用户的年龄为60岁其对应的指定时间段为15s。用户的年龄为70岁其对应的指定时间段为20s,即指定时间段可以与用户的年龄成正相关。
99.步骤s350:对所述第二语音信息进行语音识别,得到目标文本。
100.在另一些实施方式中,在确定电子设备中未存储有历史中断数据时,电子设备可以对第二语音信息进行语音识别,以得到目标文本,在基础上,确定该目标文本是否包括唤醒词,如果目标文本包括唤醒词,则利用第二语音信息训练声纹模型,即进入步骤s360。
101.在一些实施方式中,如果确定目标文本未包括唤醒词,本技术实施例则可以进一步确定目标文本是否包括指定关键词,其中,指定关键词用于中断或者结束声纹录入操作。如果确定目标文本包括指定关键词,电子设备则可以执行与该指定关键词对应的指定操作。
102.在一个具体的实施方式中,确定目标文本未包括唤醒词时,本技术实施例可以确定目标文本是否包括第一指定关键词,其中,第一指定关键词可以为“中断保存”,如果目标文本包括第一指定关键词,电子设备则可以执行与所述第一指定关键词对应的第一指定操作。其中,第一指定操作用于中断本次声纹录入操作,并且将本次声纹录入操作获取的语音信息进行保存,以供下次声纹录入操作被触发的时候使用。
103.在一个具体的实施方式中,确定目标文本未包括唤醒词时,本技术实施例可以确定目标文本是否包括第二指定关键词,其中,第二指定关键词可以为“结束训练”,如果目标文本包括第二指定关键词,电子设备则可以执行与所述第二指定关键词对应的第二指定操作。其中,第二指定操作用于结束本次声纹录入操作,与第一指定操作不同的是,第二指定操作直接结束声纹录入操作,而不会对本次采集的语音信息进行保存。
104.在一些实施方式中,指定操作不同则对应的提示信息也不相同。例如,第一指定操作执行后,电子设备可以输出第一指定提示信息“声纹训练已经中断保存”,第二指定操作执行后,电子设备可以输出第二指定提示信息“收到结束训练请求,即将结束声纹训练”。
105.在另一些实施方式中,电子设备在输出第一指定提示信息或者是输出第二指定提示信息之后,电子设备的也可以输出一个结束提示信息,所述结束提示信息可以是“声纹训练未完成,训练结束”。
106.步骤s360:若所述目标文本包括唤醒词,则利用所述第二语音信息训练所述声纹模型。
107.在另一些实施方式中,如果目标文本包括关键词,电子设备则可以对第二语音信息进行评估,以得到语音评估结果。在此基础上,本技术实施例可以根据该语音评估结果确定第二语音信息是否符合训练条件,如果所述第二语音信息符合训练条件,则利用所述第二语音信息训练所述声纹模型,并输出第一提示信息,所述第一提示信息用于提示所述用户所述第二语音信息录入成功。具体的,请参阅图8,步骤s360可以包括步骤s361至步骤
s362。
108.步骤s361:若所述目标文本包括唤醒词,则对所述第二语音信息进行评估,得到语音评估结果。
109.本技术实施例中,在确定目标文本包括唤醒词时,本技术实施例可以对第二语音信息进行评估,以得到语音评估结果。具体的,本技术实施例可以利用人工智能技术对第二语音信息进行评估,电子设备可以确定第二语音信息是否发音清晰,也可以确定第二语音信息的语速是否过快或者过慢,或者也可以确定第二语音信息的发音是否标准,或者是确定第二语音信息的音量是否过小。
110.步骤s362:若根据所述语音评估结果确定所述第二语音信息符合训练条件,则利用所述第二语音信息训练所述声纹模型,并输出第一提示信息。
111.在一些实施方式中,根据语音评估确定第二语音信息符合训练条件时,本技术实施例则可以利用第二语音信息训练声纹模型,并输出第一提示信息,其中,第一提示信息可以用于提示用户第二语音信息录入成功。如图9所示的便是第二语音信息录入成功时电子设备的界面显示内容。通过图9可以知道,当用户录入的第二语音信息不符合训练条件时,电子设备可以输出第一提示信息,该提示信息可以是“该次采集音频合格,请继续喊唤醒词”。该提示信息可以通过电子设备的界面进行显示,也可以通过音频播放装置输出。
112.在另一些实施方式中,如果根据语音评估结果确定第二语音信息不符合训练条件,电子设备则可以输出第二提示信息,其中,第二提示信息用于提示用户第二语音信息录入失败。如图10所示的便是第二语音信息录入失败时电子设备的界面显示内容。通过图10可以知道,当用户录入的第二语音信息不符合训练条件时,电子设备可以输出第二提示信息,该提示信息可以是“该次采集音频不合格,请再次喊唤醒词小布小布”。该提示信息可以通过电子设备的界面进行显示,也可以通过音频播放装置输出。
113.在另一些实施方式中,在确定采集音频不合格时,本技术实施例也可以根据评估结果输出不同的提示信息。例如,通过评估确定电子设备第二语音信息发音不清晰,此时第二提示信息则可以是“环境嘈杂,请在安静的环境中喊小布小布”。又如,通过评估确定第二语音信息的语速过快,此时第二提示信息则可以是“语速过快,请放慢语速喊小布小布”。又如,通过评估确定第二语音信息的发音不标准,此时第二提示信息则可以是“发音不标准,请使用普通话喊小布小布”。又如,通过评估确定第二语音信息的音量过小,此时第二提示信息则可以是“音量过小,请提升音量喊小布小布”。
114.在另一些实施方式中,根据所述语音评估结果确定第二语音信息符合训练条件,以及确定第二语音信息不符合语音条件时,本技术实施例也可以通过不同的显示颜色来提示用户音频采集是否合格。例如,当确定音频采集合格时,电子设备则可以以绿色形式进行显示,当确定采集不合格时,电子设备则可以以红色形式进行显示。如此可以使用户更加明显有效的确定其录入的音频是否合格。
115.在另一些实施方式中,当录入符合训练条件的第二语音信息的次数满足结束条件时,电子设备则可以输出“声纹训练结束,已经可以使用声纹唤醒该设备”的提示信息,以提示用户本次声纹录入成功。
116.本技术实施例提出的一种模型训练方法,在目标声纹录入模式下采集用户输入的第二语音信息可以提高用户输入声纹的使用体验,具体的,检测是否接收到用户输入的第
一语音信息,如果接收到第一语音信息,则根据该第一语音信息确定用户的年龄,并在确定用户的年龄满足预设条件时,获取与该年龄匹配的目标声纹录入模式,而后在该目标声纹录入模式下采集用户输入的第二语音信息,并根据第二语音信息训练声纹模型。本技术通过用户的年龄来获取目标声纹录入模式,并在目标声纹录入模式下采集用户输入的第二语音信息,不仅可以提高用户输入声纹的使用体验,而且可以提高模型训练的灵活性。另外,本技术实施例在执行声纹录入操作时通过输出不同的提示信息可以更加简单有效的实现模型训练。
117.请参阅图11,本技术实施例提出了一种模型训练装置400,该模型训练装置400可以应用于电子设备。在具体的实施例中,该模型训练装置400包括:检测模块410、确定模块420、获取模块430和采集模块440。
118.检测模块410,用于检测是否接收到用户输入的第一语音信息。
119.确定模块420,用于在接收到所述第一语音信息的情况下,根据所述第一语音信息确定所述用户的年龄。
120.获取模块430,用于若所述用户的年龄满足预设条件,则获取与该年龄匹配的目标声纹录入模式。
121.进一步地,获取模块430还用于确定所述用户的年龄是否大于指定年龄;若所述用户的年龄大于指定年龄,则确定所述用户的年龄满足预设条件,获取与该年龄匹配的目标声纹录入模式。
122.采集模块440,用于在目标声纹录入模式下采集用户输入的第二语音信息,并根据所述第二语音信息训练声纹模型。
123.进一步地,采集模块440还用于在目标声纹录入模式下采集用户输入的所述第二语音信息;检测所述电子设备中是否存储有历史中断数据;若存储有历史中断数据,则根据所述历史中断数据和所述第二语音信息训练所述声纹模型。
124.进一步地,所述历史中断数据包括所述用户在输入所述第一语音信息之前训练所述声纹模型的音频数据,采集模块440还用于若存储有历史中断数据,则利用所述音频数据和所述第二语音信息训练初始神经网络得到所述声纹模型。
125.进一步地,所述历史中断数据包括所述用户在输入所述第一语音信息之前利用所述音频数据训练所述初始神经网络得到的候选神经网络的数据,采集模块440还用于若存储有历史中断数据,则利用所述第二语音信息训练所述候选神经网络得到所述声纹模型,以利用所述第二语音信息实现对所述候选神经网络的数据的更新。
126.进一步地,所述历史中断数据包括所述用户在输入所述第一语音信息之前训练所述声纹模型的音频数据,以及包括利用所述音频数据训练所述初始神经网络得到的候选神经网络的数据,采集模块440还用于若存储有历史中断数据,则利用所述音频数据和所述第二语音信息训练所述候选神经网络得到所述声纹模型,以利用所述第二语音信息和所述音频数据实现对所述候选神经网络的数据的更新。
127.进一步地,采集模块440还用于若所述电子设备中未存储有中断数据,则利用所述第二语音信息对所述初始神经网络进行训练得到所述声纹模型。
128.进一步地,采集模块440还用于对所述第二语音信息进行语音识别,得到目标文本;若所述目标文本包括唤醒词,则利用所述第二语音信息训练所述声纹模型。
129.进一步地,采集模块440还用于若所述目标文本未包括唤醒词,则确定所述目标文本是否包括指定关键词,所述指定关键词用于中断或者结束所述声纹录入操作;如果包括指定关键词,则执行所述指定关键词对应的指定操作。
130.进一步地,采集模块440还用于若所述目标文本包括唤醒词,则对所述第二语音信息进行评估,得到语音评估结果;若根据所述语音评估结果确定所述第二语音信息符合训练条件,则利用所述第二语音信息训练所述声纹模型,并输出第一提示信息,所述第一提示信息用于提示所述用户所述第二语音信息录入成功。
131.进一步地,采集模块440还用于若根据所述语音评估结果确定所述第二语音信息不符合训练条件,则输出第二提示信息,所述第二提示信息用于提示所述用户所述第二语音信息录入失败。另外,所述目标声纹录入模式下的提示信息大小与所述用户的年龄成正相关,所述提示信息用于提示所述用户输入第二语音信息;所述目标声纹录入模式还配置有语音提示功能,所述语音提示功能用于提示所述用户输入第二语音信息;所述目标声纹录入模式下的显示控件的数量与所述用户的年龄成反比,所述显示控件用于辅助所述用户输入第二语音信息。
132.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
133.另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
134.本技术实施例提出的一种模型训练装置,本技术在目标声纹录入模式下采集用户输入的第二语音信息可以提高用户输入声纹的使用体验,具体的,检测是否接收到用户输入的第一语音信息,如果接收到第一语音信息,则根据该第一语音信息确定用户的年龄,并在确定用户的年龄满足预设条件时,获取与该年龄匹配的目标声纹录入模式,而后在该目标声纹录入模式下采集用户输入的第二语音信息,并根据第二语音信息训练声纹模型。本技术通过用户的年龄来获取目标声纹录入模式,并在目标声纹录入模式下采集用户输入的第二语音信息,不仅可以提高用户输入声纹的使用体验,而且可以提高模型训练的灵活性。
135.请参阅图12,其示出了本技术实施例提供的一种电子设备500的结构框图。该电子设备500可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本技术中的电子设备500可以包括一个或多个如下部件:处理器510、存储器520、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器520中并被配置为由一个或多个处理器510执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
136.处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个电子设备500内的各个部分,通过运行或执行存储在存储器520内的指令、程序、代码集或指令集,以及调用存储在存储器520内的数据,执行电子设备500的各种功能和处理数据。可选地,处理器510可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器510可集成中央处理器(central processing unit,cpu)、声纹识别器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责
显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器510中,单独通过一块通信芯片进行实现。
137.存储器520可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read

only memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备500在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
138.请参阅图13,其示出了本技术实施例提供的一种计算机可读存储介质600的结构框图。该计算机可读存储介质600中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
139.计算机可读存储介质600可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质600包括非易失性计算机可读介质(non

transitory computer

readable storage medium)。计算机可读存储介质600具有执行上述方法实施例中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。
140.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。