首页 > 乐器声学 专利正文
空调器及其语音生成方法、语音生成装置和可读存储介质与流程

时间:2022-02-18 阅读: 作者:专利查询

空调器及其语音生成方法、语音生成装置和可读存储介质与流程

1.本发明涉及空调技术领域,尤其涉及语音生成方法、语音生成装置、空调器和可读存储介质。


背景技术:

2.随着科技和人们需求的不断发展,空调器的功能越来越多样化。其中,空调器除了可以响应用户发出的语音控制指令以外,有些空调器还设置了语音播报功能,例如通过语音播放空调器的运行状态等。
3.然而,目前空调器所播放的语音一般是空调器出厂前预先配置好的,音色和内容均固定,导致空调器输出的语音可能与用户需求不相匹配,严重影响用户体验。
4.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

5.本发明的主要目的在于提供一种语音生成方法,旨在实现空调器可输出具有用户发音特点的语音,以使空调器输出的语音满足用户的个性化需求。
6.为实现上述目的,本发明提供一种空调器的语音生成方法,所述语音生成方法包括以下步骤:
7.获取待转换文本、以及目标对象对应的语音生成模型;
8.将所述待转换文本输入所述语音生成模型;
9.将所述语音生成模型的输出结果作为目标语音信息,所述目标语音信息具有所述目标对象的发音特征。
10.可选地,所述将所述语音生成模型的输出结果作为目标语音信息的步骤包括:
11.获取所述目标语音信息对应的应用场景和/或作用对象的特征信息;
12.在所述输出结果中,提取所述特征信息对应的数据作为所述目标语音信息。
13.可选地,所述将所述待转换文本输入所述语音生成模型的步骤之前,还包括:
14.执行对所述待转换文本的读音特征的标注操作,得到具有读音特征标注的待转换文本;
15.所述将所述待转换文本输入所述语音生成模型的步骤包括:
16.将具有读音特征标注的待转换文本输入所述语音生成模型。
17.可选地,所述执行对所述待转换文本的读音特征的标注操作的步骤之前,还包括:
18.执行对所述待转换文本的分词操作,得到分词结果;
19.所述执行对所述待转换文本的读音特征的标注操作的步骤包括:
20.执行对所述分词结果的读音特征的标注操作。
21.可选地,所述将所述语音生成模型的输出结果作为目标语音信息的步骤之后,还包括:
22.输出所述目标语音信息;
23.当接收到语音修正指令时,获取所述语音修正指令对应的目标对象的第一语音数据;
24.确定所述目标语音信息中所述语音修正指令对应的第二语音数据;
25.根据所述第一语音数据与所述第二语音数据之间的数据偏差,调整所述语音生成模型;
26.返回执行所述将所述待转换文本输入所述语音生成模型的步骤。
27.可选地,所述获取待转换文本、以及目标对象对应的语音生成模型的步骤之前,还包括:
28.获取所述目标对象的第三语音数据,获取初始语音生成模型;
29.提取所述第三语音数据中所述目标对象的发音特征信息;所述发音特征信息包括声音能量、声音频率和声音强度中至少一个;
30.将所述发音特征信息嵌入所述初始语音生成模型,得到所述语音生成模型。
31.可选地,所述获取所述目标对象的第三语音数据的步骤包括:
32.输出设定文本;
33.获取基于所述设定文本输入的所述目标对象的语音数据,作为所述第三语音数据;或,
34.获取空调器的语音交互数据和所述目标对象的声纹信息;
35.在所述语音交互数据中,提取与所述声纹信息匹配的语音数据,作为所述第三语音数据;且/或,
36.所述将所述语音生成模型的输出结果作为目标语音信息的步骤之后,返回执行所述获取所述目标对象的第三语音数据,获取初始语音生成模型的步骤;
37.所述提取所述第三语音数据中所述目标对象的发音特征信息的步骤之前,还包括:
38.提取所述第三语音数据对应的质量特征信息;所述质量特征信息包括强度信息、内容信息、数量信息中至少一个;
39.当所述质量特征信息满足设定质量条件时,执行所述提取所述第三语音数据中所述目标对象的发音特征信息的步骤。
40.此外,为了实现上述目的,本技术还提出一种语音生成装置,所述语音生成装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音生成程序,所述语音生成程序被所述处理器执行时实现如上任一项所述的空调器的语音生成方法的步骤。
41.此外,为了实现上述目的,本技术还提出一种空调器,所述空调器包括:
42.如上所述的语音生成装置,所述语音生成装置用于生成具有目标对象发音特征的目标语音信息;
43.语音播放模块,所述语音播放模块用于输出所述目标语音信息。
44.此外,为了实现上述目的,本技术还提出一种可读存储介质,所述可读存储介质上存储有语音生成程序,所述语音生成程序被处理器执行时实现如上任一项所述的语音生成方法的步骤。
45.本发明提出一种空调器的语音生成方法,该方法通过将待转换文本输入目标对象
对应的语音生成模型,基于语音生成模型的输出结果得到具有目标对象发音特征的目标语音信息,使空调器所输出的目标语音信息不再是固定的,基于上述生成的目标语音信息,空调器可输出具有用户发音特征的语音,实现空调器输出的语音满足用户的个性化需求。
附图说明
46.图1为本发明语音生成装置一实施例运行涉及的硬件结构示意图;
47.图2为本发明语音生成方法一实施例的流程示意图;
48.图3为本发明语音生成方法另一实施例的流程示意图;
49.图4为本发明语音生成方法又一实施例的流程示意图。
50.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
51.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
52.本发明实施例的主要解决方案是:获取待转换文本、以及目标对象对应的语音生成模型;将所述待转换文本输入所述语音生成模型;将所述语音生成模型的输出结果作为目标语音信息,所述目标语音信息具有所述目标对象的发音特征。
53.由于现有技术中,空调器所播放的语音一般是空调器出厂前预先配置好的,音色和内容均固定,导致空调器输出的语音可能与用户需求不相匹配,严重影响用户体验。
54.本发明提供上述的解决方案,旨在实现空调器可输出具有用户发音特点的语音,以使空调器输出的语音满足用户的个性化需求。
55.本发明实施例提出一种空调器。
56.在本实施例中,空调器具体为具有语音播放功能的空调。空调器包括语音播放模块01。空调器可通过语音播放模块01输出目标语音信息。
57.进一步的,本发明实施例还提出一种语音生成装置,用于生成具有目标对象的发音特征的目标语音信息。语音生成装置的内置于上述空调器中,也可独立于上述空调器设置。其中,在语音生成装置独立于空调器设置时,语音生成装置与空调器通信连接,空调器可从语音生成装置获取其生成的目标语音信息并进行播放。
58.在本发明实施例中,参照图1,语音生成装置包括:处理器1001(例如cpu),存储器1002、语音采集模块1003等。存储器1002可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。
59.处理器1001分别与存储器1002、语音采集模块1003、音频播放装置01通信连接。其中,语音采集模块1003可用于采集用户的语音数据。语音采集模块1003可设于与空调器连接的移动终端(如手机、智能手表等)中、也可内置于空调器内,还可设于其他任意设备中。处理器1001可用于控制音频播放装置01进行语音播放。
60.本领域技术人员可以理解,图1中示出的装置结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
61.如图1所示,作为一种可读存储介质的存储器1002中可以包括语音生成程序。在图1所示的装置中,处理器1001可以用于调用存储器1002中存储的语音生成程序,并执行以下
实施例中语音生成方法的相关步骤操作。
62.本发明实施例还提供一种空调器的语音生成方法,用于生成空调器所需输出的目标语音信息。
63.参照图2,提出本技术语音生成方法一实施例。在本实施例中,所述语音生成方法包括:
64.步骤s10,获取待转换文本、以及目标对象对应的语音生成模型;
65.待转换文本具体指的是空调器所需播放的个性语音所对应的文本内容。待转换文本可为空调器中预先存储的文本信息(如空调控制指令、空调器运行相关的提示信息等),也可以是空调器在其运行过程中基于运行需求从其他终端获取的文本数据,还可以是用户基于自身需求输入的文本数据。基于此,可通过读取存储器中设定位置的数据得到待转换文本;也可在空调器运行或监测到设定状态信息时向终端请求得到待转换文本;还可以在接收到设定指令时,获取该指令对应的文本信息,得到待转换文本。例如,父母需要空调器给孩子朗读故事时,可通过移动终端的应用等方式输入包含所需朗读的故事的文本输入指令,在检测到文本输入指令时,可解析文本输入指令信息中的故事文本,作为待转换文本。
66.这里的语音生成模型具体指的是可将文本信息转换为具有目标对象发音特征的目标语音信息的数据处理模型。语音生成模型具体为机器学习模型(如深度学习模型),基于设定算法学习目标对象的语音数据,从而训练得到的模型。语音生成模型可在空调器中生成并保存,也可在服务器中生成后保存于云端,还可在服务器中生成后下载到空调器的存储器中。基于此,可在空调器的存储数据中读取语音生成模型,也可通过向云端发送请求得到语音生成模型。
67.这里的目标对象指的是需要空调器输出具有其发音特征的语音的用户。不同的目标对象对应有不同的语音生成模型。具体的,可获取目标对象的身份特征信息(如声纹信息、人脸信息、用户输入的身份标识信息等),基于神特征信息获取其对应的语音生成模型,从而不同身份的用户进行基于其需求生成所需的个性化语音。
68.步骤s20,将所述待转换文本输入所述语音生成模型;
69.语音生成模型对输入的待转换文本进行转换得到包含待转换文本对应的内容、并具备目标对象的发音特征的目标语音信息。
70.步骤s30,将所述语音生成模型的输出结果作为目标语音信息。
71.语音生成模型将待转换文本转换为具有目标对象发音特征的语音数据,作为输出结果。将语音生成模型的输出结果中部分或全部作为具有目标对象发音特征的目标语音信息。这里的发音特征具体包括目标对象的音色、发音方式等。
72.其中,当语音生成模型输出的结果为一个时,可直接将该结果作为这里的语音信息目标语音信息;当语音生成模型输出的结果多于一个时,可基于设定规则选取其中之一作为这里的语音信息目标语音信息;或者,当前语音生成模型输出的结果多于一个,且可在应用于不同场景中时,基于每个语音信息目标语音信息对应的应用场景(如对应的空调器的运行模式等)对每个语音信息目标语音信息进行标识,以使空调器后续需要输出语音信息目标语音信息时,基于标识获取与其当前应用场景匹配的语音信息目标语音信息并输出。
73.本发明实施例提出的一种空调器的语音生成方法,该方法通过将待转换文本输入
目标对象对应的语音生成模型,基于语音生成模型的输出结果得到具有目标对象发音特征的目标语音信息,使空调器所输出的目标语音信息不再是固定的,基于上述生成的目标语音信息,空调器可输出具有用户发音特征的语音,实现空调器输出的语音满足用户的个性化需求,甚至使空调器可代替用户输出语音(如用父母的声音给小孩讲故事),解放用户。
74.具体的,在本实施例中,步骤s30包括:
75.步骤s31,获取所述目标语音信息对应的应用场景和/或作用对象的特征信息;
76.这里的应用场景具体指的是空调器输出目标语音信息时,空调器所在空间内与时间、设备、社交及用户情绪等各个方面,可获取关于上述至少一方面状态的信息作为应用场景的特征信息。作用对象具体指的是空调器输出目标语音信息时,接收到目标语音信息的用户、动物等,可获取作用对象的身份、年龄、性别、类型等信息作为作用对象的特征信息。
77.其中,应用场景和/或作用对应的特征信息可通过获取用户输入的参数得到,也可通过对待转换文本中的内容进行解析后基于解析结果确定。此外,还可通过获取待转换文本所关联的空调运行模式,将空调运行模式作为应用场景的特征信息。例如,待转换文本中包含情绪安抚相关的内容时,可确定应用场景的特征信息为情绪安抚,另外可确定作用对象的特征信息为婴儿;待转换文本中包含故事相关的内容时,可确定应用场景的特征信息为哄睡,另外可确定作用对象的特征信息为儿童(如1岁以上,7岁以下的用户);待转换文本中包含宠物的名称时,可确定应用场景的特征信息为宠物监管,另外可确定作用对象的特征信息为宠物,等等。又如,当待转换文本与空调器睡眠模式关联时,可认为待转换文本对应的目标语音信息需要在空调器的睡眠模式中输出,则可将睡眠模式作为应用场景的特征信息;当待转换文本与空调器的非睡眠模式关联时,可认为待转换文本对应的目标语音信息需要在空调器的非睡眠模式中输出,则可将非睡眠模式作为应用场景的特征信息。
78.步骤s32,在所述输出结果中,提取所述特征信息对应的数据作为所述目标语音信息。
79.语音生成模型的输出结果可包括有不同应用场景和/或不同作用对象的语音数据,而不同应用场景和/或作用对象的语音数据具有相同的内容(均为待转换文本对应的内容)以及均具有目标对象的发音特征,但语气、语速、情绪等情感特征会有所差异。例如,作用对象为婴儿,或者,应用场景为安抚或睡眠模式时,语音数据对应的发音特点可较为柔和;作用对象为成人或应用场景为非睡眠模式时,语音数据对应的发音特点可较为明亮;而作用对象为儿童,或者,应用场景为讲睡前故事时,语音数据对应的发音特点可有较为丰富的情绪;而作用对象为成人,或者,应用场景为状态提示时,语音数据对应的发音特点可有较为平淡的情绪。
80.基于此,在输出结果中选取与特征信息相匹配的数据作为最终的结果,得到目标语音信息,使空调器输出的目标语音信息可与应用场景和/或作用对象相匹配,进一步提高空调器输出语音与用户需求的匹配程度,增强语音输出的交互效果,提高用户体验。
81.进一步的,在步骤s30之后,可包括:
82.步骤s40,输出所述目标语音信息;
83.具体的,可在空调器监测到设定场景信息或接收用户输出的特定指令时,空调器输出目标语音信息。
84.步骤s50,当接收到语音修正指令时,获取所述语音修正指令对应的目标对象的第
一语音数据;
85.在用户收听到目标语音信息对应的声音后,若发现空调器输出的语音不准确时,可通过空调器或空调器连接的移动终端发出语音修正指令。在空调器或移动终端接收到语音修正指令时开始计时,设定时长内空调器检测到目标对象的语音数据时,可将其作为第一语音数据。第一语音数据具体指令的目标对象发出的并被语音采集模块采集形成的、用于对目标语音信息进行修正的语音数据。
86.步骤s60,确定所述目标语音信息中所述语音修正指令对应的第二语音数据;
87.语音修正指令可具体包括所需修正的语音数据的标识(例如,需修正的语音的内容、需修正的语音在目标语音信息中的位置等),基于此,可通过解析语音修正指令,确定目标语音信息中对应的语音数据作为第二语音数据。
88.步骤s70,根据所述第一语音数据与所述第二语音数据之间的数据偏差,调整所述语音生成模型。
89.提取第一语音数据与第二语音数据中的发音特征信息并进行差异分析,得到数据偏差。基于数据偏差对语音生成模型中的模型参数进行修正。数据偏差越大,语音生成模型中的模型参数的修正幅度越大。
90.在步骤s70之后,可返回执行步骤s20,重新生成目标语音信息。此外,步骤s70之后也可将语音生成模型进行存储供后续调用。
91.在本实施例中,输出目标语音信息后,基于语音修正指令获取第一语音数据和确定第二语音数据,基于两个语音数据之间的偏差对语音生成模型进行修正,使修正后的语音生成模型输出的结果与目标对象的发音特征更为贴近,从而保证语音生成模型更为精准,提高空调器输出具有用户发音特征的语音时的精准性,进一步的满足用户需求。
92.进一步的,基于上述实施例,提出本技术基于空调器的语音生成方法的另一实施例。在本实施例中,参照图3,步骤s20之前,还包括:
93.步骤s21,执行对所述待转换文本的分词操作,得到分词结果;
94.具体的,分词操作包括识别待转换文本中的词组以及每个词组的词性,对每个词组进行词性标注。将具有词性标注的待转换文本作为分词结果;
95.步骤s22,执行对所述分词结果的读音特征的标注操作,得到具有读音特征标注的待转换文本;
96.读音特征具体指的是文本在特定语种的标准读音对应的特征信息。例如,读音特征可具体包括拼音、音节、音素等。对执行分词操作后的待转换文本进行读音特征的标注,得到具有读音特征标注的待转换文本。
97.步骤s23,将具有读音特征标注的待转换文本输入所述语音生成模型;
98.将具有读音特征标注的待转换文本输入语音生成模型。
99.在本实施例中,在将待转换文本输入语音生成模型前,先进行分词操作、读音特征标注操作,再输入语音生成模型,相较于不处理直接将待转换文本输入语音生成模型,得到的输出结果更为的准确,使空调器输出目标语音信息时的声音与目标对象朗读待转换文本时的发音更为相似,使空调器进一步贴合用户的个性化需求。
100.需要说明的是,在其他实施例中,待转换文本也可根据需求只执行分词操作或读音特征的标注操作后便输入语音生成模型。
101.进一步的,基于上述任一实施例,提出本技术语音生成方法又一实施例。在本实施例中,参照图4,所述步骤s10之前,还包括:
102.步骤s01,获取初始语音生成模型,获取所述目标对象的第三语音数据;
103.这里的初始语音生成模型具体为可将文本转换为语音的模型。
104.初始语音生成模型可以是输出的语音结果不具备目标对象的发音特征的语音生成模型。基于此,可搜集大量非目标对象的其他用户关于特定文本的训练语音数据,对训练语音数据进行语音特征提取,并对特定文本进行词性、读音等特征标注,将标注后的特定文本和提取到的语音特征作为神经网络的训练样本,训练得到初始语音生成模型。
105.此外,初始语音生成模型也可以是输出的语音结果具备目标对象的发音特征的语音生成模型。其中,可循环执行步骤s01至步骤s30,此时,这里的初始语音生成模型可具体为前一次循环中执行步骤s01至步骤s03得到的语音生成模型。而若为首次执行步骤s01时,这里的初始语音生成模型可具体为输出结果不具备目标对象的发音特征的语音生成模型。
106.第三语音数据可在当前采集,也可以通过解析之前记录的语音数据得到。具体的,所述获取所述目标对象的第三语音数据的步骤包括:输出设定文本;获取基于所述设定文本输入的所述目标对象的语音数据,作为所述第三语音数据。或者,所述获取所述目标对象的第三语音数据的步骤还可包括:获取空调器的语音交互数据和所述目标对象的声纹信息;在所述语音交互数据中,提取与所述声纹信息匹配的语音数据,作为所述第三语音数据。具体的,可在首次生成目标对象的语音生成模型时基于设定文本的输出获取第三语音数据;在非首次生成目标对象的语音生成模型时基于空调器的语音交互数据获取第三语音数据。具体的,目标对象可预先通过终端应用等方式录入声纹和身份信息,将声纹信息与身份信息关联。在用户与空调器进行语音交互的过程中,空调器可对交互过程产生的语音文件进行记录,并调取已录入的声纹对语音文件进行识别,基于已记录的不同声纹对应的语音数据打上声纹所关联的身份信息。在语音文件中将与目标对象声纹匹配的数据作为第三语音数据。
107.其中,为了保证后续提取到的发音特征信息的精准性,提取所述第三语音数据对应的质量特征信息;所述质量特征信息包括强度信息、内容信息、数量信息中至少一个;当质量特征信息满足设定质量条件时才执行步骤s02;当质量特征信息不满足设定质量条件时返回执行步骤s01。具体的,强度信息可具体包括背景噪声的声音强度、人声的声音强度和/或与目标对象声纹匹配的人声的声音强度等。内容信息具体包括语音数据所表征的语义。数量信息可具体包括第三语音数据的个数或采集次数等。例如,背景噪声的声音强度小于或等于第一强度阈值、且/或,目标对象声纹匹配的人声的声音强度大于或等于第二阈值,且/或,语音数据所表征的语义与输出的设定文本匹配,且/或,采集到的第三语音数据的数量大于或等于设定阈值时,判定第三语音数据的质量特征信息满足设定质量条件。
108.其中,在步骤s30之后返回执行步骤s01,可实现循环的基于目标对象的语音数据对其语音生成模型进行优化。具体的,在空调器使用的过程中可持续在所述语音交互数据中,提取与所述声纹信息匹配的语音数据,作为所述第三语音数据,提取第三语音数据对应的质量特征信息,判断质量特征信息是否满足设定质量条件,满足后执行获取初始语音生成模型的步骤以及后续的步骤s02、步骤s10、步骤s20、步骤s30等,例如在第三语音数据的数量大于或等于设定数量时,认为第三语音数据满足设定质量条件,将满足设定质量条件
的语音数据对目标对象的语音生成模型进行优化训练。通过上述方式,使空调器使用的过程中可自动迭代优化,从而保证空调器输出的目标语音信息可越来越贴近目标对象的发音特征。
109.步骤s02,提取所述第三语音数据中所述目标对象的发音特征信息;
110.具体的,可基于目标对象的声纹提取第三语音数据中的人声数据,对人声数据进行降噪、去掉空白语音、预加重、分帧、加窗、语音特征抽取等操作得到目标对象的发音特征信息。所述发音特征信息包括声音能量、声音频率和声音强度中至少一个。具体的可采用mfcc算法或fbank算法进行发音特征信息的提取。
111.步骤s03,将所述发音特征信息嵌入所述初始语音生成模型,得到所述语音生成模型。
112.具体的,发音特征信息添加至初始语音生成模型的特定位置,作为模型参数,以形成可生成具有目标对象的发音特征的语音生成模型。基于此,在上述实施例的步骤s70中,在调整语音生成模型时,可在模型中特定位置中识别第二语音数据所对应的发音特征信息,对识别得到的发音特征信息按照上述实施例中的数据偏差进行修正。
113.在本实施例中,通过将目标对象第三语音数据的发音特征信息嵌入初始语音生成模型形成语音生成模型,无需搜集大量数据样本以及无需重新训练初始语音生成模型,仅需少量目标对象的语音数据便可快速生成输出具有目标对象发音特征的目标语音信息的语音生成模型。
114.此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有语音生成程序,所述语音生成程序被处理器执行时实现如上语音生成方法任一实施例的相关步骤。
115.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
116.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
117.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
118.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。