1.本发明涉及语音唤醒技术领域,尤其涉及一种语音唤醒方法、装置、电子设备及作业机械。
背景技术:2.在传统的语音交互场景中,最初为通过点击按钮,例如按下录音键的方式来唤醒设备,才能和设备进行交互,为了进一步提升人机交互体验,语音唤醒技术应运而生。目前语音唤醒主要有三种方式:基于模板匹配的唤醒技术;基于隐马尔可夫模型的唤醒技术;基于深度学习的唤醒技术。其中,应用最为广泛的便为基于深度学习的方法语音识别唤醒方法。
3.目前地基于深度学习的语音唤醒方法多为将语音信号的声学特征输入神经网络模型,然后获取语音信号的读音序列,判断读音序列与目标读音序列是否匹配,进而进行唤醒。
4.但是,通过识别读音序列的匹配度的方式进行语音唤醒的判定,在噪声较大的工业制造环境下唤醒率相对较低。
技术实现要素:5.本发明提供一种语音唤醒方法、装置、电子设备及作业机械,用以解决现有技术中唤醒率低的缺陷,有效地提高语音系统的唤醒率。
6.本发明提供一种语音唤醒方法,包括:
7.识别语音信号,并提取所述语音信号的声学特征;
8.输入所述声学特征至声学网络模型,得到所述语音信号的建模单元概率分布;其中,所述声学网络模型是基于声学特征样本和预先确定的与所述声学特征样本一一对应的建模单元概率分布标签训练得到的;
9.根据所述建模单元概率分布,在预先构建的解码图中获取所述语音信号的唤醒路径;
10.确定所述唤醒路径与目标唤醒路径之间的概率差值,当所述差值小于预设唤醒阈值时,执行唤醒操作。
11.根据本发明提供的一种语音唤醒方法,所述识别语音信号之后,还包括:
12.对所述语音信号进行降噪处理和/或自动增益控制处理,提升所述语音信号的信噪比。
13.根据本发明提供的一种语音唤醒方法,所述确定所述唤醒路径与目标唤醒路径之间的概率差值之前,还包括:
14.实时获取所述信噪比的大小;
15.根据所述信噪比的大小,动态自适应调整预设唤醒阈值的大小。
16.根据本发明提供的一种语音唤醒方法,所述识别语音信号之前,还包括:
17.通过开发集在声学网络模型上解码出唤醒词的读音序列;
18.基于所述唤醒词的读音序列,构建解码图,所述解码图包括唤醒词的唤醒路径。
19.根据本发明提供的一种语音唤醒方法,所述建模单元概率分布包括唤醒词中每个字的概率分布;
20.对应的,所述确定所述唤醒路径与目标唤醒路径之间的概率差值,包括:
21.根据所述唤醒词中每个字的概率分布,确定所述唤醒路径与目标唤醒路径之间的概率差值。
22.根据本发明提供的一种语音唤醒方法,所述建模单元包括音素、音节、声韵母中的至少一种。
23.本发明还提供一种语音唤醒装置,包括:
24.特征提取模块,用于识别语音信号,并提取所述语音信号的声学特征;
25.网络模型模块,用于输入所述声学特征至声学网络模型,得到所述语音信号的建模单元概率分布;其中,所述声学网络模型是基于声学特征样本和预先确定的与所述声学特征样本一一对应的建模单元概率分布标签训练得到的;
26.路径获取模块,用于根据所述建模单元概率分布,在预先构建的解码图中获取所述语音信号的唤醒路径;
27.唤醒确定模块,用于确定所述唤醒路径与目标唤醒路径之间的概率差值,当所述差值小于预设唤醒阈值时,执行唤醒操作。
28.根据本发明提供的一种语音唤醒装置,还包括:
29.降噪模块,用于对所述语音信号进行降噪处理和/或自动增益控制处理,提升所述语音信号的信噪比;
30.阈值调整模块,用于实时获取所述信噪比的大小,根据所述信噪比的大小,动态自适应调整预设唤醒阈值的大小。
31.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音唤醒方法的步骤。
32.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音唤醒方法的步骤。
33.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音唤醒方法的步骤。
34.本发明还提供一种作业机械,包括作业机械本体和中控系统;
35.所述中控系统采用如上述任一项所述的语音唤醒方法进行语音唤醒后控制所述作业机械本体的工作。
36.本发明提供的一种语音唤醒方法、装置、电子设备及作业机械,方法通过识别语音信号,并提取所述语音信号的声学特征;输入所述声学特征至声学网络模型,得到所述语音信号的建模单元概率分布;其中,所述声学网络模型是基于声学特征样本和预先确定的与所述声学特征样本一一对应的建模单元概率分布标签训练得到的;根据所述建模单元概率分布,在预先构建的解码图中获取所述语音信号的唤醒路径;确定所述唤醒路径与目标唤醒路径之间的概率差值,当所述差值小于预设唤醒阈值时,执行唤醒操作,由于唤醒路径包
括了唤醒词中的每个字的建模单元概率分布,使得通过唤醒路径判定是否唤醒的方式有效地提高了唤醒率。
附图说明
37.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1是本发明实施例提供的语音唤醒方法的流程示意图;
39.图2是本发明实施例提供的语音唤醒装置的结构示意图;
40.图3是本发明实施例提供的电子设备的结构示意图。
具体实施方式
41.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.下面结合图1至图3描述本发明的一种语音唤醒方法、装置、电子设备及作业机械。
43.图1是本发明实施例提供的语音唤醒方法的流程示意图。
44.如图1所示,本发明实施例提供的一种语音唤醒方法,包括以下步骤:
45.101、识别语音信号,并提取语音信号的声学特征。
46.语音唤醒指的是用户说指定唤醒词,然后触发语音系统接收到唤醒词以后,便可以进行人为语音交互控制。具体流程为,首先识别语音信号,为了避免噪音造成的影响,在识别到语音信号以后,对语音信号进行降噪处理和/或自动增益控制处理,提升语音信号的信噪比,然后再通过特征提取的方式提取出更具区分性的声学特征,可以更好地解决低信噪比条件下的唤醒率低的问题。声学特征,指表示语音声学特性的物理量,也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽,以及表示语音韵律特性的时长、基频、平均语声功率等。对语音进行分类研究,传统方法是研究发音器官特征,如元音的舌位高低、前后,辅音的发音部位等,而如今凭借科学技术的进步,根据声学特征可以作进一步的精细研究更加高效。其中,特征提取方式可以包括mfcc、fbank和plp等中的任意一种。
47.102、输入声学特征至声学网络模型,得到语音信号的建模单元概率分布;其中,声学网络模型是基于声学特征样本和预先确定的与声学特征样本一一对应的建模单元概率分布标签训练得到的。
48.具体的,在通过特征提取获取到语音信号的声学特征以后,将声学特征输入声学网络模型,得到语音信号的建模单元概率分布。声学网络模型为神经网络模型,可以包括dnn、rnn和cnn等多种方式训练中的任意一种,建模单元包括音素、音节、声韵母中的至少一种。
49.建模单元概率分布包括唤醒词中每个字的概率分布。以建模单元是音节为例进行
说明,首先进行神经网络模型训练得到声学网络模型,提取训练数据的声学特征;然后训练数据标签规整,转化为音节序列;再设计声学模型结构、代码编写、参数调优及训练;从而训练得到全音节的声学网络模型。放到具体的音节上来说,以语音信号为“abcd”四个字为例进行说明,将提取语音信号的声学特征输入声学网络模型之后,声学网络模型将其转化为音节序列,即为四个音节,然后分别识别每个音节的具体情况,也就是声学网络模型输出的为语音信号中为a的概率,为b的概率,为c的概率和为d的概率分布情况。
50.103、根据建模单元概率分布,在预先构建的解码图中获取语音信号的唤醒路径。
51.具体的,在得到建模单元概率分布之后,便需要在预先构建的解码图中获取语音信号的唤醒路径。而在此之前,则需要通过开发集在声学网络模型上解码出唤醒词的读音序列;基于唤醒词的读音序列,构建解码图,解码图包括唤醒词的唤醒路径。在开发集上,使用预先训练好的声学网络模型解码得到唤醒词的一系列读音序列,这样不用人工来标注唤醒的读音序列,同时也防止人工设计的读音序列与声学模型解码不匹配的问题。例如,语音信号识别为“abcd”,则根据为a的概率,为b的概率,为c的概率和为d的概率分布情况在解码图中获取语音信号的唤醒路径,语音信号的唤醒路径为由a到b到c再到d,若其中某个字的概率很低,则可能会出现由a到b再到d的情况,具体的根据每个字的概率分布,在解码图中获取语音信号的唤醒路径。
52.104、确定唤醒路径与目标唤醒路径之间的概率差值,当差值小于预设唤醒阈值时,执行唤醒操作。
53.而具体的唤醒词例如为“abcd”在唤醒图中的唤醒路径是唯一确定的,即为由a到b到c再到d,如唤醒词的唤醒路径为由a到b到c再到d,目标唤醒路径为由a到b到c再到d,则此时确定a为a的概率,b为b的概率,c为c的概率,d为d的概率,从而确定出唤醒路径与目标唤醒路径之间的概率差值,可以是根据唤醒词中每个字的概率分布,确定唤醒路径与目标唤醒路径之间的概率差值。当差值小于预设唤醒阈值时,表明此时的语音信号在概率上为唤醒词,则此时便可以继续进行唤醒操作,若概率差值大于预设唤醒阈值,便不进行唤醒操作。例如唤醒路径为a到c再到d,通过概率分析确定差值在预设唤醒差值之内,则同样的可以进行唤醒操作,通过直接比较唤醒路径和目标唤醒路径的累积概率差值来判断唤醒的方式,解决解码、后处理等一系列高复杂度的计算问题,方法简单,灵活度高。
54.本发明实施例提供的一种语音唤醒方法,通过识别语音信号,并提取语音信号的声学特征;输入声学特征至声学网络模型,得到语音信号的建模单元概率分布;其中,声学网络模型是基于声学特征样本和预先确定的与声学特征样本一一对应的建模单元概率分布标签训练得到的;根据建模单元概率分布,在预先构建的解码图中获取语音信号的唤醒路径;确定唤醒路径与目标唤醒路径之间的概率差值,当差值小于预设唤醒阈值时,执行唤醒操作,由于唤醒路径包括了唤醒词中的每个字的建模单元概率分布,使得通过唤醒路径判定是否唤醒的方式有效地提高了唤醒率。
55.进一步的,在本实施例中还包括:实时获取所述信噪比的大小,根据信噪比的大小,动态自适应调整预设唤醒阈值的大小。通过信噪比来动态调整预设唤醒阈值,从而达到不同工况下的唤醒阈值的自适应调整;自适应调整唤醒阈值,可以动态调整后端决策模块的阈值,提升了系统的鲁棒性。
56.基于同一总的发明构思,本技术还保护一种语音唤醒装置,下面对本发明提供的
语音唤醒装置进行描述,下文描述的语音唤醒装置与上文描述的语音唤醒方法可相互对应参照。
57.图2是本发明实施例提供的语音唤醒装置的结构示意图。
58.如图2所示,本发明实施例提供的一种语音唤醒装置,包括:
59.特征提取模块21,用于识别语音信号,并提取语音信号的声学特征;
60.网络模型模块22,用于输入声学特征至声学网络模型,得到语音信号的建模单元概率分布;其中,声学网络模型是基于声学特征样本和预先确定的与声学特征样本一一对应的建模单元概率分布标签训练得到的;
61.路径获取模块23,用于根据建模单元概率分布,在预先构建的解码图中获取语音信号的唤醒路径;
62.唤醒确定模块24,用于确定唤醒路径与目标唤醒路径之间的概率差值,当差值小于预设唤醒阈值时,执行唤醒操作。
63.本实施例提供的一种语音唤醒装置,通过识别语音信号,并提取语音信号的声学特征;输入声学特征至声学网络模型,得到语音信号的建模单元概率分布;其中,声学网络模型是基于声学特征样本和预先确定的与声学特征样本一一对应的建模单元概率分布标签训练得到的;根据建模单元概率分布,在预先构建的解码图中获取语音信号的唤醒路径;确定唤醒路径与目标唤醒路径之间的概率差值,当差值小于预设唤醒阈值时,执行唤醒操作,由于唤醒路径包括了唤醒词中的每个字的建模单元概率分布,使得通过唤醒路径判定是否唤醒的方式有效地提高了唤醒率。
64.进一步的,本实施例中还包括:
65.降噪模块,用于对语音信号进行降噪处理和/或自动增益控制处理,提升语音信号的信噪比;
66.阈值调整模块,用于实时获取信噪比的大小,根据信噪比的大小,动态自适应调整预设唤醒阈值的大小。
67.进一步的,本实施例中还包括:解码图构建模块,用于:
68.通过开发集在声学网络模型上解码出唤醒词的读音序列;
69.基于唤醒词的读音序列,构建解码图,解码图包括唤醒词的唤醒路径。
70.进一步的,本实施例中建模单元概率分布包括唤醒词中每个字的概率分布;
71.对应的,唤醒确定模块24,具体用于:
72.根据唤醒词中每个字的概率分布,确定唤醒路径与目标唤醒路径之间的概率差值。
73.进一步的,本实施例中建模单元包括音素、音节、声韵母中的至少一种。
74.图3是本发明实施例提供的电子设备的结构示意图。
75.如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communications interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行语音唤醒方法,该方法包括:识别语音信号,并提取语音信号的声学特征;输入声学特征至声学网络模型,得到语音信号的建模单元概率分布;其中,声学网络模型是基于声学特征样本和预先确定的与声学特征样本一一对应的建模单元概率分布
标签训练得到的;根据建模单元概率分布,在预先构建的解码图中获取语音信号的唤醒路径;确定唤醒路径与目标唤醒路径之间的概率差值,当差值小于预设唤醒阈值时,执行唤醒操作。
76.本技术还保护一种作业机械,包括作业机械本体和中控系统;
77.中控系统采用如上述任一项的语音唤醒方法进行语音唤醒后控制所述作业机械本体的工作。
78.此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
79.另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音唤醒方法,该方法包括:识别语音信号,并提取语音信号的声学特征;输入声学特征至声学网络模型,得到语音信号的建模单元概率分布;其中,声学网络模型是基于声学特征样本和预先确定的与声学特征样本一一对应的建模单元概率分布标签训练得到的;根据建模单元概率分布,在预先构建的解码图中获取语音信号的唤醒路径;确定唤醒路径与目标唤醒路径之间的概率差值,当差值小于预设唤醒阈值时,执行唤醒操作。
80.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音唤醒方法,该方法包括:识别语音信号,并提取语音信号的声学特征;输入声学特征至声学网络模型,得到语音信号的建模单元概率分布;其中,声学网络模型是基于声学特征样本和预先确定的与声学特征样本一一对应的建模单元概率分布标签训练得到的;根据建模单元概率分布,在预先构建的解码图中获取语音信号的唤醒路径;确定唤醒路径与目标唤醒路径之间的概率差值,当差值小于预设唤醒阈值时,执行唤醒操作。
81.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
82.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
83.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。