首页 > 乐器声学 专利正文
声纹注册方法、装置、电子设备和存储介质与流程

时间:2022-01-17 阅读: 作者:专利查询

声纹注册方法、装置、电子设备和存储介质与流程

1.本发明涉及语音处理技术领域,尤其涉及一种声纹注册方法、装置、电子设备和存储介质。


背景技术:

2.近年来,多人会议场景越来越普遍,多人会议中大多是多个说话人间隔说话或者交叉说话,为了提升多人会议的会议效率,需对多人讨论的会议场景中,各说话人进行角色分离和角色标注,而角色标注的前提条件是该角色已进行声纹注册。
3.目前的声纹注册通常是在录制开始之前,预先录制注册语音,根据注册语音进行声纹注册,其声纹注册过程较为繁琐,用户体验不佳。


技术实现要素:

4.本发明提供一种声纹注册方法、装置、电子设备和存储介质,用以解决现有技术中声纹注册过程较为繁琐,用户体验不佳的缺陷。
5.本发明提供一种声纹注册方法,包括:
6.对语音数据进行声纹分离,得到所述语音数据中的初始角色;
7.接收所述初始角色的身份信息;
8.基于所述初始角色的身份信息,以及所述初始角色在所述语音数据中的声纹特征,对所述初始角色进行声纹注册。
9.根据本发明提供的一种声纹注册方法,所述接收所述初始角色的身份信息,包括:
10.展示所述语音数据中初始角色对应的角色语音的转写文本;
11.接收所述转写文本对应的初始角色的身份信息。
12.根据本发明提供的一种声纹注册方法,所述接收所述初始角色的身份信息,包括:
13.展示所述语音数据中初始角色对应的角色语音;
14.接收所述角色语音对应的初始角色的身份信息。
15.根据本发明提供的一种声纹注册方法,所述声纹特征基于如下步骤确定:
16.从所述语音数据中所述初始角色对应的角色语音中,选取所述初始角色的样本语音;
17.对所述样本语音进行声纹提取,得到所述初始角色的声纹特征。
18.根据本发明提供的一种声纹注册方法,所述从所述语音数据中所述初始角色对应的角色语音中,选取所述初始角色的样本语音,包括:
19.基于所述初始角色对应的各段角色语音的语音时长和/或语音清晰度,从所述各段角色语音中,选取所述初始角色的样本语音。
20.根据本发明提供的一种声纹注册方法,所述语音清晰度基于对应角色语音中包含的语气词数量和/或语义错误数量确定。
21.根据本发明提供的一种声纹注册方法,所述从所述语音数据中所述初始角色对应
的角色语音中,选取所述初始角色的样本语音,包括:
22.接收从所述初始角色对应的各段角色语音中选取所述初始角色的样本语音。
23.本发明还提供一种声纹注册装置,包括:
24.声纹分离单元,用于对语音数据进行声纹分离,得到所述语音数据中的初始角色;
25.身份信息接收单元,用于接收所述初始角色的身份信息;
26.声纹注册单元,用于基于所述初始角色的身份信息,以及所述初始角色在所述语音数据中的声纹特征,对所述初始角色进行声纹注册。
27.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的声纹注册方法的步骤。
28.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的声纹注册方法的步骤。
29.本发明提供的声纹注册方法、装置、电子设备和存储介质,基于语音数据中初始角色的身份信息,以及初始角色在语音数据中的声纹特征,进行声纹注册,实现了语音数据的复用,无需额外录制专用于声纹注册的语音,解决了录制之前的声纹注册十分繁琐的问题,提高了声纹注册的效率,实现了快速准确的声纹注册。
附图说明
30.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
31.图1是本发明提供的声纹注册方法的流程示意图;
32.图2是本发明提供的声纹注册方法中步骤120的流程示意图之一;
33.图3是本发明提供的声纹注册方法中步骤120的流程示意图之二;
34.图4是本发明提供的声纹特征的确定过程的流程示意图;
35.图5是本发明提供的说话人标注的界面显示图之一;
36.图6是本发明提供的说话人标注的界面显示图之二;
37.图7是本发明提供的声纹注册装置的结构示意图;
38.图8是本发明提供的电子设备的结构示意图。
具体实施方式
39.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.传统方案是在录制开始之前进行声纹注册,而录制开始之前的声纹注册需通过额外录制的语音数据实现,仅额外录制语音数据这一过程就在无形之中给声纹注册的整个过程增加了很多步骤,从而导致声纹注册的过程十分繁琐,为解决这一问题,本发明提供一种
录制过程中或者录制结束后进行声纹注册的方法,旨在实现快速准确的声纹注册,优化用户体验,图1是本发明提供的声纹注册方法的流程示意图,如图1所示,该方法包括:
41.步骤110,对语音数据进行声纹分离,得到语音数据中的初始角色。
42.具体地,在进行声纹注册之前,需获取语音数据,此处的语音数据可以是从实时录制的语音数据流中截取的,也可以是从已经录制完成的语音数据中截取的,本发明实施例对此不做具体限定。
43.在得到语音数据之后,即可对该段语音数据进行声纹分离,以确定该段语音数据中的各个说话人,即各个角色。需要说明的是,语音数据可能只包含单个角色,也可能包含多个角色,针对包含多个角色的情况,对语音数据进行声纹分离即对语音数据中包含的各个角色的声纹特征进行分离,从而确定语音数据中各个角色发言的时间区间,并在此基础上分离出各个角色。考虑到步骤110中进行声纹分离是在未知语音数据中各个角色的身份信息的前提下执行的,即此时的声纹分离属于盲源分离,因此,将此时进行声纹分离所得的各个角色定义为初始角色,此时得到的初始角色可标注为“【说话人1】”、“【说话人2】”、“【说话人3】”等,不同的标注表示不同的说话人,具体的标注形式可以是,每个说话人在语音数据中对应一段时间轴,或者每个说话人对应一段时间轴下的转写文本。
44.步骤120,接收初始角色的身份信息。
45.具体地,经过步骤110确定语音数据中的初始角色后,还需进一步确定初始角色的身份信息,以便后续根据语音数据中初始角色的身份信息,对初始角色进行声纹注册。
46.此处,初始角色的身份信息可以是用户标注的,也可以是从预先存储的数据库中查找确定的,本发明实施例对此不做具体限定,下面以初始角色的身份信息是用户标注的为例,进行说明:
47.初始角色的身份信息的确定过程具体可以是,在确定语音数据中的初始角色后,由用户对语音数据中的初始角色进行身份信息标注,从而得到用户标注的初始角色的身份信息。
48.此处,用户对初始角色进行身份信息标注具体可以是,用户通过智能终端对目前展示的初始角色进行标注,此处的智能终端可以是智能手机、平板电脑等具备交互功能的智能设备,初始角色的展示方式可以是播放初始角色在语音数据中对应的语音,也可以是显示初始角色在语音数据中对应语音的转写文本,还可以是在上述两种基础上,进一步显示通过对初始角色在语音数据中对应的语音进行分析所得的角色相关的信息,例如角色年龄、性别等。用户在获取到智能终端展示的信息之后,可以通过智能终端输入初始角色的身份信息,从而实现针对初始角色的身份信息标注,例如,用户可使用耳机连接智能终端,智能终端通过耳机播放初始角色对应的角色语音,用户从播放的角色语音中确定初始角色的身份信息,并通过触屏输入、键盘输入或者鼠标输入等方式,对初始角色进行身份信息标注,此处的标注可以是某一语音段的说话人为【小明】;又例如,用户可从智能终端展示的角色语音的转写文本中确定初始角色的身份信息,并在对应转写文本的句首对其进行身份信息标注,例如,【小明】说话内容1,其中,【小明】代表“说话内容1”对应的初始角色的身份信息。此后,智能终端可以将用户标注的初始角色的身份信息发送至用于声纹注册的服务器,服务器接收到用户标注的初始角色的身份信息,或者智能终端本身即承担声纹注册的功能,则智能终端获取用户标注的初始角色的身份信息。
49.此外,下面以初始角色的身份信息是查找确定的为例,进行说明:
50.可以预先构建存储有不同说话人身份信息的数据库,例如可以是录入了参会人员的姓名、性别、年龄等信息的数据库,在得到语音数据中的初始角色后,可以根据初始角色在语音数据中对应的角色语音所反映分析推测出的角色相关的信息,例如角色年龄、性别等,并由此从数据库中匹配对应的说话人,以确定初始角色的身份信息,例如,根据初始角色在语音数据中对应的角色语音分析推测得出初始角色为年龄在20岁到30岁之间的女性,则从预先构建的数据库中查找年龄在20岁到30岁之间的女性,并将查找到的说话人的身份信息,作为初始角色的身份信息。
51.需要说明的是,用户对初始角色进行身份信息标注实际是标注初始角色对应的真实说话人的身份信息,身份信息可以包括说话人的名称,还可以包括说话人的昵称、职位等。
52.步骤130,基于初始角色的身份信息,以及初始角色在语音数据中的声纹特征,对初始角色进行声纹注册。
53.具体地,经过步骤120确定语音数据中初始角色对应的身份信息后,若要对初始角色进行身份标注,则还需确定语音数据中初始角色的声纹特征,如此才可根据语音数据中的初始角色,以及初始角色的声纹特征,对初始角色进行声纹注册。
54.需要说明的是,初始角色的声纹特征的确定过程可发生在步骤120之前,也可以发生于步骤120之后,本发明实施例对此不做具体限定。若初始角色的声纹特征的确定过程发生于步骤120之前,则其具体的确定过程可以包括如下步骤:首先,对语音数据进行声纹分离,区分语音数据中各个初始角色的声纹特征,从而确定语音数据中各个初始角色发言的时间区间,并在此基础上根据同一初始角色发言的各时间区间内的语音段,确定该初始角色的声纹特征。若初始角色的声纹特征的确定过程发生于步骤120之后,则其具体的确定过程可以包括如下步骤:首先,从语音数据中获取被标注的初始角色对应的角色语音;随即,对初始角色对应的角色语音进行声纹提取,从而得到初始角色的声纹特征。需要说明的是,在进行声纹提取之前,还可从初始角色对应的角色语音中选取语音质量较好的语音,以便对该语音进行声纹提取后,能得到较为准确的初始角色的声纹特征,从而提升声纹注册的准确率。
55.确定初始角色的声纹特征后,即可根据初始角色的身份信息,以及初始角色在语音数据中的声纹特征,对初始角色进行声纹注册,这一过程具体可以是,对初始角色的声纹特征以及初始角色的身份信息进行关联,即将初始角色的身份信息与初始角色的声纹特征形成对应关系,每一身份信息对应唯一的声纹特征。完成声纹注册之后,在后续语音录制或者转写过程中,可以直接应用初始角色的声纹特征与初始角色的身份信息之间的对应关系,确定语音数据中各说话人的身份信息。
56.本发明提供的声纹注册方法,基于语音数据中初始角色的身份信息,以及初始角色在语音数据中的声纹特征,进行声纹注册,实现了语音数据的复用,无需额外录制专用于声纹注册的语音,解决了录制之前的声纹注册十分繁琐的问题,提高了声纹注册的效率,实现了快速准确的声纹注册。
57.基于上述实施例,对语音数据进行声纹分离,之前还包括:
58.从录制的语音数据流中获取语音数据。
59.具体地,在进行声纹注册之前,还需从录制的语音数据流中获取声纹注册所需的语音数据,此处的录制可以是语音录制,也可以是视频录制,本发明实施例对此不做具体限定。
60.考虑到录制的语音数据流的语音时长是无法预先确定的,因而,在从录制的语音数据流中获取语音数据时,若语音时长较短,则可将录制的整个语音数据流作为语音数据;反之,若语音时长较长,达到几十分钟或者数小时,则可从录制的语音数据流中截取一段语音数据作为所需的语音数据,例如,可以预先设定语音数据的时长,从录制的语音数据流中截取一段语音数据,从而得到录制的一段预设时长的语音数据。
61.本发明实施例提供的方法,从录制的语音数据流中获取语音数据,可省去额外录制语音数据的过程,从而大大减少了声纹注册所耗费的时间,加快了声纹注册的进程。
62.基于上述实施例,图2是本发明提供的声纹注册方法中步骤120的流程示意图之一,如图2所示,步骤120包括:
63.步骤121,展示语音数据中初始角色对应的角色语音的转写文本;
64.步骤122,接收转写文本对应的初始角色的身份信息。
65.具体地,经过步骤110得到语音数据中的初始角色后,若要对初始角色进行声纹注册,则还需确定初始角色的身份信息,即确定初始角色对应的真实说话人的身份信息,以便根据初始角色的身份信息对初始角色进行声纹注册。
66.而初始角色的身份信息的确定过程包括:步骤121,首先,对语音数据进行语音转写,得到语音数据的转写文本;随即,根据各个初始角色在语音数据中对应的时间轴,从语音数据的转写文本中确定对应时间轴下初始角色对应的角色语音的转写文本,并将各个初始角色对应的角色语音的转写文本在智能终端进行展示;随后,执行步骤122,接收转写文本对应的初始角色的身份信息,此处,初始角色的身份信息可以是根据此转写文本从预先存储的数据库中查找确定的,也可以是用户标注的,本发明实施例对此不做具体限定,下面以接收用户标注的转写文本对应的初始角色的身份信息为例,进行说明:用户可以通过智能终端输入初始角色的身份信息,从而实现针对初始角色的身份信息标注。需要说明的是,用户在输入初始角色的身份信息时,可以输入展示的各个初始角色的身份信息,也可以是从展示的各个初始角色中选取一个或多个进行身份信息输入,本发明实施例对此不做具体限定。此后,智能终端可以将用户标注的转写文本对应的初始角色的身份信息发送至用于声纹注册的服务器,服务器接收到用户标注的转写文本对应的初始角色的身份信息,或者智能终端本身即承担声纹注册的功能,则智能终端获取用户标注的转写文本对应的初始角色的身份信息。
67.此外,下面以初始角色的身份信息是查找确定的为例,进行说明:
68.可以预先构建存储有不同说话人身份信息的数据库,例如可以是录入了参会人员的记录的会议提纲、会议纪要等信息的数据库,在得到语音数据中的初始角色后,可以根据初始角色在语音数据中的角色语音的转写文本所反映分析推测出的角色相关的信息,例如会议提纲、会议纪要等,并由此从数据库中匹配对应的说话人,以确定初始角色的身份信息,例如,根据初始角色在语音数据中的角色语音的转写文本分析推测得出初始角色记录的会议纪要为“按照需求对应选择”,则从预先构建的数据库中查找会议纪要中包含“按照需求”以及“对应选择”字段的说话人,并将查找到的说话人的身份信息,作为初始角色的身
份信息。
69.本发明实施例提供的方法,在确定语音数据中的初始角色后,展示初始角色对应的角色语音的转写文本,用户可直接通过智能终端从展示的转写文本中确定初始角色的身份信息,并对其进行身份信息标注,或者根据此转写文本从预先存储的数据库中查找对应的说话人,并将查找到的说话人的身份信息作为初始角色的身份信息,从而使服务器能够接收到转写文本对应的初始角色的身份信息,据此确定的初始角色的身份信息,保证了初始角色的身份信息的准确性,并且还提升了初始角色的身份信息确定的速率,从而为快速准确的声纹注册提供强大的助力。
70.基于上述实施例,图3是本发明提供的声纹注册方法中步骤120的流程示意图之二,如图3所示,步骤120包括:
71.步骤123,展示语音数据中初始角色对应的角色语音;
72.步骤124,接收角色语音对应的初始角色的身份信息。
73.具体地,经过步骤110得到语音数据中的初始角色后,若要对初始角色进行声纹注册,则还需确定初始角色的身份信息,即确定初始角色对应的真实说话人的身份信息,以便根据初始角色的身份信息对初始角色进行声纹注册。
74.而初始角色的身份信息的确定过程包括:步骤123,首先,从语音数据中确定初始角色对应的角色语音;随即,将语音数据中初始角色对应的角色语音在智能终端中进行展示;随后,执行步骤124,接收角色语音对应的初始角色的身份信息,此处,初始角色的身份信息可以是根据初始角色对应的角色语音从预先存储的数据库中查找确定的,也可以是用户标注的,本发明实施例对此不做具体限定,下面以接收用户标注的角色语音对应的初始角色的身份信息为例,进行说明:用户可以通过智能终端输入初始角色的身份信息,从而实现针对初始角色的身份信息标注。需要说明的是,用户在输入初始角色的身份信息时,可以输入展示的各个初始角色的身份信息,也可以是从展示的各个初始角色中选取一个或多个进行身份信息输入,本发明实施例对此不做具体限定。此后,智能终端可以将用户标注的初始角色的身份信息发送至用于声纹注册的服务器,服务器接收到用户标注的初始角色的身份信息,或者智能终端本身即承担声纹注册的功能,则智能终端获取用户标注的初始角色的身份信息。
75.此外,下面以初始角色的身份信息是查找确定的为例,进行说明:
76.可以预先构建存储有不同说话人身份信息的数据库,例如可以是录入了参会人员的姓名、性别、年龄等信息的数据库,在得到语音数据中的初始角色后,可以根据初始角色在语音数据中对应的角色语音所反映分析推测出的角色相关的信息,例如角色年龄、性别等,并由此从数据库中匹配对应的说话人,以确定初始角色的身份信息,例如,根据初始角色在语音数据中对应的角色语音分析推测得出初始角色为年龄在30岁到40岁之间的男性,则从预先构建的数据库中查找年龄在30岁到40岁之间的男性,并将查找到的说话人的身份信息,作为初始角色的身份信息。
77.本发明实施例提供的方法,在确定语音数据中的初始角色后,展示初始角色对应的角色语音,用户可直接通过智能终端从展示的角色语音中确定初始角色的身份信息,并对其进行身份信息标注,或者根据初始角色对应的角色语音分析推测出的角色相关的信息,从预先构建的数据库中查找对应的说话人,并将查找到的说话人的身份信息作为初始
角色的身份信息,从而使服务器能够接收到角色语音对应的初始角色的身份信息,据此确定的初始角色的身份信息,保证了初始角色的身份信息的准确性,并且还提升了初始角色的身份信息确定的速率,从而为快速准确的声纹注册提供强大的助力。
78.此外,智能终端还可以既展示初始角色对应的角色语音,又展示初始角色对应的角色语音的转写文本,用户可从智能终端展示的上述任意一种或两种信息中确定初始角色的身份信息,并通过智能终端输入初始角色的身份信息,从而实现针对初始角色的身份信息标注。
79.基于上述实施例,图4是本发明提供的声纹特征的确定过程的示意图,如图4所示,声纹特征基于如下步骤确定:
80.步骤410,从语音数据中初始角色对应的角色语音中,选取初始角色的样本语音;
81.步骤420,对样本语音进行声纹提取,得到初始角色的声纹特征。
82.具体地,经过步骤110和步骤120分别得到语音数据中初始角色以及初始角色的身份信息后,若要对初始角色进行身份标注,则还需确定语音数据中初始角色的声纹特征,如此才可根据语音数据中的初始角色,以及初始角色的声纹特征,对初始角色进行声纹注册。
83.初始角色的声纹特征可以是对初始角色对应的角色语音进行声纹提取得到,此处的角色语音即对语音数据进行声纹分离所得的该初始角色在语音数据中对应的语音段。
84.考虑到初始角色在语音数据中可能对应有多段角色语音,若对各段角色语音均进行声纹提取,这不仅需耗费较长时间,还延误了声纹注册的进程,基于此本发明实施例中,在进行声纹提取之前,还可执行步骤410,从语音数据中初始角色对应的角色语音中选取样本语音,此处的样本语音即初始角色对应的角色语音中语音质量较高以及语音时长较长的角色语音,而角色语音的语音质量可通过语音清晰度、噪声大小等评判确定,即初始角色对应的样本语音可以根据各段角色语音的语音清晰度、噪声大小、语音时长中的至少一种,从各段角色语音选取得到。
85.需要说明的是,样本语音的选取并不局限于单一的一段,即并不一定是将语音质量最高和/或语音时长最长的角色语音作为样本语音,由于从同一初始角色在不同时间区间下的角色语音中提取出的声纹特征可能存在细微差别,因而在选取样本语音时,也可以选取多段样本语音,即将语音质量较高和/或语音时长较长的前几段角色语音作为样本语音。
86.选定初始角色对应的样本语音后,即可执行步骤420,对样本语音进行声纹提取,提取样本语音中初始角色的声纹特征,从而得到初始角色的声纹特征。针对样本语音为多段语音数据的情况,其声纹提取过程包括如下步骤:首先,对各段样本语音进行声纹提取,得到各段样本语音中初始角色的声纹特征;随即,融合各段样本语音中初始角色的声纹特征,从而得到初始角色的声纹特征,此处对于声纹特征进行融合,可以是求均值。
87.此后,即可根据初始角色的身份信息,以及初始角色在语音数据中的声纹特征,对初始角色进行声纹注册。
88.基于上述实施例,步骤410包括:
89.基于初始角色对应的各段角色语音的语音时长和/或语音清晰度,从各段角色语音中,选取初始角色的样本语音。
90.由于初始角色的声纹注册是根据初始角色的声纹特征进行的,而初始角色的声纹
特征是对初始角色的样本语音进行声纹提取得到的,初始角色的样本语音是从语音数据中初始角色对应的角色语音中选取的,当初始角色的角色语音的语音时长较短时,无法从短时间的角色语音中提取出较为准确的初始角色的声纹特征,因此,也无法将该段角色语音作为初始角色的样本语音。
91.除此之外,若初始角色对应的角色语音中存在部分不清晰的语音区段,则会对基于此角色语音的声纹提取过程产生严重影响,从而导致声纹提取得到的声纹特征的准确度较低。因而,在从初始角色对应的角色语音中选取样本语音时,各段角色语音的语音时长和语音清晰度尤为关键,而选取出的样本语音的语音时长和语音清晰度不仅关系着初始角色的声纹特征的准确度,还间接影响着初始角色的声纹注册过程。
92.基于此,在执行步骤410,从语音数据中初始角色对应的角色语音中,选取初始角色对应的样本语音时,可以参考各段角色语音的语音时长,或者各段语音数据的语音清晰度,从各段角色语音中选取初始角色的样本语音;也可以综合考量各段语音数据的语音时长以及语音清晰度对声纹提取过程的影响,从各段角色语音中选取初始角色的样本语音。
93.此处的语音清晰度表征语音的清晰程度,可通过各段语音数据中的语气词数量、噪声大小、语义错误中的一种或者多种评判确定。
94.语音时长即各段角色语音从开始到结束横跨的时间周期,选取的样本语音的语音时长可以是大于等于15秒、20秒、25秒等。作为优选,本发明实施例中将样本语音的语音时长确定为大于等于15秒,即以15秒为基准,从各段角色语音中选取样本语音,滤除语音时长小于15秒的角色语音,从剩余的角色语音中选取样本语音。
95.基于上述实施例,语音清晰度基于对应角色语音中包含的语气词数量和/或语义错误数量确定。
96.考虑到在实际录制的语音数据中可能包含大量的语气词,而大量语气词的存在,对后续基于此进行的声纹提取以及声纹注册的过程存在不利影响,并且,使用包含大量语气词的角色语音注册的声纹,在后续的使用过程中会出现误导,以及大量的识别错误的情况。另外,当角色语音中存在语义错误之处时,例如,在角色语音的转写文本“相比较这个基因来说,更多的是see这个712好像暂时没有没有还没有感受到这个差异的时候是经常死机的,但是t二的话目前是还没有遇到过”中,“see”“712”“没有没有”“t二”即为语义错误之处,语义错误之处较多也会对后续的声纹提取以及声纹注册产生不利影响。
97.基于此,本发明实施例中,在根据各段角色语音的语音清晰度,选取样本语音时,可以进一步根据各段角色语音中包含的语气词数量,或者各段角色语音中的语义错误数量,从初始角色对应的各段角色语音中,选取初始角色对应的样本语音;也可以综合各段角色语音中包含的语气词数量,以及各段角色语音中的语义错误数量两种因素,从初始角色对应的各段角色语音中,选取初始角色对应的样本语音。
98.需要说明的是,针对上述综合两种因素的情况,其选择条件中,语气词数量和语义错误数量的选择顺序可以不分先后,也可以一前一后,本发明实施例对此不做具体限定。
99.下面以语气词数量在前,语义错误数量在后的选择顺序,对初始角色的样本语音的选取过程进行说明:
100.首先,从语音数据中获取初始角色对应的各段角色语音;
101.随即,对各段角色语音中的语气词进行标注,并确定每段角色语音中包含的语气
词数量;
102.随后,根据各段角色语音中包含的语气词数量,从初始角色对应的各段角色语音中选取候选样本语音,即按照各段角色语音中语气词数量从少到多的顺序,依次选取角色语音作为候选样本语音;
103.此后,对各段候选样本语音进行语义理解,得到各段候选样本语音中的语义错误数量,即对各段初始样本语音中的语义错误进行标注,确定各段初始样本语音中的语义错误数量;
104.最后,根据各段候选样本语音中的语义错误数量,从各段候选样本语音中,确定初始角色对应的样本语音,即按照各段候选样本语音中语义错误数量从少到多的顺序,依次选取候选样本语音作为初始角色的样本语音。
105.本发明实施例提供的方法,根据初始角色对应的各段角色语音中包含的语气词数量、语义错误数量中的一种或两种,从初始角色对应的各段角色语音中,选取初始角色对应的样本语音,通过两个方面的条件从各段角色语音中选取样本语音,保证了选取出的样本语音的语音清晰度,将语音清晰度较高的角色语音作为样本语音进行声纹注册,提高了声纹提取得到的声纹特征的准确率,保证了声纹注册的可靠性和准确性。
106.基于上述实施例,步骤410包括:
107.接收从初始角色对应的各段角色语音中选取初始角色的样本语音。
108.除服务器从语音数据中初始角色对应的角色语音中,选取初始角色的样本语音之外,样本语音还可以由用户选取确定,具体地,用户从初始角色对应的各段角色语音中,选取初始角色的样本语音的过程具体包括:首先,从语音数据中获取初始角色对应的角色语音;随即,由用户从初始角色对应的各段角色语音中,选取初始角色的样本语音;随后,接收用户从初始角色对应的各段角色语音中选取初始角色的样本语音。
109.需要说明的是,鉴于语音时长以及语音清晰度对声纹特征的影响,用户在选取样本语音时,可参考各段角色语音的语音时长,或者各段语音数据的语音清晰度,从各段角色语音中选取初始角色的样本语音;也可以综合各段语音数据的语音时长以及语音清晰度两方面的因素,从各段角色语音中选取初始角色的样本语音,本发明实施例对此不做具体限定。
110.基于上述实施例,样本语音的数量小于等于预设数量。
111.具体地,在根据初始角色的身份信息,以及初始角色在语音数据中的声纹特征,对初始角色进行声纹注册之前,还需确定样本语音的数量,判断样本语音的数量是否达到预设数量,预设数量即用于声纹注册的设备可容纳的样本语音的最大数量,可根据用于声纹注册的设备的存储量预先确定,本发明实施例中预设数量为64段。
112.进一步地,若样本语音的数量达到预设数量,表明此时用于声纹注册的设备中已存储的样本语音的数量已达到可容纳的最大数量,此时无法选取新的样本语音进行声纹注册,若需从初始角色对应的各段角色语音中选取新的样本语音进行声纹注册,则需删除部分已完成声纹注册的样本语音,减少样本语音的数量,如此即可基于新的样本语音进行声纹注册。
113.相应地,若样本语音的数量未达到预设数量,表明此时用于声纹注册的设备中已存储的样本语音的数量暂未达到可容纳的最大数量,则可直接根据初始角色的身份信息,
以及初始角色在语音数据中的声纹特征,对初始角色进行声纹注册。
114.基于上述实施例,对初始角色进行声纹注册,之后还包括:
115.基于各初始角色的身份信息,以及各初始角色在语音数据中的声纹特征,对语音数据进行说话人标注。
116.具体地,在实际进行语音录制的过程中,大多是多个说话人间接说话,而由于录制的实际需求,往往需要将不同的说话人进行标注,标注后,该说话人对应的角色语音即为该说话人的说话内容。
117.图5是本发明提供的说话人标注的界面显示图之一,如图5所示,用于声纹注册的设备在对录制的语音数据进行第一次语音转写时,首先,需对语音数据进行声纹分离,即对语音数据中各说话人的声纹特征进行区分判断,确定语音数据中各说话人的声纹特征之间的匹配度;随即,根据各说话人的声纹特征的匹配度,对各说话人进行初始角色标注,将声纹特征的匹配度较高的说话人标注为同一说话人,例如,可将同一说话人在不同时间区间的说话内容标注为:【说话人1】说话内容1,【说话人1】说话内容2;将声纹特征匹配度较低的说话人标注为不同说话人,例如,将不同说话人的说话内容标注为【说话人1】说话内容1,【说话人2】说话内容2,从而得到语音数据中各说话人的初始角色标注。
118.此后,还可根据已完成声纹注册的初始角色的声纹特征,以及初始角色的身份信息,更新初始角色标注,从而得到语音数据中各说话人的角色标注,这一过程具体可以是,从已完成声纹注册的初始角色的声纹特征中,确定与语音数据中各说话人的声纹特征匹配的初始角色的声纹特征;随后,将此初始角色的声纹特征对应的身份信息附于对应说话人,即将语音转写得到的转写文本中对应说话人名称修改为对应初始角色的身份信息中包含的名称,说话人名称的修改可通过点击说话人名称,在弹出的名称修改框中输入身份信息中包含的说话人的名称,并点击确认按钮实现。
119.需要说明的是,在对说话人名称进行修改时,弹出的名称修改框中还需选择修改此处或修改全部,修改此处表明仅对点击的说话人名称进行修改,例如,将点击的【说话人2】修改为小明;修改全部表明对转写文本中与点击的说话人名称一致的所有说话人名称进行修改,例如,图5中对转写文本中所有的【说话人2】进行修改,可将所有的【说话人2】均修改为小明,不对其余说话人名称(【说话人1】、【说话人3】等)进行修改。
120.考虑到从同一说话人在不同时段的角色语音中提取出的声纹特征,可能存在细微差别,因此在选取样本语音时,可添加多个样本语音用于声纹注册,以便在后续语音转写的过程中,能够更加准确的区分各说话人的声纹特征。
121.基于此,在本发明实施例中弹出的名称修改框中还设有一个复选框,其内容为“对应音频保存为说话人的语音样本”,可以理解为若勾选此复选框,则保存点击的说话人名称对应的角色语音,并将保存的角色语音作为点击的说话人的样本语音,勾选完毕后,点击确认按钮,即可完成注册。
122.但是,当点击的说话人名称对应的角色语音的语音时长较短,或者样本语音的数量达到预设数量时,弹出的名称修改框中会根据实际情况进行相应显示,图6是本发明提供的说话人标注的界面显示图之二,如图6所示,若点击的说话人名称对应的角色语音的语音时长不足15秒,则弹出的名称修改框中会显示“选取的转写结果对应的音频时长不足15秒”,此时无法基于此样本语音进行声纹注册,复选框无法再次勾选,需重新选择语音时长
超过15秒的角色语音作为样本语音,进行声纹注册。
123.若样本语音的数量达到预设数量,则弹出的名称修改框中会显示“样本已达上限64,可在注册说话人界面管理”,此时同样无法基于此样本语音进行声纹注册,可在注册说话人界面进行相应管理,删除部分已注册的样本语音,减少样本语音的数量,如此即可将点击的说话人名称对应的角色语音作为样本语音,并基于此样本语音进行声纹注册。
124.本发明实施例提供的方法,在弹出的名称修改框中勾选复选框,将点击的说话人名称对应的角色语音作为样本语音,根据此样本语音进行声纹注册,可便于后续的语音转写场景中,对该说话人进行自动识别并显示,无需再额外录制语音数据进行声纹注册,省去了额外录制语音数据的步骤,加快了声纹注册的进程。
125.下面对本发明提供的声纹注册装置进行描述,下文描述的声纹注册装置与上文描述的声纹注册方法可相互对应参照。
126.图7是本发明提供的声纹注册装置的结构示意图,如图7所示,该装置包括:
127.声纹分离单元710,用于对语音数据进行声纹分离,得到所述语音数据中的初始角色;
128.身份信息接收单元720,用于接收所述初始角色的身份信息;
129.声纹注册单元730,用于基于所述初始角色的身份信息,以及所述初始角色在所述语音数据中的声纹特征,对所述初始角色进行声纹注册。
130.本发明提供的声纹注册装置,基于语音数据中初始角色的身份信息,以及初始角色在语音数据中的声纹特征,进行声纹注册,实现了语音数据的复用,无需额外录制专用于声纹注册的语音,解决了录制之前的声纹注册十分繁琐的问题,提高了声纹注册的效率,实现了快速准确的声纹注册。
131.基于上述实施例,身份信息接收单元720用于:
132.展示所述语音数据中初始角色对应的角色语音的转写文本;
133.接收所述转写文本对应的初始角色的身份信息。
134.基于上述实施例,身份信息接收单元720用于:
135.展示所述语音数据中初始角色对应的角色语音;
136.接收所述角色语音对应的初始角色的身份信息。
137.基于上述实施例,所述装置还包括声纹特征确定单元,用于:
138.从所述语音数据中所述初始角色对应的角色语音中,选取所述初始角色的样本语音;
139.对所述样本语音进行声纹提取,得到所述初始角色的声纹特征。
140.基于上述实施例,声纹特征确定单元用于:
141.基于所述初始角色对应的各段角色语音的语音时长和/或语音清晰度,从所述各段角色语音中,选取所述初始角色的样本语音。
142.基于上述实施例,所述语音清晰度基于对应角色语音中包含的语气词数量和/或语义错误数量确定。
143.基于上述实施例,声纹特征确定单元用于:
144.接收从所述初始角色对应的各段角色语音中选取所述初始角色的样本语音。
145.图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处
理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行声纹注册方法,该方法包括:对语音数据进行声纹分离,得到所述语音数据中的初始角色;接收所述初始角色的身份信息;基于所述初始角色的身份信息,以及所述初始角色在所述语音数据中的声纹特征,对所述初始角色进行声纹注册。
146.此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
147.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的声纹注册方法,该方法包括:对语音数据进行声纹分离,得到所述语音数据中的初始角色;接收所述初始角色的身份信息;基于所述初始角色的身份信息,以及所述初始角色在所述语音数据中的声纹特征,对所述初始角色进行声纹注册。
148.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的声纹注册方法,该方法包括:对语音数据进行声纹分离,得到所述语音数据中的初始角色;接收所述初始角色的身份信息;基于所述初始角色的身份信息,以及所述初始角色在所述语音数据中的声纹特征,对所述初始角色进行声纹注册。
149.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
150.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
151.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。