1.本发明涉及音频处理技术领域,具体涉及一种音频处理方法、装置、存储介质及计算机设备。
背景技术:2.近年来,随着互联网技术的发展及智能终端的普及,在线教育产业也是随着互联网产业的快速发展迅速崛起的产业之一,在线教育的出现,打破的教育资源的地域限制,使得学生可以获得更为丰富的教育资源,缓解了教育资源分配不均衡的情况。
3.目前的在线教育产品中,尤其是针对儿童英语学习的产品中,当对儿童的学习语音进行采集以对其学习情况进行评分时,经常会因为采集到家长的带读语音导致评分结果不准确。
技术实现要素:4.本技术实施例提供一种音频处理方法、装置、存储介质及计算机设备,该方法可以根据音频数据中声纹信息之间的差别确定目标子音频数据,再对目标子音频数据进行评分。如此可以提高音频数据处理的准确性,进而提升了对音频数据评分的准确性。
5.本技术第一方面提供一种音频处理方法,包括:
6.采集当前环境下的音频数据,所述音频数据包括至少一个声纹信息;
7.基于所述音频数据中的声纹信息之间的差别将所述音频数据分割为多个子音频数据;
8.确定声纹信息满足预设条件的子音频数据为目标子音频数据;
9.按照预设的评分规则对所述目标子音频数据进行评分,得到所述音频数据对应的得分。
10.相应的,本技术第二方面提供一种音频处理装置,包括:
11.采集单元,用于采集当前环境下的音频数据,所述音频数据包括至少一个声纹信息;
12.分割单元,用于基于所述音频数据中的声纹信息之间的差别将所述音频数据分割为多个子音频数据;
13.确定单元,用于确定声纹信息满足预设条件的子音频数据为目标子音频数据;
14.评分单元,用于按照预设的评分规则对所述目标子音频数据进行评分,得到所述音频数据对应的得分。
15.在一些实施例中,所述确定单元,包括:
16.第一确定子单元,用于确定声纹信息满足预设条件的第一数量个子音频数据;
17.拼接子单元,用于将所述第一数量个子音频数据按照时间顺序进行拼接,得到目标子音频数据。
18.在一些实施例中,所述确定单元,包括:
19.匹配子单元,用于将每个子音频数据的声纹信息与预设的声纹信息进行匹配;
20.第二确定子单元,用于确定声纹信息与所述预设的声纹信息相匹配的子音频数据为目标子音频数据。
21.在一些实施例中,所述装置还包括:
22.获取单元,用于获取当前用户的声纹信息集合,所述声纹信息集合包括多个声纹信息以及每个声纹信息的采集时间;
23.预测单元,用于根据所述声纹信息集合预测当前时间对应的声纹信息,并确定所述当前时间对应的声纹信息为预设的声纹信息。
24.在一些实施例中,所述预测单元,包括:
25.训练子单元,用于采用声纹信息训练样本训练预设声纹信息预测模型,所述声纹信息训练样本包括多个用户的声纹信息包,所述声纹信息包包括用户不同时间采集的声纹信息;
26.预测子单元,用于基于训练后的预设声纹信息预测模型及所述声纹信息集合预测所述当前用户当前时间对应的声纹信息。
27.在一些实施例中,所述确定单元,包括:
28.提取子单元,用于提取每一子音频数据对应的声纹信息中的音调特征;
29.第三确定子单元,用于确定音调特征与预设音调特征匹配的子音频数据为目标子音频数据。
30.在一些实施例中,所述第三确定子单元,包括:
31.获取模块,用于获取每一音调特征对应的年龄段数据;
32.确定模块,用于确定与预设年龄段数据对应的目标子音频数据。
33.本技术第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本技术第一方面所提供的音频处理方法的步骤。
34.本技术第四方面提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本技术第一方面所提供的音频处理方法的步骤。
35.本技术第五方面提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行第一方面提供的音频处理方法的步骤。
36.本技术实施例提供的音频处理方法,通过采集当前环境下的音频数据,音频数据包括至少一个声纹信息;基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据;确定声纹信息满足预设条件的子音频数据为目标子音频数据;按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分。以此,根据音频数据中声纹信息之间的差别将音频数据进行分割并确定声纹信息满足预设条件的子音频数据为目标子音频数据,再确定目标子音频数据的评分为音频数据的评分。如此可以避免噪音对评分系统造成的干扰,提高了音频处理的准确性,进而提升了对音频数据进行评分的准确性。
附图说明
37.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1本技术提供的音频处理的场景示意图;
39.图2是本技术提供的音频处理方法的流程示意图;
40.图3是本技术提供的音频处理方法的另一流程示意图;
41.图4是本技术提供的音频处理装置的结构示意图;
42.图5是可视化终端的显示场景示意图;
43.图6a是家长模式登录页面的一种示意图;
44.图6b是家长模式登录页面的另一示意图;
45.图7是本技术提供的计算机设备的结构示意图。
具体实施方式
46.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.本发明实施例提供一种音频处理方法、装置、计算机可读存储介质及计算机设备。其中,该音频处理方法可以使用于音频处理装置中。该音频处理装置可以集成在计算机设备中,该计算机设备可以是终端也可以是服务器。其中,终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(pc,personal computer)等设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
48.请参阅图1,为本技术提供的音频处理的场景示意图;如图所示,计算机设备采集当前环境下的音频数据,该音频数据可以包含多个声纹信息。在获取到当前环境下的音频数据后,对音频数据中包含的声纹信息进行获取,然后再根据声纹信息之间的差别将音频数据分割为多个子音频数据,确定声纹信息满足预设条件的子音频数据为目标子音频数据,再按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分。
49.需要说明的是,图1所示的音频处理的场景示意图仅仅是一个示例,本技术实施例描述的音频处理场景是为了更加清楚地说明本技术的技术方案,并不构成对于本技术提供的技术方案的限定。本领域普通技术人员可知,随着音频处理的演变和新业务场景的出现,本技术提供的技术方案对于类似的技术问题,同样适用。
50.基于上述实施场景以下分别进行详细说明。
51.本技术实施例将从音频处理装置的角度进行描述,该音频处理装置可以集成在计算机设备中。其中,计算机设备可以是终端或服务器。如图2所示,为本技术提供的音频处理
方法的流程示意图,该方法包括:
52.步骤101,采集当前环境下的音频数据。
53.其中,本技术提供的音频处理方法可以应用于在线教育应用程序中,该在线教育应用程序可以用于各类课程的在线教学,包括但不限于语言类课程、理科类课程、文学类课程以及艺术类课程的在线教学。在一些情况下,在线教育应用程序会对学生的学习情况进行考核,以使得学生能够实时掌握自己的学习情况。具体地,例如在语言类课程学习中,具体地可以在英语教学课程中,应用程序可以采集学生对英文文本进行阅读的音频数据,然后对采集到的音频数据进行评分,学生可以根据评分情况了解自己对这部分英文的掌握情况。然而,在面对一些特殊群体的学生时,例如儿童,由于学生学习能力有限,无法独立完成学习课程,一般需要家长进行带读。如此,应用程序在采集学生阅读的音频数据时,便会采集到家长带读的语音,对此进行评分则会导致评分数据不准确,不能真实体现学生的学习效果。
54.对此,本技术提供一种音频处理方法,以避免带读语音对评分结果造成的影响,提高对音频数据评分的准确性。具体地,本技术提供的音频处理方法,对音频数据中声纹信息满足预设条件的目标子音频数据进行确定,再对目标子音频数据进行评分,从而得到音频数据对应的得分。下面,详细对本技术的方案进行介绍。
55.当应用程序处于教学模式下时,实时对当前环境下的音频数据进行采集。该音频数据可以只包含一个声纹信息,也可以包含多个声纹信息。当音频数据中包含多个声纹信息时,可以对声纹信息进行划分。具体地,可以将声纹信息按类别划分为不同种类。例如,将音频数据中包含的多个声纹信息划分为男性声纹信息和女性声纹信息;或者,将声纹信息划分为儿童声纹信息,青少年声纹信息和成年声纹信息。也可以根据多个约束条件进行更为细致的划分,例如划分为男性儿童声纹信息和女性儿童声纹信息等。对于分类得到的同一类的声纹信息中,还可以根据声纹信息的细节进行进一步的划分,得到多个单一的声纹信息。下面以一个具体的实施例进行详细说明,例如当采集到的音频数据中检测出父亲、母亲、儿子以及女儿的声纹信息时,可以先将声纹信息分为成人声纹和儿童声纹,那么父亲、母亲的声纹信息便属于成人声纹类,儿子、女儿的声纹信息则属于儿童声纹类。然后,可以进一步对儿童声纹类的声纹信息进行进一步的确定,以区分出哪一声纹对应儿子的声纹,哪一声纹对应女儿的声纹。
56.步骤102,基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据。
57.其中,当检测到音频数据中存在多个声纹信息时,对音频数据中的声纹信息进行提取,得到多个声纹信息。然后,从音频数据中逐一确定每个声纹信息对应的子音频数据,从而实现了将音频数据按照声纹信息之间的差别划分为多个子音频数据。
58.其中,子音频数据在时间维度上可能交叉也可能并不交叉。例如,音频数据的总时长为t,0到t之间存在时间节点t1与t2,t2大于t1,那么音频数据的总时长便被划分为0到t1、t1到t2、t2到t这三个时间段。那么在0到t1时间段中,可能存在一个声纹信息对应的子音频数据,也可能存在多个声纹信息对应的子音频数据。一个声纹信息对应的子音频数据可能仅存在于一个时间段中,也可能存在多个时间段中。当一个声纹信息对应的子音频数据存在多个时间段中时,该子音频数据可以是连续的,也可以是非连续的。
59.步骤103,确定声纹信息满足预设条件的子音频数据为目标子音频数据。
60.其中,由于多个子音频数据为按照音频数据中声纹信息之间的差别进行划分的,因此,对子音频数据进行筛选确定目标子音频数据也可以从声纹信息维度进行筛选。
61.确定声纹信息满足预设条件的子音频数据,具体可以将每个子音频数据的声纹信息与预设的声纹信息进行匹配。将匹配相似度大于预设阈值的声纹信息确定为目标子音频数据。也可以将每个子音频数据按照声纹信息的类别进行分类,如前所述,声纹信息可以分为男性声纹信息、女性声纹信息,那么子音频数据也可以根据声纹信息的类别分为男性声纹信息对应的子音频数据和女性声纹信息对应的子音频数据。再进一步根据分类的类别确定满足预设条件的子音频数据。
62.在一些实施例中,确定声纹信息满足预设条件的子音频数据为目标子音频数据,包括:
63.1、将每个子音频数据的声纹信息与预设的声纹信息进行匹配;
64.2、确定声纹信息与预设的声纹信息相匹配的子音频数据为目标子音频数据。
65.在本技术实施例中,采用将每个子音频数据的声纹信息与预设的声纹信息进行匹配的方法确定目标子音频数据。在使用应用程序进行采集音频数据并进行打分之前,需要先在应用程序的设置界面进行预设声纹信息的设置。具体地,可以在应用程序的设置界面上点击声纹信息采集,然后在安静环境下输入单一声纹信息的音频数据。例如录制界面会提示用户阅读或者跟读单字、词语或者句子,然后应用程序对阅读语音或者跟读语音进行采集,然后再对采集的音频数据进行声纹信息提取并将提取出的声纹信息设置为预设声纹信息。在一些实施例中,应用程序还可以多次进行声纹信息提取,以采集更为详细的声纹信息特征,最终确定一个预设声纹信息并进行保存。具体地,由于声纹信息由多个特征组成,声纹信息的特征包括但不限于音调、音质以及音色等。应用程序如仅使用用户一次阅读或者跟读的语音进行多个声纹信息特征的确定,则会使得随机因素对采集的声纹特征的影响较大,可能会使得采集得到的声纹信息的特征不够准确。如此,应用程序可以让用户重复阅读一个句子或者重复跟读一段语音,然后根据重复阅读或者跟读的多段音频数据进行声纹信息的特征的提取。例如,可以采集三段音频数据,然后从每段音频数据中提取出一个声纹信息的音调特征,最后再对提取得到的三个音调特征提取其共性部分,作为预设声纹信息的音调特征。如此,则可以得到更为准确的预设声纹信息。
66.设置了预设声纹信息后,应用程序便对当前环境下的音频数据进行获取,并从音频数据中提取与预设声纹信息匹配的目标子音频数据。
67.在一些实施例中,将每个子音频数据的声纹信息与预设的声纹信息进行匹配之前,还包括:
68.1.1、获取当前用户的声纹信息集合,声纹信息集合包括多个声纹信息以及每个声纹信息的采集时间;
69.1.2、根据声纹信息集合预测当前时间对应的声纹信息,并确定当前时间对应的声纹信息为预设声纹信息。
70.其中,在本技术实施例中,无需用户在应用程序中手动设置预设声纹信息,应用程序可以根据历史声纹信息预测当前时间的声纹信息,并将预测的声纹信息确定为预设声纹信息。
71.具体地,每次用户进入教学模式时,应用程序可以根据登录应用程序的用户账号确定登录的目标用户。其中,登录应用程序可以通过账号密码进行登录,可以采用手机号和验证码进行登录,也可以使用其他第三方应用(例如即使通讯应用程序)进行登录,还可以采用语音登录方法进行登录。具体地,采用语音登录方法进行登录,可以在应用程序的客户端中显示目标用户的登录界面,响应于对登录界面中语音登录控件的触控操作,接收输入的语音信息。然后对输入的语音信息进行语音识别,识别出语音信息中的内容,再将识别出的语音内容与预设的语音内容进行匹配,当识别出的语音内容与预设的语音内容相匹配时,即允许目标用户登录应用程序;否则则不允许目标用户登录应用程序。该方法也可以理解为设置语音密码,目标用户通过输入语音密码登录应用程序。或者,在一些实施例中,采用语音登录方法进行登录,还可以对接收到的语音信息的声纹信息进行提取,然后再提取出的声纹信息和预设的声纹信息进行匹配,当提取出的声纹信息和预设的声纹信息相匹配时,允许目标用户登录应用程序,否则则不允许目标用户登录应用程序。该方法也可以理解为设置声纹密码,用户可以通过输入声纹密码对应的语音以登录应用程序。
72.当用户登录了应用程序之后,应用程序据此确定需要从音频数据中提取出的子音频数据应当是与目标用户的声纹信息匹配的子音频数据,然后再对与目标用户的声纹信息匹配的子音频数据进行评分。此时应用程序从历史声纹信息库中提取出目标用户的声纹信息,目标用户的声纹信息有多个,每个声纹信息均对应一个采集时间。
73.由于随着目标用户的年龄的增长,其声纹信息会发生变化,应用程序可以提前获取该变化规律,并结合目标用户不同时间段的历史声纹信息预测目标用户当前时间的声纹信息,并将当前时间的声纹信息确定为预设声纹信息。其中,可以先获取用户在不同时间采集到的声纹信息,得到每个时间的时间戳与对应的声纹信息组成的声纹信息集合。声纹信息集合包括多个数据对,每个数据对包含一个时间戳和一个声纹信息。例如,声纹信息集合包括:时间戳1和声纹数据1组成的第一数据对,时间戳2和声纹信息2组成的第二数据对,时间戳3和声纹信息3组成的第三数据对等。然后,可以根据声纹信息集合中的多个数据对,分析出用户声纹信息随时间变化的变化规律。然后再根据该变化规律预测当前时间对应的声纹信息。其中,可以将声纹信息集合中每个声纹信息按照多个特征维度进行划分,然后分别分析每个声纹特征随时间变化的规律,再预测当前时间对应的每个声纹特征对应的声纹特征数据。最后再将这些预测得到的声纹特征数据进行结合,得到预设声纹信息。
74.本技术实施例中,不仅无需用户自行设置预设声纹信息,提高了音频处理效率,提升了用户的操作体验。而且在用户较长一段时间未使用应用程序后再次使用时,仍能无需用户重新设置便能自动确定预设声纹信息,并能准确从语音数据中提取出与用户声纹匹配的目标子音频数据,极大提升了音频数据处理效率。
75.在一些实施例中,根据声纹信息集合预测当前时间对应的声纹信息,包括:
76.1.1.1、采用声纹信息训练样本训练预设声纹信息预测模型,声纹信息训练样本包括多个用户的声纹信息包,声纹信息包包括用户不同时间采集的声纹信息;
77.1.1.2、基于训练后的预设声纹信息预测模型及声纹信息集合预测当前用户当前时间对应的声纹信息。
78.其中,在本实施例中,可以通过声纹预测模型对用户当前时间的声纹信息进行预测。如下对声纹预测模型进行举例说明,例如可以先获取用户的声纹信息包,用户的声纹信
息包包含了用户在不同时间点获取的声纹信息,将用户声纹信息获取的时间作为模型的输入数据,用户在每个时间获取到的声纹信息数据作为模型的输出数据,然后采用该输入数据和输出数据对声纹预测模型进行训练,得到训练后的声纹预测模型。训练完成后,向训练完成后的声纹预测模型中输入任意一个时间点,便可以输出该时间点对应的预测得到的声纹信息。若向声纹预测模型中输入当前时间点,便可以得到当前时间点对应的声纹信息。然后便可以将该预测得到声纹信息设置为预设声纹信息,再将获取到的多个子声纹信息与预设声纹信息进行匹配,确定相匹配的子声纹信息为目标子声纹信息。
79.在一些实施例中,确定声纹信息满足预设条件的音频数据为目标子音频数据,包括:
80.a、提取每一子音频数据对应的声纹信息中的音调特征;
81.b、确定音调特征与预设音调特征匹配的子音频数据为目标子音频数据。
82.其中,如前述示例中儿童进行英文学习时,由于无法独立完成阅读或者跟随应用程序中的人工智能跟读,需要家长进行带读,此时家长的语音混入采集的音频数据中,会导致应用程序对儿童读音打分的结果产生偏差。因此,此时需要从采集的音频数据中提取出儿童的音频数据,筛选掉家长的音频数据。由于儿童和家长的音调特征会有明显的差异,因此本技术中根据声纹信息中的音调特征进行区分儿童和家长对应的子音频数据。
83.具体地,可以在应用程序中设置符合儿童音调的声纹信息为预设声纹信息,也可以由应用程序自行设定符合儿童音调的声纹信息为预设声纹信息。应用程序从采集的音频数据中提取出声纹信息与儿童音调符合的子音频数据,作为目标子音频数据,再对该目标子音频数据进行评分。
84.在本技术一实施例中,无需对每个儿童的声纹信息进行采集作为预设声纹信息,只需确定声纹信息符合儿童音调特征即可判定为预设声纹信息。如此使得该应用对于大部分儿童都能适用,具有更好的兼容性。
85.在一些实施例中,确定音调特征与预设音调特征匹配的子音频数据为目标子音频数据,包括:
86.a、获取每一音调特征对应的年龄段数据;
87.b、确定与预设年龄段数据对应的目标子音频数据。
88.其中,在一些实施例中,更为细致地,可以在获取到每一声纹数据对应的音调特征后,确定该音调特征对应的年龄段数据,例如0至3岁,3至8岁,8至18岁等。然后再进一步根据每一声纹数据的音调特征对应的年龄段数据确定符合预设年龄段的目标子音频数据。如此,可以使得应用程序可以针对不同年龄段的用户设置自动采集目标子音频数据,排除其他音频数据干扰的功能。
89.步骤104,按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分。
90.其中,在确定了声纹信息满足预设条件的目标子音频数据之后,应用程序便按照预先设置的评分规则对目标子音频数据进行评分,得到目标子音频数据对应的得分,该得分即为音频数据对应的得分。
91.在一些实施例中,确定声纹信息满足预设条件的子音频数据为目标子音频数据,包括:
92.1、确定声纹信息满足预设条件的第一数量个子音频数据;
93.2、将第一数量个子音频数据按照时间顺序进行拼接,得到目标子音频数据。
94.其中,由于儿童在跟读过程中可能读一部分然后由于不记得或者掌握不牢导致阅读中断,此时就需要家长再次提醒,或者再次带读,然后儿童再继续跟读。如此则会导致儿童的音频片段产生中断,导致产生多个零碎的子音频片段。亦即,声纹信息满足预设条件的目标子音频数据可以为多个子音频数据。对其中任意一个子音频数据进行评分,均会由于读音不完整导致评分分值下降,使得评分结果不准确。
95.因此,在本技术实施例中,当声纹信息满足预设条件的子音频数据有多个时,可以分别获取该多个子音频数据。然后,按照时间顺序对这多个子音频数据进行拼接,得到一个完整的子音频数据,作为目标子音频数据。从而避免了由于音频不完整导致影响评分的情况,进而使得评分结果更为准确。
96.根据上述描述可知,本技术实施例提供的音频处理方法,通过采集当前环境下的音频数据,音频数据包括至少一个声纹信息;基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据;确定声纹信息满足预设条件的子音频数据为目标子音频数据;按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分。以此,根据音频数据中声纹信息之间的差别将音频数据进行分割并确定声纹信息满足预设条件的子音频数据为目标子音频数据,再确定目标子音频数据的评分为音频数据的评分。如此可以避免噪音对评分系统造成的干扰,提高了音频处理的准确性,进而提升了对音频数据进行评分的准确性。
97.相应地,本技术实施例将从计算机设备的角度进一步对本技术提供的音频处理方法进行详细的描述,其中计算机设备可以为终端也可以为服务器。如图3所示,为本技术提供的音频处理方法的另一流程示意图,该方法包括:
98.步骤201,响应于进入在线教育应用程序的语音指令,计算机设备开启在线教育应用程序。
99.其中,计算机设备可以是终端,也可以是服务器。当计算机设备为终端时,可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备如智能手表、个人计算机(pc,personal computer)、或者点读笔等。特别地,在本实施例中,终端可以为点读笔。在开启点读笔后,点读笔可以实时获取语音信息,该点读笔可以连接服务器后台,该点读笔可以采用语音技术对获取的语音信息进行处理。语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。当用户对点读笔说,打开英语学习应用时,点读笔可以控制在服务器后台开启英语学习应用。此时用户便可以进行学习。此处点读笔只是一个示例,也可以是其他前述例举的终端。此处英语学习应用同样也是一个示例,也可以是其他任何在线教育应用程序。
100.对于儿童学习英语的场景中,终端采用本技术提供的具有语音识别功能的点读笔,既可以为具有视觉障碍的用户提供了在线学习的可能,还可以减少儿童面对显示屏的时间,保护儿童的视力。
101.步骤202,计算机设备采集当前环境下的音频数据。
102.其中,服务器后台进入英语学习应用程序后,点读笔可以继续接收用户输入的语
音信息。当用户对点读笔说“听力练习”时,服务器后台进入听力播放模式,点读笔开始播放英语听力。当用户对点读笔说“英语学习”时,进入教学模式。点读笔实时采集当前环境下的音频数据。在采集到音频数据后,点读笔对采集到的音频数据中的声纹信息进行检测。
103.在一些情况下,当检测到采集的当前环境下的音频数据中只包含一个声纹信息时,点读笔直接对该音频数据进行评分,并将评分结果进行保存。当检测到采集的当前环境下的音频数据中包含多个声纹信息时,则需进一步确定需要进行评分的音频数据。
104.步骤203,计算机设备基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据。
105.其中,当检测到音频数据中存在多个声纹信息时,则根据声纹信息之间的差别提取出音频数据中与每一声纹信息对应的子音频数据,得到多个子音频数据。在一些情况下,一个声纹信息对应一个子音频数据。而在另一些情况下,一个声纹信息也可以对应多个子音频数据。例如,当儿童在进行英语跟读时,若英语句子较长,儿童在跟读时忘记了该句后半部分的单词,此时家长可以进行提醒或者带读。那么在儿童语音之后便出现了家长语音,再之后又出现了儿童语音。即此示例的音频数据是由三个子音频数据组成的,然而该音频数据中仅有两种声纹信息,其中儿童的声纹信息对应了两个子音频数据。
106.步骤204,计算机设备确定声纹信息满足预设条件的第一数量个子音频数据。
107.其中,当音频数据中包含多个声纹信息的情况下,将音频数据按照声纹信息划分为多个子音频数据之后,需进一步确定声纹信息满足预设条件的子音频数据。声纹信息满足预设条件的子音频数据可以有一个,也可以有多个。当声纹信息满足预设条件的子音频数据为一个时,确定该子音频数据为目标子音频数据。当声纹信息满足预设条件的子音频数据为多个时,需要进一步根据该多个子音频数据确定目标子音频数据。其中,根据声纹信息将音频数据划分得到的子音频数据数量为m,声纹信息满足预设条件的子音频数据的数量为n,可知m>n。
108.其中确定声纹信息满足预设条件,可以是将每一子音频数据的声纹信息与一个预设的声纹信息进行匹配。当子音频数据的声纹信息与预设的声纹信息的相似度大于预设阈值时,确定该子音频数据的声纹信息满足预设条件。也可以是对每一子音频数据的声纹信息进行预设维度的特征提取,例如提取每一子音频数据的声纹信息中的音调特征。再根据提取出的音调特征与预设的音调特征进行匹配,当子音频的声纹数据中的音调特征与预设的音调特征匹配时确定该子音频的声纹信息满足预设条件。
109.步骤205,计算机设备将第一数量个子音频数据进行拼接,得到目标子音频数据。
110.其中,当一个声纹数据对应多个子音频数据时,该声纹数据对应的多个子音频数据之间可能并不连续。因为对音频数据进行评分一般为使用采集的音频数据与预设的音频数据进行相似度比较,根据相似度确定其评分。因此若仅对其中一个子音频数据进行评分,则可能会因为数据缺失导致评分出现差异。具体地,例如儿童在学习“i want to make some friends”时,由于其学习能力有限,在学习过程中会中断,需要家长的提醒或者带读。最终可能这一句话由三个子音频数据组成,分别为“i want to”、“make”和“some friends”。然而评分时是将子音频数据和“i want to make some friends”进行相似度计算进行评分的,那么取其中的任一一个子音频数据进行评分都会因为数据缺失导致评分下降。
111.为解决上述问题,本实施例提出如下方案:当确定了声纹信息满足预设条件的多个子音频数据后,根据每个子音频数据在音频数据中被采集到的时间顺序进行拼接,并将拼接得到的音频数据作为目标子音频数据。
112.步骤206,计算机设备按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分。
113.其中,在确定了目标子音频数据后,点读笔可以对目标子音频数据与预设的对照数据进行相似度计算,并根据计算得到的相似度确定音频数据对应的得分数据。
114.步骤207,计算机设备播报音频数据对应的得分。
115.其中,当点读笔计算得到音频数据的得分后,将该音频数据对应的得分进行保存。然后,点读笔还会将得分数据进行语音播报。如此,对于存在视力障碍的学生,也可以方便地了解到自己本次学习的学习效果。
116.进一步地,在一些实施例中,点读笔还可以获取用户的历史学习成绩,例如上一次学习相同句子时的学习音频数据对应的评分。获取到上一次的评分后,将上一次的评分与本次评分作比较,并根据比较情况生成评价语音。例如,本次评分比上次评分提升了,对用户进行鼓励的语音。或者,本次评分比上次评分降低了,提醒用户继续努力的语音等。如此,点读笔在播报播报本次评分时,还可以进一步播报评价语音,进一步提升了用户的使用体验。
117.根据上述描述可知,本技术提供的音频处理方法,通过响应于进入在线教育应用程序的语音指令,计算机设备开启在线教育应用程序;计算机设备采集当前环境下的音频数据;计算机设备基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据;计算机设备确定声纹信息满足预设条件的第一数量个子音频数据;计算机设备将第一数量个子音频数据进行拼接,得到目标子音频数据;计算机设备按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分;计算机设备播报音频数据对应的得分。以此,根据音频数据中声纹信息之间的差别将音频数据进行分割并确定声纹信息满足预设条件的子音频数据为目标子音频数据,再确定目标子音频数据的评分为音频数据的评分。如此可以避免噪音对评分系统造成的干扰,提高了音频处理的准确性,进而提升了对音频数据进行评分的准确性。
118.为了更好地实施以上方法,本发明实施例还提供一种音频处理装置,该音频处理装置可以集成在服务器中。
119.例如,如图4所示,为本技术实施例提供的音频处理装置的结构示意图,该音频处理装置可以包括采集单元301、分割单元302、确定单元303以及评分单元304,如下:
120.采集单元301,用于采集当前环境下的音频数据,音频数据包括至少一个声纹信息;
121.分割单元302,用于基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据;
122.确定单元303,用于确定声纹信息满足预设条件的子音频数据为目标子音频数据;
123.评分单元304,用于按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分。
124.在一些实施例中,确定单元,包括:
125.第一确定子单元,用于确定声纹信息满足预设条件的第一数量个子音频数据;
126.拼接子单元,用于将第一数量个子音频数据按照时间顺序进行拼接,得到目标子音频数据。
127.在一些实施例中,确定单元,包括:
128.匹配子单元,用于将每个子音频数据的声纹信息与预设的声纹信息进行匹配;
129.第二确定子单元,用于确定声纹信息与预设的声纹信息相匹配的子音频数据为目标子音频数据。
130.在一些实施例中,装置还包括:
131.获取单元,用于获取当前用户的声纹信息集合,声纹信息集合包括多个声纹信息以及每个声纹信息的采集时间;
132.预测单元,用于根据声纹信息集合预测当前时间对应的声纹信息,并确定当前时间对应的声纹信息为预设声纹信息。
133.在一些实施例中,预测单元,包括:
134.训练子单元,用于采用声纹信息训练样本训练预设声纹信息预测模型,声纹信息训练样本包括多个用户的声纹信息包,声纹信息包包括用户不同时间采集的声纹信息;
135.预测子单元,用于基于训练后的预设声纹信息预测模型及声纹信息集合预测当前用户当前时间对应的声纹信息。
136.在一些实施例中,确定单元,包括:
137.提取子单元,用于提取每一子音频数据对应的声纹信息中的音调特征;
138.第三确定子单元,用于确定音调特征与预设音调特征匹配的子音频数据为目标子音频数据。
139.在一些实施例中,第三确定子单元,包括:
140.获取模块,用于获取每一音调特征对应的年龄段数据;
141.确定模块,用于确定与预设年龄段数据对应的目标子音频数据。
142.具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
143.由以上可知,本实施例提供的音频处理装置,通过采集单元301采集当前环境下的音频数据,音频数据包括至少一个声纹信息;分割单元302基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据;确定单元303确定声纹信息满足预设条件的子音频数据为目标子音频数据;评分单元304按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分。以此,根据音频数据中声纹信息之间的差别将音频数据进行分割并确定声纹信息满足预设条件的子音频数据为目标子音频数据,再确定目标子音频数据的评分为音频数据的评分。如此可以避免噪音对评分系统造成的干扰,提高了音频处理的准确性,进而提升了对音频数据进行评分的准确性。
144.本技术实施例中还提供一种音频数据处理系统,具体地该音频数据处理系统可以包括便携式终端,该便携式终端可以为前述实施例中的计算机设备,具体可以为点读笔;音频数据处理系统还可以包括可视化终端,该可视化终端可以是手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(pc,personal computer)等任一具有显示功能
的终端;另外,音频数据处理系统还包括服务端,服务端可以是独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
145.其中,便携式终端可以采用嵌入式设备,继承声纹识别和语音识别模型。如此,便携式终端可以接收语音数据并直接进行语音识别然后根据语音数据控制终端中装载的应用程序的开启或关闭。便携式终端也可以将接收到的语音数据与可视化终端以及服务端进行共享,以控制可视化终端的显示界面上显示的具体内容,以及将语音数据发送至服务端以使得服务端对语音数据进行相应的处理。
146.在教学模式中,便携式终端可以采集当前环境下的音频数据,然后将采集到的音频数据发送至服务端。服务端基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据,然后在多个子音频数据中确定声纹信息满足预设条件的目标子音频数据,最后对该目标子音频数据进行评分,将该评分作为音频数据的评分再发送至便携式终端以及可视化终端。便携式终端进行评分播报,可视化终端显示评分结果。例如,当根据目标子音频数据进行评分得到的结果是95分时,可以在便携式终端上播报语音“太棒了,你本次的学习成绩为95分!”。或者,如图5所示,为可视化终端的显示场景示意图,如图所示,可以在可视化终端的成绩展示页面10中显示成绩显示区域110,在成绩显示区域110中显示“太棒了!你本次的学习成绩为95分!”的文字字样。在一些实施例中,还可以在成绩显示区域显示虚拟人物动画,例如可爱的小动物的动画。在动画中,虚拟人物还可以进行成绩播报。
147.其中,在可视化终端中,还可以具有家长模式,用户可以在显示界面上触控家长模式控件进入家长模式登录界面,家长可以进入家长模式购买相应的课程。为避免儿童误触进入家长模式,导致错误购买相关课程,一般会在家长模式中设置登录验证,需验证通过方可进入家长模式。在相关技术中,一般会设置密码或者进行对应操作以解锁家长模式。如图6a所示,为家长模式登录页面的一种示意图,如图所示在家长模式登录验证页面20中,具有登录验证区域210,在验证区域210中可以显示“请按顺序输入以下数字”的提示信息,并显示数字的中文繁体字。一般情况下,儿童是对繁体字还不具备良好的识别能力,如此便可以避免儿童误登录家长模式。然而,在一些情况下,例如当儿童知道家长密码或者需执行的相关操作情况时,也会误进入家长模式的情况。为解决上述问题,本技术中可以设置声纹匹配以识别是否家长操作,比如需要用户阅读一段话,然后对这段语音中的声纹信息进行识别,是否和预设的声纹数据一致,当一致时才可以进入家长模式。如此,可以避免儿童误进入家长模式导致的错误消费。具体地,如图6b所示,为家长模式登录页面的另一示意图,如图所示在家长模式登录验证页面20中显示登录验证区域210,在登录验证区域可以显示提示信息“请阅读如下语句:你好,早上好,见到你很高兴。”另外,在登录验证区域210中还可以显示阅读控件211,响应于针对阅读控件211的触控指令,开始采集语音信息。然后将采集到的语音信息中的声纹信息与预设的声纹信息进行匹配。那么,便可以将预设的声纹信息设置为家长的声纹信息,仅有采集到的语音信息中提取出的声纹信息与预设的声纹信息相匹配时,才可以登录家长模式并进行相关操作。
148.本技术实施例还提供一种计算机设备,该计算机设备可以为终端也可以为服务
器,如图7所示,为本技术提供的计算机设备的结构示意图。具体来讲:
149.该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图7中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
150.处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
151.存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及音频处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
152.计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
153.该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
154.尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
155.采集当前环境下的音频数据,音频数据包括至少一个声纹信息;基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据;确定声纹信息满足预设条件的子音频数据为目标子音频数据;按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分。
156.应当说明的是,本技术实施例提供的计算机设备与上文实施例中的音频处理方法属于同一构思,以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
157.本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
158.为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种音频处理方法中的步骤。例如,该指令可以执行如下步骤:
159.采集当前环境下的音频数据,音频数据包括至少一个声纹信息;基于音频数据中的声纹信息之间的差别将音频数据分割为多个子音频数据;确定声纹信息满足预设条件的子音频数据为目标子音频数据;按照预设的评分规则对目标子音频数据进行评分,得到音频数据对应的得分。
160.以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
161.其中,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。
162.由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种音频处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种音频处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
163.其中,根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2或者图3的各种可选实现方式中提供的音频处理方法。
164.以上对本发明实施例所提供的一种音频处理方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。