视频通话语音处理方法及通信终端、可读存储介质与流程

1.本技术涉及通信与电子设备技术领域，尤其涉及一种视频通话语音处理方法及通信终端、可读存储介质。

背景技术：

2.为了提升语音通话质量，手机等具有通信功能的通信终端大都设置有通话语音处理机制，确保通信终端在喧哗闹市、嘈杂的环境中通话时，通话双方均能够听清楚对方的声音，提升语音通话质量。
3.目前，通信终端最常用的通话语音处理方法主要还是集中于降噪，例如采用麦克风消噪方法，即对麦克风采集到的语音信号进行降噪处理。但其并未考虑应答方的情况，例如当应答方远离其持有的终端时，应答方仍会很难听清楚呼叫方发出的通话语音。

技术实现要素：

4.有鉴于此，本技术提供一种视频通话语音处理方法及通信终端、可读存储介质，以解决现有语音通话场景无法根据对方情况来调节自身麦克风的输入增益的问题。
5.本技术提供的一种视频通话语音处理方法，包括：
6.识别当前视频图像中的目标人物；
7.获取目标人物的接听参数，所述接听参数用于标识目标人物听到的声音强度，且包括所述目标人物在当前视频图像中的位置、目标人物的动作、以及目标人物的语音中的至少一者；
8.根据所述接听参数调整声音采集设备的增益，并将调整后所述声音采集设备采集到的语音信号传输给所述目标终端。
9.可选地，所述获取目标人物的接听参数，包括：
10.对各类接听参数设置优先级；以及
11.在多个接听参数所标识的声音强弱相冲突时，选取优先级最高的接听参数、并舍弃优先级低的接听参数；
12.在多个接听参数所标识的声音强弱均未冲突时，执行所述根据所述接听参数调整声音采集设备的增益的步骤。
13.可选地，所述获取目标人物的接听参数，包括：
14.获取目标终端的拍摄焦距与位置的对应关系；
15.获取成像当前视频图像时目标终端的拍摄焦距，并所述对应关系获取所述目标人物在当前视频图像中的位置。
16.可选地，所述通话语音处理方法还包括：
17.检测所述目标人物是否持续显示于所述当前视频图像中；
18.在检测到所述目标人物在当前视频图像中消失时，采集所述目标人物的当前语音，并据此确定目标人物在当前视频图像中的位置。
19.可选地，所述目标人物在视频图像中的位置包括：目标人物的脸部位于视频图像的中心区域、左半部分、或者右半部分；
20.所述接听参数为目标人物在视频图像中的位置，所述根据所述接听参数调整声音采集设备的增益，包括：
21.当目标人物的脸部位于视频图像的左半部分时，增大声音采集设备的左声道的增益；当目标人物的脸部位于视频图像的右半部分时，增大声音采集设备的右声道的增益；当目标人物的脸部位于视频图像的中心区域时，保持声音采集设备的左声道和右声道的增益不变。
22.可选地，所述目标人物的动作包括：目标人物的耳朵朝向目标终端；
23.所述接听参数为所述目标人物的动作，所述根据所述接听参数调整声音采集设备的增益，包括：增大声音采集设备的增益。
24.可选地，所述目标人物的语音包括：标识声音大小的语言片段；
25.所述接听参数为所述目标人物的语音，所述根据所述接听参数调整声音采集设备的增益，包括：
26.当获取到标识声音小的语言片段时，增大声音采集设备的增益；当获取到标识声音大的语言片段时，降低声音采集设备的增益。
27.本技术提供的一种通信终端，所述通信终端包括应用处理器、数字信号处理器以及声音采集设备，
28.所述应用处理器，用于获取当前视频图像；
29.所述数字信号处理器，用于识别当前视频图像中的目标人物，并获取目标人物的接听参数，所述接听参数用于标识目标人物听到的声音强度，且包括所述目标人物在当前视频图像中的位置、目标人物的动作、以及目标人物的语音中的至少一者；以及，
30.应用处理器还用于根据所述接听参数调整所述声音采集设备的增益，并将调整后声音采集设备采集到的语音信号传输给目标终端。
31.可选地，所述应用处理器还用于对各类接听参数设置优先级，
32.在多个接听参数所标识的声音强弱相冲突时，选取优先级最高的接听参数、并舍弃优先级低的接听参数；
33.在多个接听参数所标识的声音强弱均未冲突时，根据所述接听参数调整所述声音采集设备的增益。
34.本技术提供的一种可读存储介质，存储有程序，该程序用于被处理器运行以执行上述任一项视频通话语音处理方法中的一个或多个步骤。
35.本技术根据视频图像中目标人物的与声音相关的接听参数，包括目标人物在当前视频图像中的位置、目标人物的动作、目标人物的语音中的至少一者，来调整声音采集设备的增益，该接听参数标识了语音通话场景中对方对通话音量的实时反馈，从而能够根据对方情况来调节自身麦克风的输入增益，有利于提供高质量的语音通话服务。
附图说明
36.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于
本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
37.图1是本技术一实施例的视频通话语音处理方法的流程示意图；
38.图2是目标人物在当前视频图像中的位置示意图；
39.图3是本技术另一实施例的视频通话语音处理方法的流程示意图；
40.图4是本技术一实施例的通信终端的结构示意图。
具体实施方式
41.下面结合附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述实施例仅是一部分实施例，而非全部。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。在不冲突的情况下，下述各个实施例及其技术特征可以相互组合。
42.需要说明的是，在本文描述中，采用了诸如s11、s12等步骤代号，其目的是为了更清楚简要地表述相应内容，并不构成顺序上的实质性限制，本领域技术人员在具体实施时，可能会先执行s12后执行s11等，但这些均应在本技术的保护范围之内。
43.图1是本技术一实施例的视频通话语音处理方法的流程示意图。所述视频通话语音处理方法可以应用于智能手机(android手机、ios手机等)、平板电脑、pda(personal digital assistant,个人数字助理)、学习机等移动互联网设备(mobile internet devices,mid)，或者，可以佩戴于人类肢体、假肢或者嵌入于衣物、首饰、配件等中的具有音视频通话功能的可穿戴设备，本技术实施例不予以限定。
44.在音视频通话场景中，该方法中各个步骤的执行主体可以为通话双方的任一方设备，当执行主体为呼叫设备时，被呼叫设备即为目标终端；当执行主体为被呼叫设备时，呼叫设备为目标终端。为便于区分及描述，本文将各个步骤的执行主体称为主体终端。
45.请参阅图1，所述视频通话语音处理方法可包括步骤s11～s13。
46.s11：识别当前视频图像中的目标人物。
47.当前视频图像为实时显示于主体终端上的图像，所述目标人物为实时显示于当前视频图像中的人物，即被呼叫方。目标终端通过自身的(前置或后置)摄像头捕捉到目标人物及其当前所处的环境并成像，并将其传输给主体终端，主体终端可以通过人脸识别技术、人体识别技术、人体检测技术、人体姿态/行为/动作识别技术来识别得到成像中的目标人物。
48.在通话过程中，在当前视频图像中出现多个人物时，主体终端通过人脸识别技术得到各个人物的嘴巴特征，根据嘴巴特征判断当前正在说话的人，并将其面部作为目标人脸，例如将嘴巴一张一合的人脸作为目标人脸。据此，每一个人物都允许成为目标人物。
49.或者，主体终端通过人脸识别技术从这些人脸中选择一个作为目标人脸，而抛弃其他人脸。据此，只有一个人物为目标人物。举例而言，当呼叫方与人物a0正在通话时，人物b0进入到目标终端的摄像头取景范围内，此时正在说话的人物b0可能仅是路过，并非与呼叫方进行通话，对此主体终端可以仅将人物a0作为目标人脸。
50.其中，主体终端选择目标人物的参照依据除了面部特征之外，还可以结合声纹特征等可以标识人物唯一身份的参数。
51.s12：获取目标人物的接听参数，所述接听参数用于标识目标人物听到的声音强度，且包括目标人物在当前视频图像中的位置、目标人物的动作、以及目标人物的语音中的至少一者。
52.s13：根据接听参数调整声音采集设备的增益，并将调整后声音采集设备采集到的语音信号传输给目标终端。
53.所谓接听参数指的是能够标识声音强度(或者说话声音音量大小)的参量，针对的是目标人物听到的呼叫方的声音。若该接听参数标识当前听到的声音较小，表示主体终端采集到的呼叫方的声音较小，则主体终端可以增大自身声音采集设备(例如麦克风)的增益。而若该接听参数标识当前听到的声音较大，表示主体终端采集到的呼叫方的声音较大，则主体终端可以降低自身声音采集设备的增益。
54.该接听参数标识了语音通话场景中对方对通话音量的实时反馈，从而本技术实施例能够根据对方情况来调节自身麦克风的输入增益，有利于提供高质量的语音通话服务。
55.其中，所要调整增益的具体数值可以根据接听参数的数值而定，所采用的具体算法，本技术实施例并不予以限制。
56.针对上述步骤s12所示例出的三种类型的接听参数，下文阐述如何根据每一类型的接听参数来调整声音采集设备的增益。
57.请参阅图2，目标人物在视频图像中的位置可以划分为三种：目标人物的脸部(下文称为目标人脸)位于视频图像的中心区域、左半部分及右半部分。
58.当目标人脸位于视频图像的左半部分时，例如图2中所示的位置a时，主体终端增大声音采集设备的左声道的增益。
59.当目标人脸位于视频图像的右半部分时，例如图2中所示的位置b时，主体终端增大声音采集设备的右声道的增益。
60.当目标人脸位于视频图像的中心区域时，例如图2中所示的位置c时，主体终端可保持声音采集设备的左声道和右声道的增益不变。
61.目标人物的动作为能够反应目标人物对收听声音大小的肢体动作，可以为目标人物的耳朵(左耳或者右耳)朝向目标终端，进一步地，还可以伴随有手遮掩耳朵或者摇头等肢体动作。
62.如果在当前视频图像中，目标人物的左耳或者右耳朝向目标终端，主体终端增大声音采集设备的增益。
63.对于更为直观的反馈目标人物对收听声音大小的接听参数
---
目标人物的语音，本技术实施例可以采集目标人物的说话声，并通过语音识别技术从中获取标识声音大小的语言片段。
64.当获取到标识声音小的语言片段，例如“声音太小，我听不清楚”或者“大声一点”时，主体终端增大声音采集设备的增益。当获取到标识声音大的语言片段时，主体终端降低声音采集设备的增益。
65.应该理解到，在语音这一维度上，作为接听参数的还可以是目标人物的语音强度，例如可以为比较目标人物的当前语音强度与之前语音强度，具体地，若语音强度变小，则增大声音采集设备的增益；若语音强度变大，则降低减小声音采集设备的增益。
66.而对于其他类型的接听参数，主体终端可以采用合适的方式予以获取。例如，对于
目标人脸在当前视频图像中的位置，主体终端可以从目标终端获取该目标终端的拍摄焦距与位置的对应关系，然后获取成像当前视频图像时目标终端的拍摄焦距，并根据所述对应关系获取目标人脸在当前视频图像中的位置；或者，根据目标人物的语音强度来获取其在视频图像中的位置，具体地，主体终端提前获取语音强度与距离的对应关系，然后根据当前获取的语音强度得到与其对应的位置。
67.在前述实施例中，主体终端是根据视频图像中的人脸图像来调整声音采集设备的增益。对于通话过程中目标人物离开摄像头取景范围的情况，即在检测到目标人物在当前视频图像中消失时，主体终端无法获取目标人物在视频图像中的位置、以及目标人物的动作，此时，可以通过目标人物的语音，来调整声音采集设备的增益，例如，比较目标人物的当前语音强度与之前语音强度，通过语音强度的变化来直接调整所述增益，或者通过语音强度的变化来获取目标人脸在当前视频图像中的位置，继而根据位置变化来调整所述增益。
68.在本技术实施例中，主体终端可以获取多个类型的接听参数，并综合这些接听参数来调整所述增益，但这些接听参数标识的音量大小可能存在冲突，例如，目标人物发出“声音太大了，别朝我吼”的语言片段时，目标人物因为耳朵痒而头部侧向目标终端，并伴有手遮掩耳朵的肢体动作，此时主体终端需要判定根据哪一参数来调整所述增益。
69.对此，本技术实施例可以提供有如下图3所示的方法。如图3所示，所述视频通话语音处理方法包括步骤s21～s25。
70.s21：识别当前视频图像中的目标人物。
71.s22：获取目标人物的接听参数，所述接听参数用于标识目标人物听到的声音强度，且包括目标人物在当前视频图像中的位置、目标人物的动作、以及目标人物的语音中的至少两者。
72.s23：对各类接听参数设置优先级。
73.s24：在多个接听参数所标识的声音强弱相冲突时，选取优先级最高的接听参数、并舍弃优先级低的接听参数；在多个接听参数所标识的声音强弱均未冲突时，选取采集到的所有接听参数。
74.s25：根据接听参数调整声音采集设备的增益，并将调整后声音采集设备采集到的语音信号传输给目标终端。
75.在前述实施例的描述基础上，本实施例可以避免因为主体终端的误判而导致的误调增益的情况，更准确反馈目标人物的接听情况。
76.图4是本技术一实施例的通信终端的结构示意图。请参阅图4所示，所述通信终端40可以为视频通话双方中的一方设备，例如前述主体终端。该通信终端40包括应用处理器41、数字信号处理器42、声音采集设备43、摄像头44、左扬声器451、右扬声器452、天线46。应用处理器41和数字信号处理器42可视为通信终端40的核心，与所述各个结构元件连接以实现视频通话过程中相应的功能。
77.摄像头44用于拍摄通话人物及其所处环境的成像。
78.天线46例如为wi-fi天线等，用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与视频通话的另一方设备进行通讯。
79.声音采集设备43，例如麦克风，用于采集通话方的语音。
80.左扬声器451和右扬声器452用于播放视频通话另一方的语音，两者分别对应播放
左声道语音信号和右声道语音信号。
81.应用处理器(application processor)41用于获取当前视频图像，并将其传输给数字信号处理器(digital signal processing)42。
82.数字信号处理器42用于开启相应算法而识别当前视频图像中的目标人物，并获取目标人物的接听参数，所述接听参数用于标识目标人物听到的声音强度，且包括目标人物在当前视频图像中的位置、目标人物的动作、以及目标人物的语音中的至少一者。
83.具体地，应用处理器41当前视频图像发送给数字信号处理器42，数字信号处理器42开启相应算法而识别目标人物在当前视频图像中的位置，以及目标人物的动作。应用处理器41将目标人物的语音传输给数字信号处理器42，数字信号处理器42开启语音识别算法获取相应的参数，例如识别语音信号中有没有特殊的语言片段，比如“你的声音太小”等，并将检测结果返回给应用处理器41。
84.应用处理器41用于根据接听参数生成增益方案，并据此调整声音采集设备43的增益，并将调整后声音采集设备采集到的语音信号，通过天线46传输给目标终端。
85.各个结构元件的具体工作方式可参阅前述方法的步骤，此处不再予以一一赘述。例如，应用处理器41还用于对各类接听参数设置优先级，在多个接听参数所标识的声音强弱相冲突时，选取优先级最高的接听参数、并舍弃优先级低的接听参数；在多个接听参数所标识的声音强弱均未冲突时，根据接听参数调整声音采集设备43的增益。
86.于此，通信终端40具有前述方法所能实现的有益效果。
87.应该理解到，在实际应用场景中具体实施时，根据通信终端40所属的设备类型，以上各个步骤的执行主体可以并非前述结构元件，而是由其他模块和单元分别实现。
88.本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一个计算机可读存储介质中，并由处理器进行加载和执行。为此，本技术实施例提供一种可读存储介质，该可读存储介质中存储有多条指令，该指令能够被处理器进行加载，以执行本技术实施例所提供的任一种视频通话语音处理方法中的步骤。
89.其中，该存储介质可以包括只读存储器(rom，read only memory)、随机存取记忆体(ram，random access memory)、磁盘或光盘等。
90.由于该存储介质中所存储的指令，可以执行本技术实施例所提供的任一种视频通话语音处理方法中的步骤，因此，可实现任一种视频通话语音处理方法所能实现的有益效果，详见前面的实施例。
91.本技术实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如上各种可能的实施例中所述的方法。
92.本技术实施例还提供一种芯片，包括存储器和处理器，该存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行如上各种可能的实施例中的方法。
93.需要说明的是，本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
94.另外，尽管本文采用术语“第一、第二、第三”等描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可被称为第二信息，类似地，第二信息也可被称为第一信息，取决于语境。术语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。再者，本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“a、b或c”或者“a、b和/或c”意味着“以下任一个：a；b；c；a和b；a和c；b和c；a、b和c”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。
95.进一步地，虽然本文流程图中的各个步骤按照箭头的指示依次显示，但并非必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤并没有严格按顺序执行，也可按其他顺序执行。而且，图中的至少一部分步骤可包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
96.尽管已经相对于一个或多个实现方式示出并描述了本技术，但本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本技术包括所有此修改和变型，并且由前述实施例的技术方案进行支撑。即，以上所述仅为本技术的部分实施例，并非因此限制本技术的专利范围，凡是利用本说明书及附图内容所作的等效结构变换，例如各实施例之间技术特征的结合，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。