一种会议语音数据处理方法及系统与流程

1.本发明涉及语音识别技术领域，具体而言，涉及一种会议语音数据处理方法及系统。

背景技术：

2.会议是指有组织、有领导、有目的的议事活动，它是在限定的时间和地点，按照一定的程序进行的。目前进行会议时，都会对会议过程进行记录，目前有通过记录员在一旁进行记录，或使用摄像设备进行记录，但其俊不够方便，目前有通过记录设备对会议语音进行记录的形式，但由于讲话人员众多，记录语音时，容易将讲话人员混淆，在后期进行资料整理时，容易浪费大量的人力资源和时间成本，不方便在后期进行查找检索。

技术实现要素：

3.本发明的目的在于提供一种会议语音数据处理方法及系统，其能够提升进行会议时对各个参会人员语音采集的准确度，提升会议记录效果。
4.本发明的实施例是这样实现的：
5.第一方面，本技术实施例提供一种会议语音数据处理方法，包括以下步骤：多个采集模块布置在不同参会人员附近，根据不同上述采集模块采集对应参会人员的身份信息和初始声纹特征，以采集对应参会人员的讲话语音；识别并判断多个上述讲话语音的语音内容是否相同，当相同时，分析多个上述语音内容的声音强度，选择声音强度最大的上述语音内容；根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型，将选择的上述讲话语音输入上述语音特征模型，以得到身份匹配结果；根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配，当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容。
6.在本发明的一些实施例中，根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配的步骤之后，上述方法还包括：对上述讲话语音进行消噪处理，将进行上述消噪处理后的上述讲话语音转换为文本信息。
7.在本发明的一些实施例中，将进行上述消噪处理后的上述讲话语音转换为文本信息的步骤之后，上述方法还包括：利用上述身份匹配结果记录不同上述参会人员的上述文本信息。
8.在本发明的一些实施例中，利用上述身份匹配结果记录不同上述参会人员的上述文本信息的步骤之后，上述方法还包括：将多个上述文本信息按照讲话时间进行排序以生成会议记录。
9.第二方面，本技术实施例提供一种会议语音数据处理系统，包括误差修正模块、确认模块、身份对比模块和多个采集模块：多个上述采集模块用于布置在不同参会人员附近，根据不同上述采集模块采集对应参会人员的身份信息和初始声纹特征，以采集对应参会人员的讲话语音；上述误差修正模块用于识别并判断多个上述讲话语音的语音内容是否相
同，当相同时，分析多个上述语音内容的声音强度，选择声音强度最大的上述语音内容；上述身份对比模块用于根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型，将选择的上述讲话语音输入上述语音特征模型，以得到身份匹配结果；上述确认模块用于根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配，当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容。
10.在本发明的一些实施例中，上述会议语音数据处理系统还包括文本转换模块，上述文本转换模块用于对上述讲话语音进行消噪处理，并将经过上述消噪处理后的上述讲话语音转换为文本信息。
11.在本发明的一些实施例中，上述会议语音数据处理系统还包括存储模块，上述存储模块用于利用上述身份匹配结果记录不同上述参会人员的上述文本信息。
12.在本发明的一些实施例中，上述会议语音数据处理系统还包括会议记录模块，上述会议记录模块用于将多个上述文本信息按照讲话时间进行排序以生成会议记录。
13.第三方面，本技术实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。
14.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
15.相对于现有技术，本发明的实施例至少具有如下优点或有益效果：
16.第一方面，本技术实施例提供一种会议语音数据处理方法，包括以下步骤：多个采集模块布置在不同参会人员附近，根据不同上述采集模块采集对应参会人员的身份信息和初始声纹特征，以采集对应参会人员的讲话语音；识别并判断多个上述讲话语音的语音内容是否相同，当相同时，分析多个上述语音内容的声音强度，选择声音强度最大的上述语音内容；根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型，将选择的上述讲话语音输入上述语音特征模型，以得到身份匹配结果；根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配，当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容。
17.针对第一方面，通过多个采集模块分别用于采集参会人员身份信息和初始声纹特征，以用于采集参会人员的讲话语音，便于掌握参会人员的信息和对不同的参会人员分别进行语音记录；通过识别并判断多个上述讲话语音的语音内容是否相同，当相同时，分析多个上述语音内容的声音强度，选择声音强度最大的上述语音内容。从而可以保证采集当前讲话内容的为距离讲话人员最近与其对应的采集模块，保证其能够一一对应，防止其他的采集模块误采集讲话语音，避免采集的语音数据出现混淆；根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型，将选择的上述讲话语音输入上述语音特征模型，以得到身份匹配结果；从而能够将采集到的讲话语音与发出该讲话语音的参会人员对应起来，便于进行信息比对和记录，防止信息混淆；根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配，当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容，从而对采集模块与其对应的参会人员的关联性进行了确认，保证了多个采集模块能够分别与多个参会人员能够一直保持一一对应，在参会人员位置发生变动时，仍能保持对应的采集模块对其讲话内容进行采集，提升了采集的语音内容的准确性。
18.第二方面，本技术实施例提供一种会议语音数据处理系统，包括误差修正模块、确
认模块、身份对比模块和多个采集模块：多个上述采集模块用于布置在不同参会人员附近，根据不同上述采集模块采集对应参会人员的身份信息和初始声纹特征，以采集对应参会人员的讲话语音；上述误差修正模块用于识别并判断多个上述讲话语音的语音内容是否相同，当相同时，分析多个上述语音内容的声音强度，选择声音强度最大的上述语音内容；上述身份对比模块用于根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型，将选择的上述讲话语音输入上述语音特征模型，以得到身份匹配结果；上述确认模块用于根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配，当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容。
19.第三方面，本技术实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。
20.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
21.针对第二～第四方面，本技术实施例与第一方面的原理及有益效果相同，在此不必重复描述。
附图说明
22.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
23.图1为本发明实施例提供的一种会议语音数据处理方法的流程图；
24.图2为本发明实施例提供的一种会议语音数据处理系统原理图；
25.图3为本发明实施例提供的一种电子设备的示意性结构框图。
26.图标：101
‑
存储器，102
‑
处理器，103
‑
通信接口，200
‑
会议语音数据处理系统，201
‑
采集模块，202
‑
误差修正模块，203
‑
身份对比模块，204
‑
确认模块，205
‑
文本转换模块，206
‑
存储模块，207
‑
会议记录模块。
具体实施方式
27.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
28.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
29.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
30.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
31.在本技术的描述中，需要说明的是，术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。
32.在本技术的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本技术中的具体含义。
33.下面结合附图，对本技术的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。
34.实施例1
35.一种会议语音数据处理方法，包括以下步骤：
36.s110：多个采集模块201布置在不同参会人员附近，根据不同上述采集模块201采集对应参会人员的身份信息和初始声纹特征，以采集对应参会人员的讲话语音；
37.s120：识别并判断多个上述讲话语音的语音内容是否相同，当相同时，分析多个上述语音内容的声音强度，选择声音强度最大的上述语音内容；
38.s130：根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型，将选择的上述讲话语音输入上述语音特征模型，以得到身份匹配结果；
39.s140：根据上述采集模块201判断上述身份信息是否与上述身份匹配结果匹配，当不匹配时根据上述身份匹配结果选择对应上述采集模块201的相同上述语音内容。
40.上述实施例中，任意一个采集模块201可以包括摄像头、麦克风和身份登记单元，其中摄像头用于采集参会人员图像，麦克风可以用于采集参会人员的初始声纹特征、身份登记单元用于登记参会人员的姓名等身份信息。
41.详细的，多个采集模块201设置在不同参会人员的身旁，当参会人员讲话时，可以对相对应参会人员的语音内容进行采集。因设置有多个采集模块201，因此会存在多个采集模块201均采集到当前讲话人员的语音内容的情况，在采集到语音内容后，则判断多个采集模块201采集的语音内容是否相同，其中判断所采集的语音内容是否相同可以通过判断所采集的语音内容的响度、音高、频谱和声音的波形来实现。若判断相同，则对采集到的多个语音内容的声音强度进行分析，从而获得一个不同声音强度大小的排列，并根据声音强度大小判断选择声音强度最大的一个语音内容，当距离越近，采集到的讲话语音的声音强度越大，从而可以保证采集当前讲话内容的为距离讲话人员最近的与其对应的采集模块201，
保证能够一一对应，防止其他的采集模块201误采集讲话语音，避免采集的讲话语音出现混淆。
42.根据多个参会人员的身份信息和初始声纹特征分别建立多个参会人员的语音特征模型，将选择的语音内容输入到语音特征模型中，以得到身份匹配结果，其中身份匹配结果是将所采集到的讲话语音与相对应的讲话的人的身份信息一一对应起来，从而保证所采集的讲话语音与讲话人员对应，保证信息的准确性，保证会议中的采集的讲话语音能够和讲话人对应起来，便于记录。
43.根据采集模块201判断身份信息是否与身份匹配结果匹配，当不匹配时根据身份匹配结果选择对应采集模块201的相同语音内容。因在会议期间，可能会存在人员走动的情况，因此采集模块201采集的讲话语音会随着参会人员的距离变化，而导致采集的声音强度大小变化，从而可能导致采集模块201与参会人员对应错误的问题，在获得身份匹配结果后，将该采集模块201采集到的身份信息与身份匹配结果进行匹配判断，若判断为不匹配，则选择次级声音强度大小的采集模块201，再次进行将采集的身份信息和身份匹配结果进行匹配判断的步骤，直至匹配完成，并确定该采集模块201为对应该参会人员的采集模块201。对采集模块201与其对应的参会人员的关联性进行了确认，保证了多个采集模块201能够分别与多个参会人员能够一直保持一一对应，提升了采集的语音内容的准确性。
44.在本实施例的一些实施方式中，根据上述采集模块201判断上述身份信息是否与上述身份匹配结果匹配的步骤之后，上述方法还包括：对上述讲话语音进行消噪处理，将进行上述消噪处理后的上述讲话语音转换为文本信息。
45.可选的，对语音进行消噪的方式可以采用自适应滤波器/谱减法/维纳滤波法，对语音进行消噪主要为将会场的背景声如其他人声、音乐声等进行降低或消除，增强讲话人员的讲话语音的特征部分，从而实现对讲话语音的准确识别，提升识别准确率，在进行消噪处理后，将讲话语音通过语音识别方法转换为文本信息，从而便于进行记录，便于后期回顾会议内容，其中语音识别方法可以为现有常规已知的一种。
46.在本实施例的一些实施方式中，将进行上述消噪处理后的上述讲话语音转换为文本信息的步骤之后，上述方法还包括：利用上述身份匹配结果记录不同上述参会人员的上述文本信息。
47.详细的，在上述实施例中，获得了身份匹配结果用于将讲话人员与其发出的讲话语音进行匹配，在将讲话内容转换为文本信息后，通过身份匹配结果，从而将转换后的文本信息与人员进行匹配。示例性的，如a某说出的语音全部转换为文本信息后，则全部归为于a某。在将多个参会人员的讲话语音分别转换为文本信息后，将其分别与各自的参会人员进行匹配，从而便于后期进行会议记录的归档整理，减少会议记录人员的工作量。在本实施例中，在记录文本信息的同时，可以将讲话语音一同记录，便于后期调用。
48.在本实施例的一些实施方式中，利用上述身份匹配结果记录不同上述参会人员的上述文本信息的步骤之后，上述方法还包括：将多个上述文本信息按照讲话时间进行排序以生成会议记录。
49.上述实施例中，将多个文本信息按照讲话时间进行排序以生成会议记录，在采集模块201采集讲话语音时，会记录下当前讲话的时间，在将讲话语音转换为文本信息后，会根据所转换的讲话语音的记录时间，将转换后的文本信息按照时间进行排序，在将多个参
会人员的讲话语音转换为文本信息后，通过各自的记录时间进行排序，集合获得整体会议的会议记录，从而可以保证最后获得的会议记录为沿着会议时间进行记录的，在后期进行回顾查阅的时候，可以清楚的查看到整体会议中不同参会人员内的对话情况。
50.实施例2
51.请参阅图2，图2为本发明实施例提供的一种会议语音数据处理系统200原理图。
52.一种会议语音数据处理系统200，包括误差修正模块202、确认模块204、身份对比模块203和多个采集模块201：多个上述采集模块201用于布置在不同参会人员附近，根据不同上述采集模块201采集对应参会人员的身份信息和初始声纹特征，以采集对应参会人员的讲话语音；上述误差修正模块202用于识别并判断多个上述讲话语音的语音内容是否相同，当相同时，分析多个上述语音内容的声音强度，选择声音强度最大的上述语音内容；上述身份对比模块203用于根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型，将选择的上述讲话语音输入上述语音特征模型，以得到身份匹配结果；上述确认模块204用于根据上述采集模块201判断上述身份信息是否与上述身份匹配结果匹配，当不匹配时根据上述身份匹配结果选择对应上述采集模块201的相同上述语音内容。
53.上述实施例中，任意一个采集模块201可以包括摄像头、麦克风和身份登记单元，其中摄像头用于采集参会人员图像，麦克风可以用于采集参会人员的初始声纹特征、身份登记单元用于登记参会人员的姓名等身份信息。
54.详细的，麦克风均设置在参会人员的身旁，当参会人员讲话时，可以对相对应的参会人员的语音内容进行采集，因设置有多个采集模块201，因此会存在多个采集模块201均采集到当前讲话人员的语音内容的情况，在采集到语音内容后，误差修正模块202则判断多个采集模块201采集的语音内容是否相同，若判断相同，则对采集到的多个语音内容的声音强度进行分析，从而获得一个不同声音强度大小的排列，并根据声音强度大小判断选择声音强度最大的一个语音内容，当距离越近，采集到的讲话语音的声音强度越大，从而可以保证采集当前讲话内容的为距离讲话人员最近与其对应的采集模块201，保证其能够一一对应，避免采集的语音数据出现混淆，防止其他的采集模块201误采集讲话语音。
55.身份对比模块203根据多个参会人员的身份信息和初始声纹特征分别建立多个参会人员的语音特征模型，将选择的语音内容输入到语音特征模型中，以得到身份匹配结果，其中身份匹配结果指的是将所采集到的讲话语音与相对应的讲话的人的身份信息一一对应起来，从而保证所采集的讲话语音与讲话人员对应，保证信息的准确性，保证会议中的采集的讲话语音能够具有条理性。
56.确认模块204根据采集模块201判断身份信息是否与身份匹配结果匹配，当不匹配时根据身份匹配结果选择对应采集模块201的相同语音内容。因在会议期间，可能会存在人员走动的情况，因此采集模块201采集的讲话语音会随着参会人员的距离变化，而导致采集的声音强度大小变化，从而可能导致采集模块201与参会人员对应错误的问题，在获得身份匹配结果后，身份对比模块203则将身份匹配结果反馈给对应该参会人员的采集模块201，确认模块204将该采集模块201采集到的身份信息与身份匹配结果进行匹配判断，若判断为不匹配，则选择次级声音强度大小的采集模块201，确认模块204再次进行将跟换后的采集模块201采集的身份信息和身份匹配结果进行匹配判断的步骤，直至匹配完成，并确定该采集模块201为对应该参会人员的采集模块201。对采集模块201与其对应的参会人员的关联
性进行了确认，保证了多个采集模块201能够分别与多个参会人员能够一直保持一一对应，在参会人员位置发生变动时，仍能保持对应的采集模块201对其讲话内容进行采集，提升了采集的语音内容的准确性。
57.在本实施例的一些实施方式中，上述会议语音数据处理系统200还包括文本转换模块205，上述文本转换模块205用于对上述讲话语音进行消噪处理，并将经过上述消噪处理后的上述讲话语音转换为文本信息。
58.可选的，文本转换模块205对语音进行消噪的方式可以采用自适应滤波器/谱减法/维纳滤波法，对语音进行消噪主要为将会场的背景声如其他人声、音乐声等进行降低或消除，增强讲话人员的讲话语音的特征部分，从而实现对讲话语音的准确识别，提升识别准确率，在进行消噪处理后，将讲话语音通过语音识别方法转换为文本信息，从而便于进行记录，便于后期回顾会议内容，其中语音识别方法可以为现有常规已知的一种。
59.在本实施例的一些实施方式中，上述会议语音数据处理系统200还包括存储模块206，上述存储模块206用于利用上述身份匹配结果记录不同上述参会人员的上述文本信息。
60.在上述实施例中，身份对比模块203获得的身份匹配结果用于将讲话人员与其发出的讲话语音进行匹配，在将讲话语音内容转换为文本信息后，存储模块206通过身份匹配结果，从而将转换后的文本信息与人员进行匹配。示例性的，如a某说出的语音全部转换为文本信息后，则全部归为于a某。在将多个参会人员的讲话语音分别转换为文本信息后，将其分别与各自的参会人员进行匹配，从而便于后期进行会议记录的归档整理，减少会议记录人员的工作量。在本实施例中，在记录文本信息的同时，可以将讲话语音一同记录，便于后期调用。
61.在本实施例的一些实施方式中，上述会议语音数据处理系统200还包括会议记录模块207，上述会议记录模块207用于将多个上述文本信息按照讲话时间进行排序以生成会议记录。
62.详细的，会议记录模块207用于将多个文本信息按照讲话时间进行排序以生成会议记录，在采集模块201采集讲话语音时，会记录下当前讲话的时间，文本转换模块205在将讲话语音转换为文本信息后会发送给会议记录模块207，会议记录模块207会根据所转换的讲话语音的记录时间，将转换后的文本信息按照时间进行排序，在将多个参会人员的讲话语音转换为文本信息后，通过各自的记录时间进行排序，集合获得整体会议的会议记录，从而可以保证最后获得的会议记录为沿着会议时间进行记录的，在后期进行回顾查阅的时候，可以跟随会议时间走向清楚的查看到整体会议中不同参会人员内的对话情况，且能方便通过时间点查找相应的文本信息。
63.实施例3
64.请参阅图3，图3为本技术实施例提供的一种电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，如本技术实施例所提供的会议语音处理系统对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103
可用于与其他节点设备进行信令或数据的通信。
65.其中，存储器101可以是但不限于，随机存取存储器101(random access memory，ram)，只读存储器101(read only memory，rom)，可编程只读存储器101(programmable read
‑
only memory，prom)，可擦除只读存储器101(erasable programmable read
‑
only memory，eprom)，电可擦除只读存储器101(electric erasable programmable read
‑
only memory，eeprom)等。
66.处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器102，包括中央处理器102(central processing unit，cpu)、网络处理器102(network processor，np)等；还可以是数字信号处理器102(digital signal processing，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
67.可以理解，图2所示的结构仅为示意，会议语音数据处理系统200还可包括比图2中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
68.在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
69.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
70.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
71.综上所述，本技术实施例提供的一种会议语音数据处理方法及系统，通过多个采集模块201分别用于采集参会人员身份信息和初始声纹特征，还分别用于采集参会人员的讲话语音，便于进行掌握参会人员信息和进行会议记录；通过识别并判断多个上述讲话语音的语音内容是否相同，当相同时，分析多个上述语音内容的声音强度，选择声音强度最大的上述语音内容。从而可以保证采集当前讲话内容的为距离讲话人员最近与其对应的采集
模块201，保证其能够一一对应，防止其他的采集模块201误采集讲话语音，避免采集的语音数据出现混淆；根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型，将选择的上述讲话语音输入上述语音特征模型，以得到身份匹配结果；从而能够将采集到的讲话语音与发出该讲话语音的参会人员对应起来，便于进行信息比对和记录，防止信息混淆；根据上述采集模块201判断上述身份信息是否与上述身份匹配结果匹配，当不匹配时根据上述身份匹配结果选择对应上述采集模块201的相同上述语音内，从而对采集模块201与其对应的参会人员的关联性进行了确认，保证了多个采集模块201能够分别与多个参会人员能够一直保持一一对应，在参会人员位置发生变动时，仍能保持对应的采集模块201对其讲话内容进行采集，提升了采集的语音内容的准确性
72.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
73.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其它的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。