困难气道的检测方法及其电子设备和存储介质与流程

1.本发明涉及生理结构检测领域，尤其涉及一种困难气道的检测方法及其电子设备和存储介质。

背景技术：

2.困难气道是指人体的气道结构特殊，使得常规训练的麻醉师在对该人体进行面罩通气或气管插管时遇到困难的情况。体检时未能发现困难气道是导致与长期发病率相关的主要并发症的最重要因素，占麻醉相关死亡的25％。准确检测潜在的困难气道是降低气道管理失败引起的发病率和死亡率的关键。然而，现有的困难气道的临床评估既不方便也不够准确。
3.临床实践中用于检测困难气道的几个物理特征的提取和床边筛查试验的结果依赖于人工测量和判断。最近，先进的成像技术，如计算机断层扫描，磁共振成像和超声治疗已被用于协助气道管理。然而，这些程序通常是昂贵的、耗时的，并且由于辐射照射而对用户具有侵入性。
4.为了解决上述问题，通常会使用：
5.1、mallampati测试观察用户所能看到的咽部结构给用户进行分级。
6.2、甲颏距离测试是甲状软骨切迹至颏突的距离数值。
7.在实现本发明过程中，发明人发现相关技术中至少存在如下问题：
8.这些技术都需要专业医护人员基于特殊设备来进行测量或观察，对用户来说是难以高效、快速随时的检测；同时对困难气道插管的预警不可避免存在很多误差以及主观判断。

技术实现要素：

9.为了至少解决现有技术中困难气道的检测对医师要求较高，难以普及，测试结果主观性较强的问题。
10.第一方面，本发明实施例提供一种困难气道的检测方法，包括：
11.对用户的语音音频进行声学特征提取和语音活性检测；
12.将提取的声学特征进行平均池化处理，得到第一嵌入向量；
13.将活性检测后的发声帧输入至用于表征困难气道的说话人的深度说话人模型，得到表征困难气道的第二嵌入向量；
14.将所述第一嵌入向量联合所述第二嵌入向量输入至支持向量机，以检测困难气道。
15.第二方面，本发明实施例提供一种困难气道的检测系统，包括：
16.语音处理程序模块，用于对用户的语音音频进行声学特征提取和语音活性检测；
17.第一嵌入确定程序模块，用于将提取的声学特征进行平均池化处理，得到第一嵌入向量；
18.第二嵌入确定程序模块，用于将活性检测后的发声帧输入至用于表征困难气道的说话人的深度说话人模型，得到表征困难气道的第二嵌入向量；
19.检测程序模块，用于将所述第一嵌入向量联合所述第二嵌入向量输入至支持向量机，以检测困难气道。
20.第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的困难气道的检测方法的步骤。
21.第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的困难气道的检测方法的步骤。
22.本发明实施例的有益效果在于：基于语音技术实现困难气道的检测。解决了传统方法存在的繁琐、专业要求高和不够准确的问题。此外，提出的基于说话人嵌入的方法显示了识别困难气道的能力。说话人嵌入很好地表征了气道的物理结构。更重要的是，由于语音信号传输方便，用户只需使用智能移动设备即可进行检测，大大方便了用户的检测。
附图说明
23.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
24.图1是本发明一实施例提供的一种困难气道的检测方法的流程图；
25.图2是本发明一实施例提供的一种困难气道的检测方法的困难气道检测系统的框架图；
26.图3是本发明一实施例提供的一种困难气道的检测方法的深度说话人模型的基本块；
27.图4是本发明一实施例提供的一种困难气道的检测方法的困难气道检测的不同语音特征结果数据图；
28.图5是本发明一实施例提供的一种困难气道的检测方法的不同说话人嵌入对困难气道检测的影响数据图；
29.图6是本发明一实施例提供的一种困难气道的检测方法的roc曲线数据图；
30.图7是本发明一实施例提供的一种困难气道的检测方法的在困难气道检测方面，本方法与传统临床方法的结果比较数据图；
31.图8是本发明一实施例提供的一种困难气道的检测系统的结构示意图；
32.图9为本发明一实施例提供的一种困难气道的检测的电子设备的实施例的结构示意图。
具体实施方式
33.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是
本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
34.如图1所示为本发明一实施例提供的一种困难气道的检测方法的流程图，包括如下步骤：
35.s11：对用户的语音音频进行声学特征提取和语音活性检测；
36.s12：将提取的声学特征进行平均池化处理，得到第一嵌入向量；
37.s13：将活性检测后的发声帧输入至用于表征困难气道的说话人的说话人模型，得到表征困难气道的第二嵌入向量；
38.s14：将所述第一嵌入向量联合所述第二嵌入向量输入至支持向量机，以检测困难气道。
39.在本实施方式中，由于语音便于传播，同时语音具备呼吸道和发音的关联，利用语音检测，可以让用户通过手机、pad等终端录音并上传进行检测。
40.对于步骤s11，本方法有两个分支：基于用户的语音音频的原始语音特征的和基于说话人嵌入的。原始通道可以直接利用用户的语音音频的语音特征。同时，基于说话人嵌入的通道提取说话人嵌入用于最终的分类器。如图2展示了困难气道检测系统的框架。从用户的语音音频的原始波形中提取声学特征，并将信号从原始波形进行声学特征提取，转换为具有形状(t，d)的帧特征。然后使用语音活动检测系统从用户的语音音频中来选择语音帧(发声帧)(t'，d)。
41.对于步骤s12，将提取的声学特征进行平均池化处理，在均值池提取嵌入的情况下，将声学特征在时间轴上平均，得到第一嵌入向量。这种传统的基于信号处理的方法计算效率高，易于验证。
42.对于步骤s13，将活性检测后的发声帧输入至用于表征困难气道的说话人的深度说话人模型，对于深度说话人模型，其是由提取的基本声学特征和语音帧训练的，然后在一个大型的说话人识别数据集上训练深度说话人模型。通过该深度说话人模型得到表征困难气道的第二嵌入向量。
43.具体的，所述说话人模型还包括基于传统机器学习方法说话人模型，包括：
44.无监督建模的高斯混合模型-通用背景模型，用于确定用户语音音频的超向量，进行区分所述用户的气道类型。
45.在本实施方式中，困难气道的检测也可以解释为将困难气道人与普通人区分开。因此，说话人识别技术被用于这项任务。事实上，传统的i-vector已经被用来表示一系列声学特征，作为一个固定长度的向量。为了提取i-vector，首先估计k分量gmm(gaussian mixed model，高斯混合模型)，表示为ubm(universal background model，通用背景模型)，以建模整个数据空间的公共知识。此后，通过聚合改编自gmm-ubm的新gmm组件来构建超级向量。由于存在gmm-ubm的无监督建模，因此应用现有的大规模数据来建立模型。假设超级向量服从以下形式的因子分析模型：
46.s＝m+tw
47.其中s为用户的语音音频的超向量，m为gmm-ubm的超向量，t为训练数据估计的变换矩阵，w为表示说话人信息的i-vector向量。
48.所述说话人模型包括深度神经网络对说话人的声学特征构建的深度说话人模型
包括：
49.二维卷积神经网络构建的残差网络，进行收集帧级别信息任务，以及
50.一维卷积神经网络模块、残差增强的一维卷积神经网络模块、挤压和激励网络模块构建的时延神经网络，进行基于信道增强注意力、传播与聚合的说话人验证任务。
51.深度学习技术对于检测相对有效。有了足够的数据，就可以使用深度神经网络更好地对声学特征进行建模。随着说话人验证任务的发展和x-vector框架的启发，ecapa-tdnn(emphasized channel attention,propagation and aggregation in time-delayed neural network based speaker verification，为说话人验证任务的基于信道增强注意力、传播与聚合的时延神经网络)在voxceleb(数据集)基准上实现了最先进的性能。同时，resnet(残差网络)也是说话人验证的一项重要工作。
52.图3显示了resnet和ecapatdnn的基本块。resnet使用二维特征作为输入，并使用二维卷积神经网络(cnn)层对其进行处理。平均值和标准偏差用于收集帧级信息。然后将它们连接在一起，并通过嵌入层进行传播。同时，ecapa-tdnn利用具有有效跳过连接的一维res2net模块。然后，“挤压和激励块”(se块)显式地建模信道的相互依赖性。最后，采用“通道相关帧注意池”和分层特征来利用录制的用户的语音音频全局属性。对深层说话人模型进行训练，以识别训练集中的说话人。最后，将softmax层之前的嵌入作为说话人嵌入，也就是第二嵌入向量。
53.对于步骤s14，分类模型是由支持向量机(svm)进行最终分类，其输入是基于语音特征池化后的嵌入和基于深度学习的说话人嵌入。
54.对于每个语句，分类模型的输入是一种嵌入。然后对模型进行训练，以确定嵌入向量对困难气道的检测是积极的还是消极的。首先根据支持向量机的核函数，利用非线性映射将输入的第一嵌入向量联合所述第二嵌入向量映射到特征空间。然后，核函数通过特征空间中点之间的相似性度量来生成特征。最后，估计出一个超平面，在这个超平面中通过标记分离特征空间，从而检测出困难气道的结果。
55.通过该实施方式可以看出，基于语音技术实现困难气道的检测。解决了传统方法存在的繁琐、专业要求高和不够准确的问题。此外，提出的基于说话人嵌入的方法显示了识别困难气道的能力。说话人嵌入很好地表征了气道的物理结构。更重要的是，由于语音信号传输方便，用户只需使用边缘设备即可进行检测，大大方便了用户的检测。
56.对本方法进行试验说明，其数据集来自从2020年12月28日至2021年9月16日，麻醉的母语为普通话用户1189例。排除标准包括近期上呼吸异常、语言障碍史等。他们被要求在安静的环境下读10个句子。这些16位手持录音机采样频率为44.1khz，用来记录参与者的讲话。10句的选择是基于无调拼音的覆盖面。为了评估本方法的表现，201个说话人，包括107个阳性样本和94个阴性样本，被排除在测试集中。然后对训练集进行十倍交叉验证。cl(cormack-lehane，喉镜检查)分级描述喉镜检查中声带的可见程度，范围从1(声带全视图)到4(会阴未见)。同时，使用直接喉镜检查获得所有参与者的cl评分。根据气道困难评分，将用户分为气道困难(cl 3-4)和非气道困难(cl 1-2)。
57.对数据集进行对齐与分割。长录音由基于能量的语音活动检测系统进行分段。然后通过链模型生成假设和会话时间标记输出，并将得到的假设与参考文本进行比较。此外，本方法采用编辑距离最小的参考文本作为片段的最终转录本。
58.在准备了训练数据集的基础上，还准备了说话人验证数据集，对于本方法的深度说话人系统，使用来自voxceleb 2数据集的音频数据，该数据集是从上传到youtube的采访视频中收集的。为了进行训练，使用voxceleb 2数据集的开发部分，该数据集包含5994个说话人和1092009个语句。所有的录音和发言人身份都来自名人。大多数录制场景都在相对安静的空间中。
59.用于分类的支持向量机的数据，利用基于cl评分的标签，训练支持向量机(svm)对语音特征进行分类。为了评价算法的泛化性能，采用十倍交叉验证的超参数选择。然后根据十倍交叉验证，选取最优超参数对988个说话人进行训练。对于超参数优化，候选核是s形核、有理基函数核、线性核和多项式核。网格搜索正则化参数c∈{1，10，100，1000}和核系数γ∈{0.01，0.001，0.0001}。
60.原始语音特征，用户的语音音频的采样频率从44.1khz降至16.0khz。它们基于10ms的间隔以及25ms窗长分帧，帧之间重叠15ms。然后在每一帧上采用汉明窗，并利用基于kaldi能量的vad(voice activity detection，语音活动检测)来选择发声帧。然后，本方法对每一帧采用各种音频特征提取方法进行变换，包括mel梅尔频率倒谱系数(mfcc)、滤波器组(fbank)、lpc(linear predictive coding，线性预测系数)和共振峰。除上述共振峰外，所有特征维度均设置为40。提取第一至第四共振峰。然后对语音特征进行时间上的平均，并将其用作最终特征向量。
61.i-vector说话人嵌入系统按照kaldi voxceleb配方进行训练。mfcc特征是从voxceleb 2数据集中提取的。然后利用2048个高斯分量对通用背景模型进行训练。然后，选择最长的1000000个语音来训练i向量提取器，因为短语音对提取器有副作用。
62.对于深度学习说话人模型，本方法在vox-celeb 2数据集上训练resnet34和扩大的ecapa-tdnn。使用窗口大小为25ms、帧移10ms的40维fbank作为输入，与原始语音管道中的设置相同。在训练过程中，音频被随机分成300帧。评估时，使用resnet34和ecapa-tdnn最后一层的输出作为说话人嵌入。
63.经过上述数据的试验结果如下，采用roc(area under receiver operating characteristic，受试者工作特征)曲线(auc-定义为roc曲线下与坐标轴围成的面积)对不同特征和嵌入情况进行评价。约登指数的最高点被指定为阈值，以获得准确性、特异性和召回率(即灵敏度)。特异性是指所有阴性样本的真实阴性率，召回率是指所有阳性样本的真实阳性率。样品的后端通过说话人进行平均测试。然后重复实验10次，报告平均的auc，准确性，特异性和回忆结果。
64.基于原始语音特征的系统，如图4显示了基于原始语音特征的管道的结果。从原始波形中提取语音特征，并通过时间轴将其平均化为每个语音的单个嵌入。从auc的角度来看，对于传统的基于频谱的特征，lpc、mfcc和fbank的性能并不理想。事实上，许多信息是通过在时间上直接对特征进行平均而丢失的。这些语音特征基于原始音频信号的数学变换，因此提取特征的过程不能很好地利用数据中的知识。然而，共振峰频率比那些基于频谱的特征实现了更好的性能。共振峰频率描述了声道的共振，并与上呼吸道的内部结构相关，包括其顺应性、形状和尺寸。虽然共振峰频率的性能还不够好，但它仍然指导本方法找到表征说话人相关特征的方法。
65.基于说话人嵌入的系统，如图5和图6显示了用于困难气道检测的不同说话人嵌入
系统的结果。采用两种不同的深度说话人模型：resnet34和扩大-ecpa-tdnn以及传统的i-vector说话人模型。很容易发现，深度说话人嵌入的性能明显优于i-vector。这可能是因为在存在大量数据的情况下，i-vector不能很好地建模非说话人背景(例如噪声和记录通道)的差异。
66.随后，深度说话人系统的性能优于共振峰频率。这表明，在描述声音特征(如说话人上呼吸道的结构)方面，深层说话人嵌入的能力优于共振峰频率。在深度说话系统中，从大数据中学习到的知识对提高系统性能起着重要作用。此外，ecapa-tdnn除特异性外，在auc、准确性和召回率方面均优于resnet-34，说明resnet-34的约登指数所指定的阈值在特异性方面存在过高的偏差。
67.与传统临床检查方法的比较，改良mallampati试验(mmt)、上唇咬合试验(ulbt)和下巴-颏骨距离(tmd)是三种传统的气道检测方法。mmt评估口咽结构的可见度。对于ulbt，通过让用户用下门牙咬合上唇来评估下颌运动的范围。tmd指的是甲状软骨最上边缘与颏部之间的距离，在颈部伸展、嘴巴闭合的情况下测量。mmt、ulbt和tmd要求用户在场，并由医生使用专用仪器进行测试。如图7显示了所有传统临床方法与拟议方法的比较结果。最后两行是融合结果。在不同的融合模型上平均后验概率。类似系统(ecapa和resnet34)的融合对ecapa的改进有限。相比之下，共振峰频率系统和深度说话人系统是相辅相成的。此外，基于最终语音技术的系统在除召回外的所有情况下都大大优于所有传统方法，这清楚地显示了语音技术相对于传统方法的性能优势。
68.总的来说，本方法提出了一种基于语音技术的声带困难气道检测方法。所提出的方法解决了传统方法存在的繁琐、专业要求高和不够准确的问题。此外，提出的基于说话人嵌入的方法显示了识别困难气道的能力。说话人嵌入很好地表征了气道的物理结构。更重要的是，由于语音信号传输方便，用户只需使用边缘设备即可进行检测，大大方便了用户。
69.如图8所示为本发明一实施例提供的一种困难气道的检测系统的结构示意图，该系统可执行上述任意实施例所述的困难气道的检测方法，并配置在终端中。
70.本实施例提供的一种困难气道的检测系统10包括：语音处理程序模块11，第一嵌入确定程序模块12，第二嵌入确定程序模块13和检测程序模块14。
71.其中，语音处理程序模块11用于对用户的语音音频进行声学特征提取和语音活性检测；第一嵌入确定程序模块12用于将提取的声学特征进行平均池化处理，得到第一嵌入向量；第二嵌入确定程序模块13用于将活性检测后的发声帧输入至用于表征困难气道的说话人的深度说话人模型，得到表征困难气道的第二嵌入向量；检测程序模块14用于将所述第一嵌入向量联合所述第二嵌入向量输入至支持向量机，以检测困难气道。
72.进一步地，所述检测程序模块用于：
73.基于支持向量机的核函数，利用非线性映射将输入的所述第一嵌入向量联合所述第二嵌入向量映射到特征空间，估计超平面；
74.通过标记分离特征空间对所述用户的语音音频进行分类，确定困难气道的检测结果。
75.本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的困难气道的检测方法；
76.作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
77.对用户的语音音频进行声学特征提取和语音活性检测；
78.将提取的声学特征进行平均池化处理，得到第一嵌入向量；
79.将活性检测后的发声帧输入至用于表征困难气道的说话人的深度说话人模型，得到表征困难气道的第二嵌入向量；
80.将所述第一嵌入向量联合所述第二嵌入向量输入至支持向量机，以检测困难气道。
81.作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的困难气道的检测方法。
82.图9是本技术另一实施例提供的困难气道的检测方法的电子设备的硬件结构示意图，如图9所示，该设备包括：
83.一个或多个处理器910以及存储器920，图9中以一个处理器910为例。困难气道的检测方法的设备还可以包括：输入装置930和输出装置940。
84.处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。
85.存储器920作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本技术实施例中的困难气道的检测方法对应的程序指令/模块。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例困难气道的检测方法。
86.存储器920可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器920可选包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
87.输入装置930可接收输入的数字或字符信息。输出装置940可包括显示屏等显示设备。
88.所述一个或者多个模块存储在所述存储器920中，当被所述一个或者多个处理器910执行时，执行上述任意方法实施例中的困难气道的检测方法。
89.上述产品可执行本技术实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术实施例所提供的方法。
90.非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存
储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
91.本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的困难气道的检测方法的步骤。
92.本技术实施例的电子设备以多种形式存在，包括但不限于：
93.(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
94.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。
95.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
96.(4)其他具有数据处理功能的电子装置。
97.在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
98.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
99.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
100.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。