视频语音识别方法、装置、设备和存储介质与流程

1.本技术涉及语音识别技术领域，尤其涉及一种视频语音识别方法、装置、设备和存储介质。

背景技术：

2.目前，视频数据具有娱乐性强、内容丰富、用户粘性高等优点，已经成为近年来互联网用户的主要流量之一。视频自动语音识别(automatic speech recognition，asr)通过将视频中的说话内容识别为对应的文本，在视频内容审核、视频推荐等领域扮演着重要的角色。
3.然而，在实际视频场景中，待识别的语音数据可能存在口音、背景音乐和噪声等多种复杂干扰因素，严重降低视频语音识别的效果。
4.相关技术中，通常采用人工标注的方式获取大量视频场景的音频数据及对应标签，然后采用这些标注数据进行模型的优化训练，然而，相比于图像、文本等数据的标注而言，由于音频数据的标注需要人工听取至少一遍，标注成本也往往更高。

技术实现要素：

5.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
6.本技术提出一种视频语音识别方法、装置、设备和存储介质，通过视频的图像中的文本识别结果辅助视频语音识别，提高视频语音识别的准确性，用于解决现有技术中视频语音识别不准确且成本比较高的技术问题。
7.本技术第一方面实施例提出了一种视频语音识别方法，包括：
8.对视频进行处理，获取多个音频子片段，以及与每个所述音频子片段对应的图像帧序列；
9.对所述图像帧序列进行文本识别，获取多个文本结果，并对所述多个文本结果进行处理，获取多个关键词；
10.通过语音识别模型对每个所述音频子片段进行处理，获取多个候选语音识别结果；
11.根据所述多个候选语音识别结果和所述多个关键词确定每个所述音频子片段的目标文本识别结果，根据每个所述音频子片段的目标文本识别结果，获取所述视频的语音识别结果。
12.本技术实施例的视频语音识别方法，通过对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列；对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果；根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。由此，通过视频的图像中的文本识别结果辅助视频语音识别，提高视频语音
识别的准确性。
13.本技术第二方面实施例提出了一种视频语音识别装置，包括：
14.第一获取模块，用于对视频进行处理，获取多个音频子片段，以及与每个所述音频子片段对应的图像帧序列；
15.识别模块，用于对所述图像帧序列进行文本识别，获取多个文本结果；
16.第二获取模块，用于对所述多个文本结果进行处理，获取多个关键词；
17.处理模块，用于通过语音识别模型对每个所述音频子片段进行处理，获取多个候选语音识别结果；
18.确定模块，用于根据所述多个候选语音识别结果和所述多个关键词确定每个所述音频子片段的目标文本识别结果；
19.第三获取模块，用于根据每个所述音频子片段的目标文本识别结果，获取所述视频的语音识别结果。
20.本技术实施例的视频语音识别装置，通过对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列；对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果；根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。由此，通过视频的图像中的文本识别结果辅助视频语音识别，提高视频语音识别的准确性。
21.本技术第三方面实施例提出了一种服务器，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本技术第一方面实施例提出的视频语音识别方法。
22.本技术第四方面实施例提出了一种非临时性计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如本技术第一方面实施例提出的视频语音识别方法。
23.本技术第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行本技术第一方面实施例提出的视频语音识别方法。
24.本技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
25.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
26.图1为本技术实施例一所提供的视频语音识别方法的流程示意图；
27.图2为本技术实施例二所提供的视频语音识别方法的流程示意图；
28.图3为本技术实施例的音频静音检测的示例图；
29.图4为本技术实施例的orc算法进行文本识别的示例图；
30.图5为本技术实施例八所提供的视频语音识别装置的结构示意图；
31.图6为本技术实施例九所提供的视频语音识别装置的结构示意图；
32.图7示出了适于用来实现本技术实施方式的示例性服务器的框图。
具体实施方式
33.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本技术，而不能理解为对本技术的限制。
34.在实际应用中，通过视频自动语音识别将视频中的说话内容识别为对应的文本，在视频内容审核、视频推荐等领域是比较常见的，然而，通常采用人工标注的方式获取大量视频场景的音频数据及对应标签，然后采用这些标注数据进行模型的优化训练，标注成本比较高，视频识别难度大且效率比较低。
35.针对上述问题，本技术提出一种视频语音识别方法，对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列；对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果；根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。
36.由此，通过视频的图像中的文本识别结果辅助视频语音识别，提高视频语音识别的准确性。
37.下面参考附图描述本技术实施例的视频语音识别方法、装置、设备和存储介质。
38.图1为本技术实施例一所提供的视频语音识别方法的流程示意图。
39.本技术实施例以该视频语音识别方法被配置于视频语音识别装置中来举例说明，该视频语音识别装置可以应用于任一设备中，以使该设备可以执行视频语音识别功能。
40.如图1所示，该视频语音识别方法，该方法可以包括以下步骤：
41.步骤101，对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列。
42.在本技术实施例中，视频可以理解为待进行语音识别的视频，可以根据应用场景获取，比如相关终端上传的视频、实时拍摄的视频等等，具体根据应用场景选择设置。
43.在本技术实施例中，可以理解的是，视频可以为一段时间持续具有音频数据的视频，也可以是间隔时间段的音频数据，可以根据不同场景选择对应的方式对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列，举例说明如下：
44.第一种示例，对视频进行处理，获取音频数据和图像数据，对音频数据进行静音检测，获取多个音频子片段；从图像数据中获取与每个音频子片段对应的图像帧序列。
45.第二种示例，对视频进行处理，获取音频数据和图像数据，按照预设时间段对音频数据进行裁剪，获取多个音频子片段；从图像数据中获取与每个音频子片段对应的图像帧序列。
46.在本技术实施例中，每个音频子片段对应的图像帧序列可以理解为一段音频对应的多张图像的集合。
47.步骤102，对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词。
48.在本技术实施例中，对图像帧序列进行文本识别，获取多个文本结果可以理解为针对图像帧序列中的每一帧图像进行文本识别，获取对应的文本结果，其中，对图像帧序列进行文本识别，获取多个文本结果的方式有很多种，举例说明如下：
49.第一种示例，对图像帧系列中的每一帧图像进行光学字符识别，获取多个文本结果。
50.第二种示例，通过已训练的神经网络对图像帧系列中的每一帧图像进行处理，获取多个文本结果；其中，已训练的神经网络通过训练样本具有对图像进行文本识别能力。
51.在本技术实施例中，对多个文本结果进行处理，获取多个关键词的方式有很多种，举例说明如下：
52.第一种示例，对每一条文本结果进行分词处理，获取多个分词，对多个分词进行过滤，获取多个关键词。
53.第二种示例，将每一条文本结果与文本模板进行匹配，获取多个关键词，其中，文本模型为预先设置。
54.步骤103，通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果。
55.步骤104，根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。
56.在本技术实施例中，语音识别模型为预先根据样本训练具有对语音进行识别能力的模型，将每个音频子片段输入语音识别模型进行处理，可以获取多个候选语音识别结果，比如音频子片段a输入语音识别模型进行处理，获取候选语音识别结果“你好吗”、“你号码”和“你好嘛”。
57.进一步地，根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果的方式有很多种，举例说明如下。
58.作为一种示例，获取每个候选语音识别文本的识别概率，获取每个候选语音识别文本的统计概率和第一系数、获取每个候选语音识别文本对应的多个关键词的贡献概率和第二系数、根据每个候选语音识别文本的识别概率、统计概率、第一系数、贡献概率和第二系数进行计算，获取每个候选语音识别文本的正确率，根据每个候选语音识别文本的正确率从多个候选语音识别结果中确定每个音频子片段的目标文本识别结果。
59.作为另一种示例，获取每个候选语音识别文本的正确率以及对应的系数，以及多个关键词的系数，进行加权求和，根据加权求和结果从多个候选语音识别结果中确定每个音频子片段的目标文本识别结果。
60.进一步地，将多个音频子片段的多个目标文本识别结果进行组合拼接，获取视频的语音识别结果。
61.本技术实施例的视频语音识别方法，通过对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列；对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果；根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。由此，通过视频的图像中的文本识别结果辅助视频语音识别，提高视频语音
识别的准确性。
62.图2为本技术实施例二所提供的视频语音识别方法的流程示意图。
63.如图2所示，该视频语音识别方法可以包括以下步骤：
64.步骤201，对视频进行处理，获取音频数据和图像数据，对音频数据进行静音检测，获取多个音频子片段，从图像数据中获取与每个音频子片段对应的图像帧序列。
65.在本技术实施例中，可以对视频进行采样处理，比如根据图像采样频率对视频进行采样处理，获取图像数据，根据音频信号采样频率对视频进行采样处理，获取音频数据。
66.举例而言，给定一段视频数据v＝{p,s}，其中p＝{i1,i2,...,i
n
}为视频数据中的图像数据，i
n
为图像数据中的第n帧图像，n∈[1,n]，图像采样频率为f
p
，s＝{x1,x2,...,x
m
}为视频数据中的音频数据，x
m
为音频数据中的第m个音频信号，m∈[1,m]，音频信号的采样频率为f
s
。在本技术中，比如图像的采样频率为f
p
＝30hz，音频信号的采样频率为f
s
＝16khz。
[0067]
进一步地，对音频数据进行静音检测，获取多个音频子片段，可以理解的是，通常在一段视频中的音频中，大多存在静音或非人声的部分，为了提高语音识别的准确性和效率，本技术利用静音检测算法，对音频数据中的静音部分进行检测并删除，将一段较长的音频切割为多个的子片段，并记录每一段语音的起止时间。
[0068]
举例而言，如图3所示，其中，为了防止背景音乐等因素，导致静音检测算法因无法完全截断音频而导致获得的子片段较长，可以设定固定时长阈值t，将时长大于阈值t的音频强行切割为多个时长为t的片段。在本技术中，比如固定时长阈值t＝10s。
[0069]
具体地，记给定一段音频数据在通过静音检测后得到的音频子片段序列为x1,x2,...,x
k
，其中每一个音频子片段x
k
的起止时间分别为t
sk
和t
ek
，k∈[1,k]。在本技术中，比如采用webrtc(web real
‑
time communication，网页即时通信)进行音频静音检测。
[0070]
在本技术实施例中，从图像数据中获取与每个音频子片段对应的图像帧序列的方式有很多种，作为一种场景举例，获取每个音频子片段对应的开始时间和结束时间，根据开始时间和图像采样频率的比值确定开始帧图像，并根据结束时间与图像采样频率的比值确定结束帧图像，根据开始帧图像和结束帧图像从图像数据中确定区间帧图像，并按照预设频率对区间帧图像中进行图像抽取，获取每个音频子片段对应的图像帧序列。
[0071]
具体地，由于图像数据和音频数据的采样频率不一致，且实际图像字幕在图像流中的变化频率较低，对每一个音频子片段x
k
，从图像数据中抽取对应的图像帧序列y
k
，其中，图像帧序列的起止帧序号分别为和其中和分别为上取整和下取整。在本技术中，比如图像帧序列y
k
的采样频率设为1hz，也即在整个图像数据的第帧和第帧之间，每隔f
p
帧抽样一张图片，构成每一个音频子片段x
k
对应的图像帧序列y
k
。
[0072]
步骤202，对图像帧系列中的每一帧图像进行光学字符识别，获取多个文本结果，对每一条文本结果进行分词处理，获取多个分词，对多个分词进行过滤，获取多个关键词。
[0073]
在本技术实施例中，通过光学字符识别ocr(optical character recognition)算法识别图像中的文本。本技术采用基于神经网络的通用ocr算法，对图像帧序列y
k
的每一帧图像中的文本进行识别，获得多个文本结果l1,l2,...,l
r
，如图4所示，在本技术中，采用常用的crnn(convolutional recurrent neural network，卷积循环神经网络)作为ocr算法
进行图像中的文本识别。
[0074]
进一步地，对每一条文本结果进行分词，获得每一条文本结果对应的分词列表w1,w2,...,w
r
。在本技术中，例如，l1为ocr算法获得的图像中的文本结果，为“您好，这里是视频的字幕。”，经过分词处理后，可以得到分词列表w1为{“您好”，“，”，“这里”，“是”，“视频”，“的”，“字幕”，“。”}。
[0075]
其中，考虑分词列表中可能存在标点符号、单字、数字、字母等内容，难以对语音识别进行很好的辅助，因此，可以将分词列表中的标点符号和单字去除。另外，由于ocr识别的结果无法完全正确或者被替换特殊字符，经过分词后，将会出现单字的结果。因此，可以有效的降低因ocr信息不完整而导致其对视频语音识别产生负面影响。
[0076]
举例而言，“您好，这里是视频的字幕。”为例，在有的视频中，字幕可能将“视”替换为“s”，识别结果为“您好，这里是s频的字幕”，经过分词后，可以得到分词列表{“您好”，“，”，“这里”，“是”，“s”，“频”，“的”，“字幕”，“。”}，经过去除单字后，“s频”将不会用于语音识别，从而避免了错词产生的误导信息。
[0077]
步骤203，通过语音识别模型对每个所述音频子片段进行处理，获取多个候选语音识别结果，获取每个候选语音识别文本的识别概率，获取每个候选语音识别文本的统计概率和第一系数。
[0078]
步骤204，获取每个候选语音识别文本对应的多个关键词的贡献概率和第二系数，根据每个候选语音识别文本的识别概率、统计概率、第一系数、贡献概率和第二系数进行计算，获取每个候选语音识别文本的正确率。
[0079]
步骤205，根据每个候选语音识别文本的正确率从多个候选语音识别结果中确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。
[0080]
在本技术实施例中，获取每个候选语音识别文本的识别概率可以理解为每个候选语音识别文本通过语音识别模型进行正确识别的概率，每个候选语音识别文本的统计概率和第一系数，可以理解为每个候选语音识别文本的自然程度，即表达是否符合规律等概率以及对应第一系数可以根据应用场景设置，每个候选语音识别文本对应的多个关键词的贡献概率和第二系数，可以理解为多个关键词对于识别结果的贡献度以及对应第二系数可以根据应用场景设置。
[0081]
在本技术实施例中，语音识别指的是从一段音频信号中识别出对应的文本结果，本技术实施例中的语音识别模型主要包含声学模型f
a
和语言模型f
l
两部分。其中，声学模型主要用于从音频信号中提取音频信号中的特征，语言模型主要使得语音识别模型输出相对自然的语言文本结果，从而在语音识别过程中，通过解码的方式，在解空间中，将声学模型得到的音频特征与语言模型进行结合，搜索出一个最优的输出文本序列，如下：
[0082][0083]
其中，其中b是语音识别获得的候选语音识别文本，b语音识别的文本结果解空间，f
a
(b|x
k
)为声学模型的识别概率，f
l
(b)为文本b的统计概率，f
h
(b,w1,w2,...,w
r
)为文本b中关键词的贡献概率，第一系数α和第二系数β分别用来配置语言模型和关键词的权重。
[0084]
需要说明的是，当视频中不存在字幕时，直接通过语音识别模型进行处理即可。
[0085]
本技术实施例的视频语音识别方法，通过对视频进行处理，获取音频数据和图像
数据，对音频数据进行静音检测，获取多个音频子片段，从图像数据中获取与每个音频子片段对应的图像帧序列，对图像帧系列中的每一帧图像进行光学字符识别，获取多个文本结果，对每一条文本结果进行分词处理，获取多个分词，对多个分词进行过滤，获取多个关键词，通过语音识别模型对每个所述音频子片段进行处理，获取多个候选语音识别结果，获取每个候选语音识别文本的识别概率，获取每个候选语音识别文本的统计概率和第一系数，获取每个候选语音识别文本对应的多个关键词的贡献概率和第二系数，根据每个候选语音识别文本的所述识别概率、统计概率、第一系数、所述贡献概率和第二系数进行计算，获取每个候选语音识别文本的正确率，根据每个候选语音识别文本的正确率从多个候选语音识别结果中确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。由此，针对视频语音识别技术难度大、标注成本高等问题，通过利用图像中的文本信息作为辅助，提高视频场景语音识别的准确率，避免了语音识别模型的重新训练和优化，仅在已有语音识别模型的基础上，利用文本识别技术提取视频中的文字信息作为辅助，并最终高效、低成本地提升含字幕视频的语音识别准确率。
[0086]
为了实现上述实施例，本技术还提出一种视频语音识别装置。
[0087]
图5为本技术实施例五所提供的视频语音识别装置的结构示意图。
[0088]
如图5所示，该视频语音识别装置500可以包括：第一获取模块510、识别模块520、第二获取模块530、处理模块540、确定模块550和第三获取模块560。
[0089]
其中，第一获取模块510，用于对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列。
[0090]
识别模块520，用于对图像帧序列进行文本识别，获取多个文本结果。
[0091]
第二获取模块530，用于对多个文本结果进行处理，获取多个关键词。
[0092]
处理模块540，用于通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果。
[0093]
确定模块550，用于根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果。
[0094]
第三获取模块560，用于根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。
[0095]
进一步地，在本技术实施例的一种可能的实现方式中，参见图6，在图5所示实施例的基础上，第一获取模块510，包括：处理单元511、检测单元512和获取单元513。
[0096]
其中，处理单元511，用于对视频进行处理，获取音频数据和图像数据。
[0097]
检测单元512，用于对所述音频数据进行静音检测，获取多个音频子片段。
[0098]
获取单元513，用于从所述图像数据中获取与每个所述音频子片段对应的图像帧序列。
[0099]
进一步地，在本技术实施例的一种可能的实现方式中，获取单元513，具体用于：获取每个所述音频子片段对应的开始时间和结束时间；根据所述开始时间和图像采样频率的比值确定开始帧图像，并根据所述结束时间与所述图像采样频率的比值确定结束帧图像；根据所述开始帧图像和所述结束帧图像从所述图像数据中确定区间帧图像，并按照预设频率对所述区间帧图像中进行图像抽取，获取每个所述音频子片段对应的图像帧序列。
[0100]
进一步地，在本技术实施例的一种可能的实现方式中，识别模块520，具体用于：对
interconnection；以下简称：pci)总线。
[0111]
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。
[0112]
存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(random access memory；以下简称：ram)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(compact disc read only memory；以下简称：cd
‑
rom)、数字多功能只读光盘(digital video disc read only memory；以下简称：dvd
‑
rom)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本技术各实施例的功能。
[0113]
具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本技术所描述的实施例中的功能和/或方法。
[0114]
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该服务器12交互的设备通信，和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且，服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(local area network；以下简称：lan)，广域网(wide area network；以下简称：wan)和/或公共网络，例如因特网)通信。如图7所示，网络适配器20通过总线18与服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0115]
处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的视频语音识别方法。
[0116]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0117]
此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“多个”的含义是至少两个，例如两个，三
个等，除非另有明确具体的限定。
[0118]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本技术的实施例所属技术领域的技术人员所理解。
[0119]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0120]
应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
[0121]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0122]
此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
[0123]
上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本技术的限制，本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。