音频处理方法、装置及设备与流程

1.本发明涉及信息技术领域，尤其涉及一种音频处理方法、装置及设备。

背景技术：

2.在开会、采访、谈判及教学等场景中，常常需要使用录音设备进行录音。当用户需要从音频中获取转写和翻译信息时，需要将录音音频文件进行单独的语音转写或识别翻译。
3.从音频中获取转写信息和翻译信息是一种较为耗时的操作且操作流程较长，用户需要先进行录音，再分别将音频进行转写与翻译，录音本身就是一个耗费时间的过程，用户再获取自己所需要的转写信息或翻译信息的等待时间将会被再次拉长。

技术实现要素：

4.本发明提供一种音频处理方法、装置及设备，用以解决现有技术中获取转写信息和翻译信息耗时过长的问题。
5.本发明提供一种音频处理方法，包括：
6.获取录音文件的录音音频、转写文本和翻译文本；
7.将所述录音音频、所述转写文本和所述翻译文本进行编码处理，得到目标音频帧；
8.获取目标音频头，所述目标音频头包括有用于表征目标音频格式的信息；
9.基于所述目标音频头和所述目标音频帧，得到目标编码音频，所述目标编码音频的格式为所述目标音频格式。
10.根据本发明提供的一种音频处理方法，所述将所述录音音频、所述转写文本和所述翻译文本进行编码处理，得到目标音频帧，包括：
11.在所述录音音频和所述转写文本间插入第一数据分隔符，并在所述转写文本和所述翻译文本间插入第二数据分隔符；
12.在所述录音音频前插入目标帧头，得到所述目标音频帧；
13.其中，所述目标帧头包括转写数据标识和翻译数据标识。
14.根据本发明提供的一种音频处理方法，所述在所述录音音频前插入目标帧头，得到所述目标音频帧，包括：获取所述录音文件的字节长度；
15.在确定所述字节长度大于目标字节长度的情况下，在所述录音音频前插入所述目标帧头，得到所述目标音频帧。
16.根据本发明提供的一种音频处理方法，所述获取录音文件的录音音频、转写文本和翻译文本，包括：
17.获取所述录音文件中连续的目标数目个所述录音音频、所述转写文本和所述翻译文本；
18.所述将所述录音音频、所述转写文本和所述翻译文本进行编码处理，得到目标音频帧，包括：
19.将所述连续的目标数目个所述录音音频、所述转写文本和所述翻译文本分别组装为目标录音音频、目标转写文本和目标翻译文本；
20.将所述目标录音音频、所述目标转写文本和所述目标翻译文本进行编码处理，得到所述目标音频帧。
21.根据本发明提供的一种音频处理方法，所述目标编码音频包括所述目标音频帧和其他音频帧。
22.根据本发明提供的一种音频处理方法，所述目标音频头包括起始标志、采样率、声道数、比特率、文件大小和目标音频格式信息。
23.本发明还提供一种音频处理装置，包括：
24.第一获取模块，用于获取录音文件的录音音频、转写文本和翻译文本；
25.第一处理模块，用于将所述录音音频、所述转写文本和所述翻译文本进行编码处理，得到目标音频帧；
26.第二获取模块，用于获取目标音频头，所述目标音频头包括有用于表征目标音频格式的信息；
27.第二处理模块，用于基于所述目标音频头和所述目标音频帧，得到目标编码音频，所述目标编码音频的格式为所述目标音频格式。
28.本发明还提供一种音频处理设备，包括：
29.拾音装置，所述拾音装置用于拾音输出录音文件；
30.转写翻译装置，所述转写翻译装置与所述拾音装置电连接，所述转写翻译装置用于基于所述录音文件，输出录音音频、转写文本和翻译文本；
31.如上述的音频处理装置，所述音频处理装置与所述转写翻译装置电连接，所述音频处理装置用于基于所述录音音频、所述转写文本和所述翻译文本，得到目标编码音频。
32.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述音频处理方法的步骤。
33.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述音频处理方法的步骤。
34.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述音频处理方法的步骤。
35.本发明提供的音频处理方法、装置和设备，通过将录音音频、转写文本和翻译文本进行编码存储，形成新的音频格式的目标编码音频，使得用户获取该目标编码音频，便可直接解析出音频及对应的转写翻译结果，提高录音效率，有效减少用户等待的时间，提升用户的使用体验。
附图说明
36.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
37.图1是本发明提供的音频处理方法的流程示意图；
38.图2是本发明提供的音频处理设备的处理过程示意图；
39.图3是本发明提供的目标编码音频的结构示意图；
40.图4是本发明提供的目标音频头的结构示意图；
41.图5是本发明提供的目标音频帧的结构示意图；
42.图6是本发明提供的目标帧头的结构示意图；
43.图7是本发明提供的音频处理装置的结构示意图；
44.图8是本发明提供的电子设备的结构示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.下面结合图1至图6描述本发明的音频处理方法，该方法的执行主体，可以为设备端的控制器，或者云端，或者边缘服务器。
47.如图1所示，本发明的音频处理方法包括步骤110至步骤140。
48.步骤110、获取录音文件的录音音频、转写文本和翻译文本。
49.在实际执行中，可以通过拾音装置10拾音输出录音文件，拾音装置10拾音的过程可以对录音文件的基础音频属性进行设置。
50.其中，录音文件的基础音频属性包括但不限于采样率、声道数和采样位数等音频属性。
51.通过对录音文件的基础音频属性进行设置，拾音装置10拾音可以输出pcm格式的录音文件。
52.pcm格式的录音文件的声音数据没有被压缩，录音文件为单声道的文件时，拾音采样数据可以按时间先后顺序依次存入。
53.录音文件为双声道的文件时，拾音采样数据可以按时间先后顺序交叉地存入。
54.如图2所示，拾音装置10将拾音得到录音文件，输入至可以进行多语种转写和多语种翻译的语音识别处理的转写翻译装置20。
55.转写翻译装置20可以先对录音文件进行语音识别，得到录音文件对应的转写文本，再对转写文本进行语义识别并利用翻译引擎进行翻译，得到对应的翻译文本。
56.在该实施例中，拾音装置10以及转写翻译装置20的录音、转写和翻译分别在独立的进程中执行。
57.录音、转写和翻译三个进程相互独立，转写翻译装置20会将拾音装置10输出的连续的录音文件进行识别转写，并对转写文本进行语义识别并结合上下文分析，得到相对连续的语句，再对连续的语句进行翻译。
58.可以理解的是，转写翻译装置20中翻译文本对应的语种是由用户设定的，转写翻译装置20可以翻译的语种包括但不限于中文、英语、日语、韩语、法语、德语、俄语、西班牙语、葡萄牙语、越南语、印尼语、意大利语、荷兰语或泰语等语种。
59.步骤120、将录音音频、转写文本和翻译文本进行编码处理，得到目标音频帧。
60.其中，目标音频帧包括录音音频编码数据、转写文本数据和翻译文本数据。
61.在实际执行中，目标音频帧可以以二进制数据表示，也即使用二进制格式对录音音频、转写文本和翻译文本这三个信息进行编码。
62.可以理解的是，目标音频帧的编码过程将录音音频、转写文本和翻译文本都进行了编码处理，在对目标音频帧进行解码读取时，可以对应读取到录音音频、转写文本和翻译文本。
63.需要说明的是，在将录音音频、转写文本和翻译文本进行编码处理的过程中，三个信息进行编码的顺序可以进行设定，最终得到的目标音频帧中编码数据的顺序可以为：录音音频、转写文本和翻译文本；也可以为转写文本、录音音频和翻译文本。
64.步骤130、获取目标音频头，目标音频头包括有用于表征目标音频格式的信息。
65.在对录音音频、转写文本和翻译文本进行编码，得到目标音频帧后，需要将目标音频帧与目标音频头接合。
66.目标音频头属于文件头(header)，文件头是位于文件开头的承担一定任务的数据，文件头可以包括对文件主体数据的描述。
67.目标音频头包括有描述文件格式的目标音频格式信息，目标音频格式信息是用于表征目标音频格式的信息，目标音频格式信息代表了文件的固定格式。
68.在该实施例中，目标音频头中的目标音频格式信息可以采用4字节的“atc”进行表示。
69.步骤140、基于目标音频头和目标音频帧，得到目标编码音频。
70.如图3所示，目标编码音频包括目标音频头310和一帧一帧的编码音频帧。
71.如图4所示，目标音频头包括目标音频格式信息460，相应得到的目标编码音频的格式为目标音频格式。
72.在该实施例中，目标音频格式信息可以为4字节的“atc”，相应得到的目标编码音频的目标音频格式为“.atc”。
73.需要说明的是，目标音频格式信息和目标音频格式是为存储录音音频、转写文本和翻译文本编码的目标编码音频所设置的文件格式。
74.相关技术中，通常是在录音时对音频进行编码存储，在用户需要语音转写或翻译结果时，再利用存储的录音音频的文件进行语音转写或识别翻译，又分别对转写和翻译的结果进行存储。
75.从音频中获取转写或翻译信息不仅耗时且操作流程较长，录音本身需要耗费一定的时间，用户在获取自己所需要转写或翻译信息的等待时间将会被再次拉长。
76.该类技术中，用户需要分别去查询获取音频和转写翻译结果，增加了用户的操作步骤，且需要存储三种文件，增加了设备的存储压力。
77.本发明在录音的同时进行多语种的转写和翻译，将录音音频、转写文本和翻译文本进行编码存储，形成新的音频格式的目标编码音频，使得用户获取该目标编码音频，便可直接解析出录音音频、转写文本和翻译文本，提高录音及转写翻译的效率，减少用户等待的时间，提升用户的使用体验。
78.本发明的目标编码音频一个文件包括了录音音频、转写文本和翻译文本三个信
息，减少了用户获取转写文本和翻译文本的操作步骤，还使得设备只需存储目标编码音频一个文件，减轻设备的存储压力。
79.根据本发明提供的音频处理方法，通过将录音音频、转写文本和翻译文本进行编码存储，形成新的音频格式的目标编码音频，使得用户获取该目标编码音频，便可直接解析出音频及对应的转写翻译结果，可有效减少用户等待的时间，提升用户的使用体验。
80.在一些实施例中，步骤120包括：在录音音频和转写文本间插入第一数据分隔符，并在转写文本和翻译文本间插入第二数据分隔符；在录音音频前插入目标帧头，得到目标音频帧。
81.目标音频帧属于一种数据帧，数据帧通过包括帧头、数据部分以及帧尾，帧头和帧尾包含数据帧的基本信息。
82.目标音频帧的数据部分包括录音音频、转写文本和翻译文本编码得到的数据。
83.如图5所示，在对目标音频帧的数据部分进行编码时，需要在录音音频和转写文本间插入第一数据分隔符，并在转写文本和翻译文本间插入第二数据分隔符。
84.其中，分隔符530为第一数据分隔符，分隔符550为第二数据分隔符。
85.第一数据分隔符是录音音频和转写文本间的分割标识，在对目标音频帧进行解码时，读取到对应的第一数据分隔符时，表明录音音频读取完毕，其后面的数据内容是转写文本。
86.在实际执行中，可以通过查询第一数据分隔符的位置，获取第一数据分隔符后的数据内容，即可得到转写文本。
87.第二数据分隔符是转写文本和翻译文本间的分割标识，在对目标音频帧进行解码时，读取到对应的第二数据分隔符时，表明转写文本读取完毕，其后面的数据内容是翻译文本。
88.在实际执行中，也可以通过查询第二数据分隔符的位置，获取第二数据分隔符后的数据内容，即可得到翻译文本。
89.下面介绍一个具体的实施例。
90.如图5所示，目标帧头510位于目标音频帧的最前面，目标音频帧中的录音音频编码数据520是录音音频的音频二进制数据，转写文本编码数据540是录音音频对应转写出的，翻译文本编码数据560是转写文本对应翻译出的。
91.在实际执行中，第一数据分隔符530和第二数据分隔符550可以用不同的标识。
92.例如，录音音频和转写文本间的第一数据分隔符可以为0xaaff500，相应的转写文本和翻译文本间的第二数据分隔符可以为0xaaff501。
93.目标音频帧还包括目标帧头，目标帧头在目标音频帧中位于录音音频的编码数据的前面。
94.如图6所示，目标帧头包括帧序号610、帧大小620、音频数据大小630、转写数据标识640和翻译数据标识650。
95.初始帧序号从0开始，依次向上递增，表示帧在目标编码音频中的序列，帧序号的长度为4个字节。
96.帧大小标识了该目标音频帧数据的总大小，包含帧头数据的大小和帧内音频和文本数据二进制编码的大小，长度为4个字节
97.音频数据大小用标识该目标音频帧中纯音频数据的大小，也即目标音频帧中录音音频的数据大小，便于解码得到录音音频对应的音频数据。
98.转写数据标识用于标识该目标音频帧中是否存入转写文本，翻译数据标识用于标识该目标音频帧中是否存入翻译文本。
99.可以理解是的，录音过程中所产生的录音音频中并不是每一帧数据都会包括转写文本或翻译文本。
100.例如，录音音频中某一帧数据记录的声音为用户呼吸声、叹气声或无需进行转写翻译的声音，该帧数据没有对应的转写文本，也就没有转写文本对应的翻译文本。
101.再例如，录音音频中某一帧数据记录的声音为用户语气词“嗯”、“啊”或“哦”这类难以进行翻译的词语时，转写文本无法进行语义识别，得不到对应的翻译文本。
102.需要说明的是，目标帧头包括有转写数据标识和翻译数据标识，有目标帧头的音频帧是目标音频帧，在对目标编码音频进行解码时，可以根据各个音频帧中是否有目标帧头，判断应该音频帧中是否存在对应的转写文本或翻译文本。
103.在一些实施例中，获取录音文件的字节长度；在确定字节长度大于目标字节长度的情况下，在录音音频前插入目标帧头，得到目标音频帧。
104.在该实施例中，通过获取录音文件的字节长度，根据字节长度来判断录音文件是否存在对应的转写文本或翻译文本。
105.其中，录音文件的字节长度包括录音文件所有信息的字节长度。
106.当录音文件包括录音音频、转写文本和翻译文本时，录音文件的字节长度为录音音频、转写文本以及翻译文本三个信息的字节长度之和。
107.当录音文件只有录音音频时，录音文件的字节长度为录音音频的字节长度。
108.在实际执行中，可以利用size of(byte[])的计算方法来获取录音文件的字节长度。
[0109]
当录音文件的字节长度大于目标字节长度的情况下，在录音音频前插入具有转写数据标识和翻译数据标识目标帧头，得到对应的目标音频帧。
[0110]
例如，通过size of(byte[])的计算方法获取录音文件的字节长度，大于目标字节长度，存在转写文本或翻译文本，存入0x01的转写数据标识或翻译数据标识。
[0111]
在一些实施例中，目标编码音频包括目标音频帧和其他音频帧。
[0112]
目标音频帧是包括录音音频、转写文本和翻译文本的编码音频帧，目标音频帧具有目标帧头，目标帧头具有转写数据标识和翻译数据标识。
[0113]
其他音频帧是不具有转写或翻译信息，仅包括录音音频的编码音频帧，其他音频帧的帧头中无转写数据标识和翻译数据标识。
[0114]
在实际执行中，当录音文件的字节长度不大于目标字节长度的情况下，在录音音频前插入其他帧头，其他帧头中无转写数据标识和翻译数据标识，得到对应的其他音频帧。
[0115]
例如，通过size of(byte[])的计算方法获取录音文件的字节长度，不大于目标字节长度，存在转写文本或翻译文本，存入0x00，其他帧头中无转写数据标识或翻译数据标识。
[0116]
可以理解的是，目标编码音频中包括多个编码音频帧，多个编码音频帧中有转写和翻译信息的为目标音频帧，无转写或翻译信息的为其他音频帧。
[0117]
例如，如图3所示，目标编码音频包括目标音频头310、音频帧320和音频帧340是目标音频帧，音频帧330是其他音频帧。
[0118]
在该实施例中，编码音频帧的音频帧数据大小存储在各自的帧头信息中。
[0119]
目标音频帧的数据大小为目标帧头、录音音频、第一数据分隔符、转写文本、第二数据分隔符以及翻译文本的数据大小之和。
[0120]
其他音频帧的数据大小包括其他帧头和录音音频的数据大小之和。
[0121]
由于录音过程中所产生的录音音频中并不是每一帧数据都会包括转写文本或翻译文本，目标编码音频中各个编码音频帧的数据大小不同。
[0122]
在一些实施例中，可以将连续的目标数目个录音音频、转写文本和翻译文本分别组装为目标录音音频、目标转写文本和目标翻译文本；
[0123]
将目标录音音频、目标转写文本和目标翻译文本进行编码处理，得到目标音频帧。
[0124]
可以理解的是，拾音装置10在拾取输出录音文件时，以及转写识别装置在转写翻译输出录音音频、转写文本和翻译文本时，可以连续输出多个录音音频、转写文本和翻译文本。
[0125]
在该实施例中，获取录音文件中连续的目标数目个录音音频、转写文本和翻译文本，将其分别进行组装，得到对应的目标录音音频、目标转写文本和目标翻译文本。
[0126]
再进一步对目标录音音频、目标转写文本和目标翻译文本进行编码，得到对应的目标编码音频。
[0127]
在实际执行中，可以将获取到的录音音频、转写文本和翻译文本按顺序缓存起来，在录音音频、转写文本和翻译文本的当前缓存的数目达到目标数目时，将连续的目标数目个录音音频、转写文本和翻译文本整合为对应的目标录音音频、目标转写文本和目标翻译文本。
[0128]
可以理解的是，录音文件中录音音频、转写文本和翻译文本的数目是相等的，录音音频、转写文本和翻译文本当前缓存的数目达到目标数目，指对应的缓存队列中存在目标数目个录音音频、目标数目个转写文本以及目标数目个翻译文本。
[0129]
例如，接收并缓存录音音频1至录音音频10、转写文本1至转写文本10以及翻译文本1至翻译文本10。
[0130]
将录音音频1至录音音频10这10个录音音频整合为目标录音音频，将转写文本1至转写文本10这10个转写文本整合为目标转写文本，将翻译文本1至翻译文本10这10个翻译文本整合为目标翻译文本。
[0131]
在目标编码音频中每个编码音频帧是根据接收顺序排列的，每一个编码音频帧对应的帧序号是线性增加的。
[0132]
通过缓存连续的目标数目个录音音频、转写文本和翻译文本，再进行编码处理，可以减少编码处理的次数，且由于录音音频中并不是每一帧数据都会包括转写文本或翻译文本，缓存目标数目个录音音频偶，可以获取得到具有转写文本和翻译文本的目标音频帧。
[0133]
在一些实施例中，目标音频头包括：起始标志、采样率、声道数、比特率、文件大小和目标音频格式信息。
[0134]
如图4所示，目标编码音频的目标音频头中包含了该目标编码音频的基础信息，包括起始标志410、采样率420、声道数430、比特率440、文件大小450和目标音频格式信息460。
[0135]
目标音频头的起始标志是用于标志整个目标编码音频起点的标识，起始标志可以用4字节来表示，可以采用标志“attc”表示。
[0136]
目标音频头的采样率代表了录音音频的采样率的大小，与拾音设备的输出设置相关，采样率可以用4字节来表示。
[0137]
目标音频头的声道数代表了录音音频的声道数目，与拾音设备的输出设置相关，声道数可以用2字节来表示，1代表单声道，2代表双声道。
[0138]
目标音频头的比特率代表了录音音频的音频比特率，可以用4字节来表示。
[0139]
目标音频头的音频格式信息代表了目标编码音频的固定格式，可以采用4字节的“atc”进行表示。
[0140]
文件大小是录音音频的文件总大小，可以用4字节表示，在录音音频录音完成后进行更新。
[0141]
目标音频头包括起始标志、采样率、声道数、比特率、文件大小和目标音频格式信息，整个目标音频头的大小固定，为22个字节。
[0142]
本发明可以录音的过程中，同时进行多语种的转写和翻译，并将转写与翻译结果和音频同步进行编码存储，生成一种新的音频格式的目标编码音频，使得用户在获取目标编码音频时，能够直接解析出音频和转写翻译结果，提高效率。
[0143]
下面对本发明提供的音频处理装置进行描述，下文描述的音频处理装置30与上文描述的音频处理方法可相互对应参照。
[0144]
如图7所示，本发明提供的音频处理装置30包括：
[0145]
第一获取模块710，用于获取录音文件的录音音频、转写文本和翻译文本；
[0146]
第一处理模块720，用于将录音音频、转写文本和翻译文本进行编码处理，得到目标音频帧；
[0147]
第二获取模块730，用于获取目标音频头，目标音频头包括有用于表征目标音频格式的信息；
[0148]
第二处理模块740，用于基于目标音频头和目标音频帧，得到目标编码音频，目标编码音频的格式为目标音频格式。
[0149]
根据本发明提供的音频处理装置30，通过将录音音频、转写文本和翻译文本进行编码存储，形成新的音频格式的目标编码音频，使得用户获取该目标编码音频，便可直接解析出音频及对应的转写翻译结果，可有效减少用户等待的时间，提升用户的使用体验。
[0150]
在一些实施例中，第一处理模块720，用于在录音音频和转写文本间插入第一数据分隔符，并在转写文本和翻译文本间插入第二数据分隔符；在录音音频前插入目标帧头，得到目标音频帧；其中，目标帧头包括转写数据标识和翻译数据标识。
[0151]
在一些实施例中，第一处理模块720，用于获取录音文件的字节长度；在确定字节长度大于目标字节长度的情况下，在录音音频前插入目标帧头，得到目标音频帧。
[0152]
在一些实施例中，第一处理模块720，用于将目标数目个连续的录音音频、转写文本和翻译文本分别组装为目标录音音频、目标转写文本和目标翻译文本；将目标录音音频、目标转写文本和目标翻译文本进行编码处理，得到目标音频帧。
[0153]
在一些实施例中，目标编码音频包括目标音频帧和其他音频帧。
[0154]
在一些实施例中，目标音频头包括起始标志、采样率、声道数、比特率、文件大小和
目标音频格式信息。
[0155]
本发明还提供一种音频处理设备。
[0156]
如图2所示，音频处理设备包括拾音装置10、转写翻译装置20和上文描述的音频处理装置30。
[0157]
拾音装置10用于拾音输出录音文件；转写翻译装置20与拾音装置10电连接，转写翻译装置20用于基于录音文件，输出录音音频、转写文本和翻译文本。
[0158]
如图2所示，步骤210、拾音装置10将拾音得到录音文件，输入至可以进行多语种转写和多语种翻译的语音识别处理的转写翻译装置20。
[0159]
转写翻译装置20可以先对录音文件进行语音识别，得到录音文件对应的转写文本，再对转写文本进行语义识别并利用翻译引擎进行翻译，得到对应的翻译文本。
[0160]
步骤220、转写翻译装置20再将录音音频、转写文本和翻译文本输入给音频处理装置30。
[0161]
音频处理装置30与转写翻译装置20电连接，音频处理装置30用于基于录音音频、转写文本和翻译文本，得到目标编码音频。
[0162]
根据本发明提供的音频处理设备，通过将录音音频、转写文本和翻译文本进行编码存储，形成新的音频格式的目标编码音频，使得用户获取该目标编码音频，便可直接解析出音频及对应的转写翻译结果，可有效减少用户等待的时间，提升用户的使用体验。
[0163]
图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行音频处理方法，该方法包括获取录音文件的录音音频、转写文本和翻译文本；将录音音频、转写文本和翻译文本进行编码处理，得到目标音频帧；获取目标音频头，目标音频头包括有用于表征目标音频格式的信息；基于目标音频头和目标音频帧，得到目标编码音频，目标编码音频的格式为目标音频格式。
[0164]
此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0165]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的音频处理方法，该方法包括获取录音文件的录音音频、转写文本和翻译文本；将录音音频、转写文本和翻译文本进行编码处理，得到目标音频帧；获取目标音频头，目标音频头包括有用于表征目标音频格式的信息；基于目标音频头和目标音频帧，得到目标编码音频，目标编码音频的格式为目标音频格式。
[0166]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程
序，该计算机程序被处理器执行时实现以执行上述各方法提供的音频处理方法，该方法包括获取录音文件的录音音频、转写文本和翻译文本；将录音音频、转写文本和翻译文本进行编码处理，得到目标音频帧；获取目标音频头，目标音频头包括有用于表征目标音频格式的信息；基于目标音频头和目标音频帧，得到目标编码音频，目标编码音频的格式为目标音频格式。
[0167]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0168]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0169]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。