音轨处理方法、装置、电子设备和存储介质与流程

1.本发明实施例涉及计算机技术领域，尤其涉及一种音轨处理方法、装置、电子设备和存储介质。

背景技术：

2.在现有技术的诸如演唱录制的专业录音过程中，伴奏播放与人声录制分开采集，并且利用分离的设备进行后期合成。
3.采用移动终端中安装的演唱录制应用程序可以将上述的所有流程简化，并且在单个移动终端中实现快捷的演唱录制，但是在用户预览时，仍然会发现产生录制效果较差的问题。

技术实现要素：

4.有鉴于此，本发明实施例提供一种音轨处理方法、装置、电子设备和存储介质，以解决或缓解上述问题。
5.根据本发明实施例的第一方面，提供了一种音轨处理方法，包括：确定伴奏音轨的播放延迟和在启动播放所述伴奏音轨时录制音轨的目标录制进度，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；通过在所述录制音轨中移除所述伴奏音轨的播放延迟和所述目标录制进度对应的部分，对所述录制音轨和所述伴奏音轨进行对齐。
6.根据本发明实施例的第二方面，提供了一种音轨处理方法，包括：根据对齐的录制音轨和伴奏音轨进行合成处理，所述录制音轨和伴奏音轨通过第一方面的音轨处理方法进行处理得到；基于音轨后处理模式，对合成后的音轨进行后处理。
7.根据本发明实施例的第三方面，提供了一种音轨处理方法，包括：在录制音轨录制到目标录制进度时，启动伴奏音轨的播放，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；通过播放所述伴奏音轨计算所述伴奏音轨的播放延迟，以便在所述录制音轨中移除所述播放延迟和所述目标录制进度，对所述录制音轨和所述伴奏音轨进行音轨对齐。
8.根据本发明实施例的第四方面，提供了一种音轨处理方法，包括：获取伴奏音轨的音频文件和伴奏音轨的音频文件、以及所述伴奏音轨的播放延迟和在启动播放所述伴奏音轨时录制音轨的目标录制进度，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；通过在所述录制音轨中移除所述伴奏音轨的播放延迟和所述目标录制进度对应的部分，进行音轨对齐处理。
9.根据本发明实施例的第五方面，提供了一种音轨处理装置，包括：确定模块，确定伴奏音轨的播放延迟和在启动播放所述伴奏音轨时录制音轨的目标录制进度，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；音轨对齐模块，通过在所述录制音轨中移除所述伴奏音轨的播放延迟和所述目标录制进度对应的部分，对所述录制音轨和所述伴奏音轨进行对齐。
10.根据本发明实施例的第六方面，提供了一种音轨处理装置，包括：音轨合成模块，根据对齐的录制音轨和伴奏音轨进行合成处理，所述录制音轨和伴奏音轨通过第一方面的音轨处理方法进行处理得到；音轨后处理模块，基于音轨后处理模式，对合成后的音轨进行后处理。
11.根据本发明实施例的第七方面，提供了一种音轨处理装置，包括：播放启动模块，在录制音轨录制到目标录制进度时，启动伴奏音轨的播放，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；计算模块，通过播放所述伴奏音轨计算所述伴奏音轨的播放延迟，以便在所述录制音轨中移除所述播放延迟和所述目标录制进度，对所述录制音轨和所述伴奏音轨进行音轨对齐。
12.根据本发明实施例的第八方面，提供了一种音轨处理装置，包括：获取模块，获取伴奏音轨的音频文件和伴奏音轨的音频文件、以及所述伴奏音轨的播放延迟和在启动播放所述伴奏音轨时录制音轨的目标录制进度，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；对齐处理模块，通过在所述录制音轨中移除所述伴奏音轨的播放延迟和所述目标录制进度对应的部分，进行音轨对齐处理。
13.根据本发明实施例的第九方面，提供了一种电子设备，所述设备包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面至第三方面中的任一方面所述的方法对应的操作。
14.根据本发明实施例的第十方面，一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面至第三方面中的任一方面所述的方法。
15.在本发明实施例的方案中，由于在启动播放伴奏音轨时录制音轨具有目标录制进度，因此仅仅通过对录制音轨进行处理即实现了音轨对齐；此外，由于播放延迟和目标录制进度对应的部分反映了录制音轨相比于伴奏音轨多出的部分，因此通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，实现了音轨对齐的精确度，改善了录制效果。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
17.图1a为本发明的一个实施例的音轨处理方法的示意图；
18.图1b为本发明的另一实施例的音轨处理方法的示意图；
19.图2a为本发明的另一实施例的音轨处理方法的示意性流程图；
20.图2b为本发明的另一实施例的音轨处理方法的示意图；
21.图2c为本发明的另一实施例的音轨处理方法的示意图；
22.图2d为本发明的另一实施例的音轨处理方法的示意图；
23.图3为本发明的另一实施例的音轨处理方法的示意图；
24.图4为本发明的另一实施例的音轨处理方法的示意图；
25.图5为本发明的另一实施例的音轨处理方法的示意图；
26.图6a为本发明的另一实施例的音轨处理方法的示意性流程图；
27.图6b为本发明的另一实施例的音轨处理方法的示意性流程图；
28.图6c为本发明的另一实施例的音轨处理方法的示意性流程图；
29.图7为本发明的另一实施例的音轨处理装置的示意性框图；
30.图8为本发明的另一实施例的音轨处理装置的示意性框图；
31.图9a为本发明的另一实施例的音轨处理装置的示意性框图；
32.图9b为本发明的另一实施例的音轨处理装置的示意性框图；
33.图10为本发明的另一实施例的电子设备的硬件结构。
具体实施方式
34.为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。
35.下面结合本发明实施例附图进一步说明本发明实施例具体实现。图1a为本发明的一个实施例的音轨处理方法的录制装置的示意图。图1b为本发明的另一实施例的音轨处理方法的播放装置的示意图。图1a和图1b的录制装置和播放装置可以作为音轨对齐装置的一部分，并且可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设备、智能设备、服务器、移动终端(如手机、pad等)和pc机等。图1a的录制装置包括人机交互界面、输入唤醒模块和采集驱动模块。人机交互界面、输入唤醒模块和采集驱动模块中的每个部分会产生应用层时延、系统层时延以及驱动层时延。图1b的播放装置包括人机交互界面、音频转码模块和输出驱动模块。人机交互界面、音频转码模块和输出驱动模块也会产生应用层时延、系统层时延以及驱动层时延。例如，录制装置启用麦克风录制音频需要访问硬件，从启用录制到真正开始录音写入第一帧数据到文件的时机之间存在第一时延a。播放装置启用伴奏音频播放，从启用到扬声器真正开始播放之间存在第二时延b。
36.在一个示例中，当采用外部扬声器进行伴奏音频(对应于伴奏音轨)的播放时，在录制预览中，将录制音轨和伴奏音轨同时播放，此时录制音轨的音频中包括伴奏音轨的录音。在另一示例中，当采用耳机作为伴奏音频的播放时，将录制音轨和伴奏音轨同时播放，此时录制音轨的音频中不包括伴奏音轨的录音。
37.对应于上述示例，均可以启用麦克风录音的同时立刻启用伴奏音频播放，如果a》b，则用户从听到伴奏响起到a-b这段时间里麦克风实际上尚未开始采集信号，录制完成后，用户预览效果展示为前端部分缺省的音频，而且录制到的声音比伴奏播放的声音快a-b的时长。类似地，如果a《b，预览时用户录制到的声音比伴奏播放的声音慢b-a的时长，从而均产生了录制效果较差的问题。
38.图2a为本发明的另一实施例的音轨处理方法的示意性流程图。图2a的音轨处理方法可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设备、智能设备、服务器、移动终端(如手机、pad等)和pc机等。该音轨处理方法包括：
39.210：确定伴奏音轨的播放延迟和在启动播放伴奏音轨时录制音轨的目标录制进
度，其中，录制音轨用于录制在播放伴奏音轨时的演唱音频。
40.应理解，伴奏音轨和伴奏音轨可以设置在应用程序中，例如，设置在音轨对齐应用程序、录音应用程序、弹唱应用程序、音乐社交类应用程序中等。伴奏音轨和伴奏音轨可以对用户可见，也可以对用户不可见。伴奏音轨和伴奏音轨可以为可编辑音轨，也可以为不可编辑音轨。应用程序可以包括编辑模式、预览模式、上传模式、保存模式等。在预览模式下，可以将对齐的合成音轨向用户展示(例如，以播放的形式)，并且音轨对齐的过程对用户不可见。在上传模式下，可以将对齐的合成音轨上传到平台(例如，服务端)用于分享和播放，并且音轨对齐的过程对用户不可见。在保存模式下，可以将对齐的合成音轨保存到平台(例如，服务端)用于存储，或者，可以保存在本地，并且音轨对齐的过程对用户不可见。在编辑模式下，上述音轨可以对用户可见，并且可以执行手动编辑或自动编辑。伴奏音轨的播放延迟可以由用户初始设定，并且用户可以基于预览结果，对初始设定的播放延迟进行手动调整，直至达到用户期望的音轨对齐效果。基于录制音轨的目标录制进度，也可以用户手动执行伴奏音轨的播放，并且完成播放的触发后，记录目标录制进度，以及相应的时间；或者，基于用户设定的目标目标录制进度，自动触发伴奏音轨的播放，并且记录相应的时间。
41.伴奏音轨的播放延迟可以在本地测得，也可以从其他设备获取。在客户端设备执行该方法时，也可以从服务端获取，例如，向服务端发送播放延迟信息请求，获取与当前设备的硬件配置(例如，各种硬件信息等)和/或软件配置(例如，包括软件版本的软件信息等)对应的播放延迟。此外，在本地测量伴奏音轨的播放延迟，可以通过多次测量取平均值，也可以基于当前测量值对历史测量值进行更新(例如，随着设置的使用，测量值会发生变化)。可以将伴奏音轨的历史播放延迟存储在存储器中，并且从存储器中读取该历史播放延迟，作为当前播放延迟。此外，可以伴奏音轨中的第一播放进度处开始播放，并且记录该播放操作的第一播放时间。到达第二播放进度时，记录第二播放时间。可以计算第二播放时间与第二播放时间之间的时间差，并且计算伴奏音轨中第二播放进度与第一播放进度之间指示的进度时长。可以将该时间差与进度时长作差，得到播放延迟。第一播放时间和第二播放时间可以为通过应用程序获取的系统时间，也可以为外部的时钟测得的时间，例如互联网时间。第一播放进度和第二播放进度可以为应用程序中设置的伴奏音轨中的任意位置。
42.此外，对于在启动播放伴奏音轨时录制音轨的目标录制进度，可以在录制音轨的首帧(第一帧，即，执行录制的时刻)时启动播放伴奏音轨，即，目标录制进度为零进度，换言之，目标录制进度的进度时长为零；也可以在录制音轨的非首帧时启动播放伴奏音轨。
43.此外，在一个示例中，当采用外部扬声器进行伴奏音频(对应于伴奏音轨)的播放时，在录制预览中，将录制音轨和伴奏音轨同时播放，此时录制音轨的音频中包括伴奏音轨和人声音源的录音。
44.在另一示例中，当采用耳机作为伴奏音频的播放时，将录制音轨和伴奏音轨同时播放，此时录制音轨的音频中包括人声音源的录音。
45.220：通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对录制音轨和伴奏音轨进行对齐。
46.应理解，当采用外部扬声器进行伴奏音频的播放时，可以移除伴奏音轨的播放延迟和目标录制进度对应的部分，得到处理后的录制音轨，与伴奏音轨进行对齐；也可以对录音音轨进行音源分离，得到人声音源音轨，并且移除伴奏音轨的播放延迟和目标录制进度
对应的部分，得到处理后的人声音源音轨，与伴奏音轨进行对齐；与可以移除伴奏音轨的播放延迟和目标录制进度对应的部分，得到处理后的录制音轨，对处理后的录制音轨进行音源分离，得到人声音源音轨，与伴奏音轨进行对齐。
47.当采用耳机作为伴奏音频的播放时，可以移除伴奏音轨的播放延迟和目标录制进度对应的部分，得到处理后的录制音轨，与伴奏音轨进行对齐。
48.由于在启动播放伴奏音轨时录制音轨具有目标录制进度，因此仅仅通过对录制音轨进行处理即实现了音轨对齐；此外，由于播放延迟和目标录制进度对应的部分反映了录制音轨相比于伴奏音轨多出的部分，因此通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，实现了音轨对齐的精确度。
49.在一个示例中，该方法还可以包括：基于对齐的录制音轨和伴奏音轨进行音轨合成。例如，录制音轨可以记录播放的伴奏音轨的音频信息和录制的人声信息。可以利用录制音轨和伴奏音轨共用的时间轴，进行音轨合成。例如，可以确定时间轴上的多个时间点在不同音轨中对应的音频帧，得到合成音轨。
50.此外，在进行音轨合成时，处理可以在音轨对齐之后，响应音轨合作指令进行音轨合成之外，也可以响应音轨预览指令、音轨上传指令、音轨保存指令中的任一种，执行音轨对齐操作，并且执行音轨预览操作、音轨上传操作、音轨保存操作等。也可以响应音轨预览指令、音轨上传指令、音轨保存指令中的至少一种，相应依次执行音轨对齐操作，并且执行音轨预览操作、音轨上传操作、音轨保存操作中相应的操作。
51.在另一示例中，可以响应(用户的)录制预览指令，确定伴奏音轨的播放延迟和在启动播放伴奏音轨时录制音轨的目标录制进度；通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对录制音轨和伴奏音轨进行对齐，得到预览合成音轨；展示预览合成音轨。
52.在另一示例中，可以响应(用户的)录制指令，确定伴奏音轨的播放延迟和在启动播放伴奏音轨时录制音轨的目标录制进度；通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对录制音轨和伴奏音轨进行对齐，得到合成音轨；保存合成音轨。
53.在本发明的另一实现方式中，确定伴奏音轨的播放延迟，包括：确定目标播放进度对应的启动时长；根据目标播放进度对应的启动时长与目标播放进度指示的进度时长的差，确定伴奏音轨的播放延迟。
54.由于根据目标播放进度对应的启动时长与目标播放进度指示的进度时长的差，确定伴奏音轨的播放延迟，因此提高了确定播放延迟的准确度。此外，无需复杂的算法或代码的侵入即实现了该确定过程。此外，还解决了对不同设备的差异而导致的播放延迟的差异的判定难度。
55.在本发明的另一实现方式中，确定目标播放进度对应的启动时长，包括：确定在启动播放伴奏音轨的第一时间以及目标播放进度对应的第二时间；基于第二时间与第一时间之间的时间差，计算目标播放进度对应的启动时长。
56.由于基于第二时间与第一时间之间的时间差，计算目标播放进度对应的启动时长，因此提高了确定启动时长的准确度。此外，无需复杂的算法或代码的侵入即实现了该确定过程。此外，还解决了对不同设备的差异而导致的启动时长的差异的判定难度。
57.在本发明的另一实现方式中，通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对录制音轨和伴奏音轨进行对齐，包括：计算伴奏音轨的播放延迟的延迟时长与目标录制进度对应的进度时长之间的和；在录制音轨的起始端，移除延迟时长与进度时长的和对应的部分，对录制音轨和伴奏音轨进行对齐。
58.由于在录制音轨的起始端，移除延迟时长与进度时长的和对应的部分，对录制音轨和伴奏音轨进行对齐，即提高了数据处理的效率，又提高了音轨对齐过程的准确度。
59.在本发明的另一实现方式中，方法还包括：在音轨编辑界面中，展示录制音轨和伴奏音轨，其中，通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对录制音轨和伴奏音轨进行对齐，包括：响应音轨编辑界面中的音轨对齐指令，在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分的操作；在音轨编辑界面中，展示对齐后的录制音轨和伴奏音轨。
60.由于用户可以音轨编辑界面中对音轨进行编辑，因此提高了音轨的可操作性。
61.在一个示例中，在音轨编辑界面中，用户可以对音轨进行移动操作、点击操作等，例如，用户可以对录制音轨或伴奏音轨进行移动，当录制音轨或伴奏音轨符合对齐关系时，展示该对齐关系(例如，通过虚线展示)。用户可以基于该对齐关系进行音轨剪裁操作。可以通过伴奏音轨的播放延迟和目标录制进度对应的部分与当前音轨相对位置，确定该对齐关系。例如，如果当前音轨相对位置符合伴奏音轨的播放延迟和目标录制进度对应的部分(例如，播放延迟的延迟时长与指示目标录制进度的时长的和)，则触发该对齐关系的展示。
62.图2b为本发明的另一实施例的音轨处理方法的示意图。在本示例中，对各个步骤的描述都是示例性的，在其他示例中，可以包括更多或更少的步骤，各个步骤之间的顺序也可以变化。在本示例中，在步骤211中，用户触发录制音频预览指令、或者录制音频保存指令、或者录制音频上传指令中的任一者，发送到客户端设备。
63.在步骤212中，客户端设备响应上述指令之一，进行音轨对齐。例如，可以响应上述的指令，相应地进入录制音频预览模式、或者录制音频保存模式、或者录制音频模式，并且进行音轨对齐。
64.在步骤213中，客户端设备基于音轨对齐的结果，合成音轨。
65.在步骤214中，客户端设备向用户展示合成音轨的对应于上述指令的处理结果。
66.图2c为本发明的另一实施例的音轨处理方法的示意图。在本示例中，对各个步骤的描述都是示例性的，在其他示例中，可以包括更多或更少的步骤，各个步骤之间的顺序也可以变化。如图所示，在步骤221中，用户触发录制音频预览指令、或者录制音频保存指令、或者录制音频上传指令中的任一者，发送到客户端设备。
67.在步骤222中，客户端设备响应上述指令之一，进行音轨对齐。例如，可以响应上述的指令，相应地进入录制音频预览模式、或者录制音频保存模式、或者录制音频模式，并且进行音轨对齐。
68.在步骤223中，客户端设备向服务端设备发送包括录制音轨的音源分离请求。
69.在步骤224中，服务端设备向客户端设备返回人声音源音轨。
70.在步骤225中，客户端设备基于音轨对齐的结果，合成音轨。
71.在步骤226中，客户端设备向用户展示合成音轨的对应于上述指令的处理结果。例如，在上传模式下，可以将对齐的合成音轨上传到平台服务端(可以与本示例中的用于音源
分离的服务端为相同的服务端，也可以与本示例的服务端为不同的服务端)用于分享和播放，并且平台服务端可以将上传的结果返回到客户端设备，以向用户展示或通知。类似地，将对齐的合成音轨上传到平台服务端进行保存的保存模式下，平台服务端可以将保存的结果返回到客户端设备，以向用户展示或通知。
72.图2d为本发明的另一实施例的音轨处理方法的示意图。在本示例中，对各个步骤的描述都是示例性的，在其他示例中，可以包括更多或更少的步骤，各个步骤之间的顺序也可以变化。如图所示，在步骤211中，用户触发录制音频预览指令、或者录制音频保存指令、或者录制音频上传指令中的任一者，发送到客户端设备。
73.在步骤232中，客户端设备响应上述指令之一，发送包括录制音轨的音源分离请求。例如，可以响应上述的指令，相应地进入录制音频预览模式、或者录制音频保存模式、或者录制音频模式，并且发送包括录制音轨的音源分离请求。
74.在步骤233中，服务端设备向客户端设备返回人声音源音轨。
75.在步骤234中，服务端设备对人声音源音轨和伴奏音轨进行音轨对齐。
76.在步骤235中，客户端设备基于音轨对齐的结果，合成音轨。
77.在步骤236中，客户端设备向用户展示合成音轨的对应于上述指令的处理结果。例如，在上传模式下，可以将对齐的合成音轨上传到平台服务端(可以与本示例中的用于音源分离的服务端为相同的服务端，也可以与本示例的服务端为不同的服务端)用于分享和播放，并且平台服务端可以将上传的结果返回到客户端设备，以向用户展示或通知。类似地，将对齐的合成音轨上传到平台服务端进行保存的保存模式下，平台服务端可以将保存的结果返回到客户端设备，以向用户展示或通知。
78.图3为本发明的另一实施例的音轨处理方法的示意图。在如图所示的坐标系中，横轴表示时间，纵轴表示不同的音轨。上方为录制音轨，下方为伴奏音轨。p1为录制音轨的目标录制进度，目标录制进度对应的时间点为t1。p2为伴奏音轨的目标播放进度，目标播放进度对应的时间点为t2。
79.图4为本发明的另一实施例的音轨处理方法的示意图。在如图所示的坐标系中，横轴表示时间，纵轴表示不同的音轨。上方为录制音轨，下方为伴奏音轨。p1为录制音轨的目标录制进度，目标录制进度对应的时间点为t1。p2为伴奏音轨的目标播放进度，目标播放进度对应的时间点为t2。此外，在本示例中，在录制到目标播放进度时，启动伴奏音轨的播放。从而，阴影部分对应的时长为自录制音轨的起点t2-t1-p2+p1。
80.图5为本发明的另一实施例的音轨处理方法的示意图。在如图所示的坐标系中，横轴表示时间，纵轴表示不同的音轨。上方为录制音轨，下方为伴奏音轨。p1为录制音轨的目标录制进度，开始录制(录制首帧)时对应的时间点为t1。p2为伴奏音轨的目标播放进度，目标播放进度对应的时间点为t2。此外，在本示例中，在开始录制时，启动伴奏音轨的播放。从而，阴影部分对应的时长为自录制音轨的起点t2-t1-p2。
81.图6a为本发明的另一实施例的音轨处理方法的示意性流程图。图6a的音轨处理方法可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设备、智能设备、服务器、移动终端(如手机、pad等)和pc机等。该音轨处理方法包括：
82.610：根据对齐的录制音轨和伴奏音轨进行合成处理。
83.620：基于音轨后处理模式，对合成后的音轨进行后处理。
84.其中，录制音轨和伴奏音轨可以通过图2a的音轨处理方法进行处理得到。
85.在本发明的另一实现方式中，所述根据对齐的录制音轨和伴奏音轨进行合成处理，包括：在展示播放对象的同时，对所述录制音轨和所述伴奏音轨进行合成，得到合成音轨，其中，所述基于音轨后处理模式，对合成后的音轨进行后处理，包括：响应所述录制音轨和所述伴奏音轨的完成，结束所述播放对象的展示，并且以合成音轨预览模式，开始对所述合成音轨进行展示。
86.由于在进行音轨对齐时展示了播放对象，并且在得到所述预览合成音轨时，结束所述播放对象的展示，并且对所述预览合成音轨进行展示，从而有利用用户对音轨对齐处理的无感知，提高了预览的用户体验。
87.在一个示例中，播放对象可以为用户设置的多媒体对象，例如，图片对象、文字对象、音频对象或视频对象等。
88.在另一示例中，播放对象可以为对用户演唱的音频进行打分效果的呈现，例如，响应用户预览的指令，生成包括打分信息的界面，并且呈现(切换到)该包括打分信息的界面。响应对该界面的切换操作，进行音轨的对齐，当完成预览合成音频的生成时，从打分信息界面切换到预览界面。由于响应对该界面的切换操作，进行音轨的对齐，因此使打分信息界面的生成与音轨对齐和合成操作异步进行，减小了设备的处理负荷。此外，上述操作还提高了用户体验的流畅性。
89.或者，响应用户预览的指令，对音轨进行对齐并且生成打分信息界面，从打分信息界面切换到预览界面。由于响应用户预览的指令，对音轨进行对齐并且生成打分信息界面，因此实现了音轨对齐和打分信息界面生成的并行处理，提高了处理效率。此外，上述操作还提高了用户体验的流畅性。
90.此外，在进行音轨合成时，处理可以在音轨对齐之后，响应音轨合作指令进行音轨合成之外，也可以响应音轨预览指令、音轨上传指令、音轨保存指令中的任一种，执行音轨对齐操作，并且执行音轨预览操作、音轨上传操作、音轨保存操作等。也可以响应音轨预览指令、音轨上传指令、音轨保存指令中的至少一种，相应依次执行音轨对齐操作，并且执行音轨预览操作、音轨上传操作、音轨保存操作中相应的操作。
91.在另一示例中，可以响应用户录制预览指令，确定伴奏音轨的播放延迟和在启动播放伴奏音轨时录制音轨的目标录制进度；通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对录制音轨和伴奏音轨进行对齐，得到预览合成音轨；展示预览合成音轨。
92.在另一示例中，可以响应用户录制指令，确定伴奏音轨的播放延迟和在启动播放伴奏音轨时录制音轨的目标录制进度；通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对录制音轨和伴奏音轨进行对齐，得到合成音轨；保存合成音轨。
93.图6b为本发明的另一实施例的音轨处理方法的示意性流程图。图6b的音轨处理方法可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设备、智能设备、服务器、移动终端(如手机、pad等)和pc机等。该音轨处理方法包括：
94.630：在录制音轨录制到目标录制进度时，启动伴奏音轨的播放，其中，录制音轨用于录制在播放伴奏音轨时的演唱音频。
95.640：通过播放伴奏音轨计算伴奏音轨的播放延迟，以便在录制音轨中移除播放延
迟和目标录制进度，对录制音轨和伴奏音轨进行音轨对齐。
96.由于在启动播放伴奏音轨时录制音轨具有目标录制进度，因此仅仅通过对录制音轨进行处理即实现了音轨对齐；此外，由于播放延迟和目标录制进度对应的部分反映了录制音轨相比于伴奏音轨多出的部分，因此通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，实现了音轨对齐的精确度。
97.在本发明的另一实现方式中，在录制音轨录制到目标录制进度时，启动伴奏音轨的播放，包括：确定录制音轨录制到目标录制进度的第一时间；在第一时间，启动伴奏音轨的播放。
98.由于录制音轨录制到目标录制进度的第一时间较为准确，因此在第一时间，启动伴奏音轨的播放，并且通过播放伴奏音轨计算伴奏音轨的播放延迟，能够确定播放延迟的准确度。
99.在本发明的另一实现方式中，在录制音轨录制到目标录制进度时，启动伴奏音轨的播放，包括：在录制音轨中录制到第一帧时，启动伴奏音轨的播放。
100.由于在录制音轨中录制到第一帧时，启动伴奏音轨的播放，因此在仅仅通过对录制音轨进行处理实现了音轨对齐的情况下，能够减少录制音轨剪裁的长度，并且能够进一步减小在音轨预览中用户的等待时间。
101.在本发明的另一实现方式中，通过播放伴奏音轨计算伴奏音轨的播放延迟，包括：确定伴奏音轨的目标播放进度的第二时间；基于第二时间和第一时间之间的时间差以及目标播放进度的进度时长，计算伴奏音轨的播放延迟。
102.由于基于第二时间与第一时间之间的时间差，计算目标播放进度对应的启动时长，因此提高了确定启动时长的准确度。此外，无需复杂的算法或代码的侵入即实现了该确定过程。此外，还解决了对不同设备的差异而导致的启动时长的差异的判定难度。
103.图6c为本发明的另一实施例的音轨处理方法的示意性流程图。图6c的音轨处理装置可以适用于应用服务器、诸如公有云、私有云、专有云或混合云的云服务器等。该音轨处理装置包括：
104.650：获取伴奏音轨的音频文件和伴奏音轨的音频文件、以及伴奏音轨的播放延迟和在启动播放伴奏音轨时录制音轨的目标录制进度，其中，录制音轨用于录制在播放伴奏音轨时的演唱音频。
105.660：通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，进行音轨对齐处理。
106.在本发明的另一实现方式中，伴奏音轨的播放延迟通过伴奏音轨中的第二声纹信息得到，并且在启动播放伴奏音轨时录制音轨的目标录制进度通过录制音轨的第一声纹信息得到。
107.在本发明的另一实现方式中，该方法还包括：对录制音轨中的第一声纹信息进行修音处理，得到修音后的录制音轨，其中，通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，进行音轨对齐处理，包括：通过在修音处理后的录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对齐修音处理后的录制音轨和伴奏音轨。
108.在一个示例中，对录制音轨中的第一声纹信息进行修音处理，包括：对录制音轨中的第一声纹信息进行降噪处理，得到降噪后的录制音轨。
109.在另一示例中，对录制音轨中的第一声纹信息进行修音处理，包括：对录制音轨中的第一声纹信息进行均衡处理，得到均衡处理后的录制音轨。
110.在另一示例中，对录制音轨中的第一声纹信息进行修音处理，包括：对录制音轨中的第一声纹信息进行压缩处理，得到压缩后的录制音轨。
111.在另一示例中，对录制音轨中的第一声纹信息进行修音处理，包括：对录制音轨中的第一声纹信息进行混响处理，得到混响处理后的录制音轨。
112.应理解，对齐后的音轨可以进行上述的降噪处理、均衡处理、压缩处理和混响处理中的至少一种。上述的各种处理可以为并行处理，也可以为串行处理。对于串行处理，上述各种处理的次序可以为任意的。
113.在本发明的另一实现方式中，对录制音轨中的第一声纹信息进行修音处理，得到修音后的录制音轨，包括：对录制音轨中的第一声纹信息进行音源分离，得到人声音源音轨，其中，通过在修音处理后的录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对齐修音处理后的录制音轨和伴奏音轨，包括：通过在人声音源音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对齐人声音源音轨和伴奏音轨。
114.图7为本发明的另一实施例的音轨处理装置的示意性框图。图7的音轨处理装置可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设备、智能设备、服务器、移动终端(如手机、pad等)和pc机等。该音轨处理装置包括：
115.确定模块710，确定伴奏音轨的播放延迟和在启动播放伴奏音轨时录制音轨的目标录制进度，其中，录制音轨用于录制在播放伴奏音轨时的演唱音频。
116.音轨对齐模块720，通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对录制音轨和伴奏音轨进行对齐。
117.由于在启动播放伴奏音轨时录制音轨具有目标录制进度，因此仅仅通过对录制音轨进行处理即实现了音轨对齐；此外，由于播放延迟和目标录制进度对应的部分反映了录制音轨相比于伴奏音轨多出的部分，因此通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，实现了音轨对齐的精确度。
118.在本发明的另一实现方式中，确定模块具体用于：确定目标播放进度对应的启动时长；根据目标播放进度对应的启动时长与目标播放进度指示的进度时长的差，确定伴奏音轨的播放延迟。
119.在本发明的另一实现方式中，确定模块具体用于：确定在启动播放伴奏音轨的第一时间以及目标播放进度对应的第二时间；基于第二时间与第一时间之间的时间差，计算目标播放进度对应的启动时长。
120.在本发明的另一实现方式中，音轨对齐模块具体用于：计算伴奏音轨的播放延迟的延迟时长与目标录制进度对应的进度时长之间的和；在录制音轨的起始端，移除延迟时长与进度时长的和对应的部分，对录制音轨和伴奏音轨进行对齐。
121.本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
122.图8为本发明的另一实施例的音轨处理装置的示意性框图。图8的音轨处理装置可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设
备、智能设备、服务器、移动终端(如手机、pad等)和pc机等。该音轨处理装置包括：
123.音轨合成模块810，根据对齐的录制音轨和伴奏音轨进行合成处理。
124.音轨后处理模块820，基于音轨后处理模式，对合成后的音轨进行后处理。
125.其中，录制音轨和伴奏音轨可以通过图2a的音轨处理方法进行处理得到。
126.在本发明的另一实现方式中，音轨合成模块具体用于：在展示播放对象的同时，对所述录制音轨和所述伴奏音轨进行合成，得到合成音轨，其中，音轨后处理模块具体用于：响应所述录制音轨和所述伴奏音轨的完成，结束所述播放对象的展示，并且以合成音轨预览模式，开始对所述合成音轨进行展示。
127.本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
128.图9a为本发明的另一实施例的音轨处理装置的示意性框图。图9a的音轨处理装置可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设备、智能设备、服务器、移动终端(如手机、pad等)和pc机等。该音轨处理装置包括：
129.播放启动模块910，在录制音轨录制到目标录制进度时，启动伴奏音轨的播放，其中，录制音轨用于录制在播放伴奏音轨时的演唱音频。
130.计算模块920，通过播放伴奏音轨计算伴奏音轨的播放延迟，以便在录制音轨中移除播放延迟和目标录制进度，对录制音轨和伴奏音轨进行音轨对齐。
131.由于在启动播放伴奏音轨时录制音轨具有目标录制进度，因此仅仅通过对录制音轨进行处理即实现了音轨对齐；此外，由于播放延迟和目标录制进度对应的部分反映了录制音轨相比于伴奏音轨多出的部分，因此通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，实现了音轨对齐的精确度。
132.在本发明的另一实现方式中，播放启动模块具体用于：确定录制音轨录制到目标录制进度的第一时间；在第一时间，启动伴奏音轨的播放。
133.在本发明的另一实现方式中，播放启动模块具体用于：在录制音轨中录制到第一帧时，启动伴奏音轨的播放。
134.在本发明的另一实现方式中，计算模块具体用于：确定伴奏音轨的目标播放进度的第二时间；基于第二时间和第一时间之间的时间差以及目标播放进度的进度时长，计算伴奏音轨的播放延迟。
135.本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
136.图9b为本发明的另一实施例的音轨处理装置的示意性框图。图9b的音轨处理装置可以适用于应用服务器、诸如公有云、私有云、专有云或混合云的云服务器等。该音轨处理装置包括：
137.获取模块930，获取伴奏音轨的音频文件和伴奏音轨的音频文件、以及伴奏音轨的播放延迟和在启动播放伴奏音轨时录制音轨的目标录制进度，其中，录制音轨用于录制在播放伴奏音轨时的演唱音频；
138.对齐处理模块940，通过在录制音轨中移除伴奏音轨的播放延迟和目标录制进度
对应的部分，进行音轨对齐处理。
139.在本发明的另一实现方式中，伴奏音轨的播放延迟通过伴奏音轨中的第二声纹信息得到，并且在启动播放伴奏音轨时录制音轨的目标录制进度通过录制音轨的第一声纹信息得到。
140.在本发明的另一实现方式中，该装置还包括：修音模块，对录制音轨中的第一声纹信息进行修音处理，得到修音后的录制音轨，其中，对齐处理模块具体用于：通过在修音处理后的录制音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对齐修音处理后的录制音轨和伴奏音轨。
141.在本发明的另一实现方式中，修音模块具体用于：对录制音轨中的第一声纹信息进行音源分离，得到人声音源音轨，其中，对齐处理模块具体用于：通过在人声音源音轨中移除伴奏音轨的播放延迟和目标录制进度对应的部分，对齐人声音源音轨和伴奏音轨。
142.本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
143.图10为本发明的另一实施例的电子设备的硬件结构；如图10所示，该电子设备的硬件结构可以包括：处理器1001，通信接口1002，存储介质1003和通信总线1004；
144.其中处理器1001、通信接口1002、存储介质1003通过通信总线1004完成相互间的通信；
145.可选地，通信接口1002可以为通信模块的接口；
146.其中，处理器1001具体可以配置为：确定伴奏音轨的播放延迟和在启动播放所述伴奏音轨时录制音轨的目标录制进度，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；通过在所述录制音轨中移除所述伴奏音轨的播放延迟和所述目标录制进度对应的部分，对所述录制音轨和所述伴奏音轨进行对齐；
147.或者，根据对齐的录制音轨和伴奏音轨进行合成处理，所述录制音轨和伴奏音轨通过上述的音轨处理方法进行处理得到；基于音轨后处理模式，对合成后的音轨进行后处理；
148.或者，获取伴奏音轨的音频文件和伴奏音轨的音频文件、以及所述伴奏音轨的播放延迟和在启动播放所述伴奏音轨时录制音轨的目标录制进度，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；通过在所述录制音轨中移除所述伴奏音轨的播放延迟和所述目标录制进度对应的部分，进行音轨对齐处理；
149.或者，在录制音轨录制到目标录制进度时，启动伴奏音轨的播放，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；通过播放所述伴奏音轨计算所述伴奏音轨的播放延迟，以便在所述录制音轨中移除所述播放延迟和所述目标录制进度，对所述录制音轨和所述伴奏音轨进行音轨对齐。
150.处理器1001可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
151.存储介质1003可以是，但不限于，随机存取存储介质(random access memory，ram)，只读存储介质(read only memory，rom)，可编程只读存储介质(programmable read-only memory，prom)，可擦除只读存储介质(erasable programmable read-only memory，eprom)，电可擦除只读存储介质(electric erasable programmable read-only memory，eeprom)等。
152.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在存储介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时，执行本发明的方法中限定的上述功能。需要说明的是，本发明所述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。存储介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(ram)、只读存储介质(rom)、可擦式可编程只读存储介质(eprom或闪存)、光纤、便携式紧凑磁盘只读存储介质(cd-rom)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何存储介质，该存储介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
153.可以以一种或多种程序设计语言或其组合来编写配置为执行本发明的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
154.附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺
序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
155.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。这些模块的名称在某种情况下并不构成对该模块本身的限定。
156.作为另一方面，本发明还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所描述的方法。
157.作为另一方面，本发明还提供了一种存储介质，该存储介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述存储介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：确定伴奏音轨的播放延迟和在启动播放所述伴奏音轨时录制音轨的目标录制进度，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；通过在所述录制音轨中移除所述伴奏音轨的播放延迟和所述目标录制进度对应的部分，对所述录制音轨和所述伴奏音轨进行对齐；
158.或者，根据对齐的录制音轨和伴奏音轨进行合成处理，所述录制音轨和伴奏音轨通过上述的音轨处理方法进行处理得到；基于音轨后处理模式，对合成后的音轨进行后处理；
159.或者，获取伴奏音轨的音频文件和伴奏音轨的音频文件、以及所述伴奏音轨的播放延迟和在启动播放所述伴奏音轨时录制音轨的目标录制进度，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；通过在所述录制音轨中移除所述伴奏音轨的播放延迟和所述目标录制进度对应的部分，进行音轨对齐处理；
160.或者，在录制音轨录制到目标录制进度时，启动伴奏音轨的播放，其中，所述录制音轨用于录制在播放所述伴奏音轨时的演唱音频；通过播放所述伴奏音轨计算所述伴奏音轨的播放延迟，以便在所述录制音轨中移除所述播放延迟和所述目标录制进度，对所述录制音轨和所述伴奏音轨进行音轨对齐。
161.在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可称作第二元件，类似地，第二元件可称作第一元件。
162.当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)插入在这两者之间。
163.以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功
能的技术特征进行互相替换而形成的技术方案。