音频处理、模型训练方法、装置、电子设备和存储介质与流程

1.本发明实施例涉及计算机技术领域，尤其涉及一种音频处理、模型训练方法、装置、电子设备和存储介质。

背景技术：

2.手机弹唱作为一种新兴起的娱乐方式。通常，在手机弹唱软件上，根据歌曲的片段旋律收敛至有限几个和弦音，以琴键的形式进行展示，用户单击则进行该和弦的发声，从而用户可以边唱边配合点击和弦音进行伴奏，完成录音合成。
3.但是，合成的录音在回放时用户往往感到不理想，从而减小了创作期望。

技术实现要素：

4.有鉴于此，本发明实施例提供一种音频处理、模型训练方法、装置、电子设备和存储介质，以解决或缓解上述问题。
5.根据本发明实施例的第一方面，提供了一种音频处理方法，包括：获取演唱采集音频和弹奏操作时间信息，所述演唱采集音频在对弹奏和弦进行播放时相应地进行采集，所述弹奏操作时间信息在对所述弹奏和弦进行弹奏时被记录；至少基于所述弹奏操作时间信息，对所述弹奏和弦和所述演唱采集音频进行叠加处理。
6.根据本发明实施例的第二方面，提供了一种音频处理方法，包括：在对弹奏和弦进行播放时，相应地采集演唱采集音频，并且记录所述弹奏和弦的弹奏操作时间信息；至少基于所述弹奏操作时间信息，对所述弹奏和弦和所述演唱采集音频进行叠加处理。
7.根据本发明实施例的第三方面，提供了一种模型训练方法，包括：获取训练样本，所述训练样本包括分别采集的人声音源音频、弹奏音源音频以及与所述人声音源音频和所述弹奏音源音频对应的叠加音频；基于至少一种音频特征，对所述人声音源音频、所述弹奏音源音频以及所述叠加音频，进行特征提取，得到特征提取后的人声音源音频数据、弹奏音源音频数据以及叠加音频数据；分别以所述特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督训练，得到音源分离模型。
8.根据本发明实施例的第四方面，提供了一种音频处理装置，包括：获取模块，获取演唱采集音频和弹奏操作时间信息，所述演唱采集音频在对弹奏和弦进行播放时相应地进行采集，所述弹奏操作时间信息在对所述弹奏和弦进行弹奏时被记录；处理模块，至少基于所述弹奏操作时间信息，对所述弹奏和弦和所述演唱采集音频进行叠加处理。
9.根据本发明实施例的第五方面，提供了一种音频处理装置，包括：采集模块，在对弹奏和弦进行播放时，相应地采集演唱采集音频，并且采集所述弹奏和弦的弹奏操作时间信息；处理模块，至少基于所述弹奏操作时间信息，对所述弹奏和弦和所述演唱采集音频进行叠加处理。
10.根据本发明实施例的第六方面，提供了一种模型训练装置，包括：样本获取模块，
获取训练样本，所述训练样本包括分别采集的人声音源音频、弹奏音源音频以及与所述人声音源音频和所述弹奏音源音频对应的叠加音频；特征提取模块，基于至少一种音频特征，对所述人声音源音频、所述弹奏音源音频以及所述叠加音频，进行特征提取，得到特征提取后的人声音源音频数据、弹奏音源音频数据以及叠加音频数据；模块训练模块，分别以所述特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督训练，得到音源分离模型。
11.根据本发明实施例的第七方面，提供了一种电子设备，所述设备包括：一个或多个处理器；存储介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面至第三方面中的任一方面所述的方法。
12.根据本发明实施例的第八方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面至第三方面中的任一方面所述的方法。
13.在本发明实施例的方案中，弹奏操作时间信息在对所述弹奏和弦进行弹奏时被记录，因此基于弹奏操作时间信息，对所述弹奏和弦和演唱采集音频进行叠加处理，使得处理后的音频消除了由于各种原因产生的弹奏和弦与演唱时的人声之间的节奏不一致。此外，由于叠加处理中采用了弹奏和弦，而非在播放时的弹奏和弦采集音频，从而叠加后音频极大地提升了音质。
附图说明
14.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
15.图1a为本发明的一个实施例的音频处理方法和装置所适用的网络架构的示意图；
16.图1b为本发明的另一实施例的音频采集装置的一个示例的界面图的示意图；
17.图1c为本发明的另一实施例的音频采集装置的示意图；
18.图2a为本发明的另一实施例的音频处理方法的示意性流程图；
19.图2b为本发明的另一实施例的音频处理方法的示意图；
20.图3为本发明的另一实施例的音频处理方法的示意性流程图；
21.图4a为本发明的另一实施例的音频处理方法的示意图；
22.图4b为本发明的另一实施例的音频处理方法的示意图；
23.图5a为本发明的另一实施例的模型训练方法的示意性流程图；
24.图5b为本发明的另一实施例的模型训练方法的示意图；
25.图6为本发明的另一实施例的音频处理装置的示意性框图；
26.图7为本发明的另一实施例的音频处理装置的示意性框图；
27.图8为本发明的另一实施例的模型训练装置的示意性框图；
28.图9为本发明的另一实施例的电子设备的示意性结构图；
29.图10为本发明的另一实施例的电子设备的硬件结构。
具体实施方式
30.为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。
31.下面结合本发明实施例附图进一步说明本发明实施例具体实现。图1a为本发明的一个实施例的音频处理方法和装置所适用的网络架构的示意图。该网络架构包括通过网络110彼此连接的诸如弹唱应用程序或具有弹唱功能的客户端120和服务端系统160。服务端系统160可以为应用服务端和/或资源服务端。应理解，图1a所示的网络架构可以适用于本发明实施例的所有的示例。但是，该网络架构是为了便于理解本发明实施例的方案的目的，而不应当理解为对本发明实施例的应用场景、交互方式以及各种通信关系构成了限定。
32.本发明实施例考虑了任何合适的网络110。作为示例而非限制的方式，网络110的一个或多个部分可以包括自组织网络、内联网、外联网、虚拟专用网络(vpn)、局域网(lan)、无线lan(wlan)、广域网(wan)、无线wan(wwan)、城域网(man)、因特网的一部分、公共交换电话网络(pstn)的一部分、蜂窝电话网络、或这些中的两项或更多项的组合。网络110可以包括一个或多个网络110。
33.网络通信链路150可将客户端120和服务端系统160连接到通信网络110或彼此连接。本发明实施例考虑了任何合适的网络通信链路150。在一个具体的实现方式中，一个或多个网络通信链路150包括一个或多个有线线路(例如数字用户线路(dsl)或有线数据服务接口规范(docsis)、无线(例如wi-fi或微波接入全球互操作性(wimax))或光(例如同步光网络(sonet)或同步数字分层结构(sdh))链路。在一个具体的实现方式中，一个或多个网络通信链路150各自包括自组织网络、内联网、外联网、vpn、lan、wlan、wan、wwan、man、因特网的一部分、pstn的一部分、基于蜂窝技术的网络、基于卫星通信技术的网络、另一网络通信链路150或两项或更多项这样的网络通信链路150的组合。网络通信链路150不一定在整个网络架构中是相同的。一个或多个第一网络通信链路150可以在一个或多个方面不同于一个或多个第二网络通信链路150。
34.在一个具体的实现方式中，服务端系统160可以是可承载在线弹唱、模型训练、模型推理或音频处理的服务系统。服务端系统160可以生成、存储、接收和发送音频数据。服务端系统160可由网络架构的其他组件直接访问或经由网络110访问。作为示例而非限制的方式，在客户端120中，用户可以通过本地应用程序中的弹唱用于界面122或弹唱采集模块123进行操作，或者弹唱用于界面122或弹唱采集模块123的数据或操作指令可以直接或经由网络110访问服务端系统160。在一个具体的实现方式中，服务端系统160可包括一个或多个弹唱服务器162。每个弹唱服务器162可以是单一服务器或跨越多个计算机或多个数据中心的分布式服务器。弹唱服务器162可以与其他服务器组合实现各种服务，其他服务器包括但不限于，网络服务器、新闻服务器、邮件服务器、消息服务器、广告服务器、文件服务器、应用服务器、交换服务器、数据库服务器或代理服务器。在一个具体的实现方式中，每个弹唱服务器162可包括硬件、软件或嵌入式逻辑组件或两个或更多个这样的组件的组合，以用于执行由弹唱服务器162实现或支持的适当功能。在一个具体的实现方式中，服务端系统160可包括一个或多个音频存储器164。音频存储器164可用于存储各种类型的信息。在一个具体的
实现方式中，存储在音频存储器164中的信息可根据特定数据结构来组织。在一个具体的实现方式中，每个音频存储器164可以是关系数据库、列数据库、相关数据库或其他合适的数据库。尽管本发明实施例描述或示出了特定类型的数据库，但是本发明实施例考虑了任何合适类型的数据库。一个具体的实现方式可提供使客户端120或服务端系统160能够管理、检索、修改、添加或删除存储在音频存储器164中的信息的界面。
35.在一个具体的实现方式中，客户端120可以是包括硬件、软件或嵌入式逻辑组件或两个或更多个这样的组件的组合的电子设备，并且能够执行由客户端120实现或支持的适当功能。作为示例而非限制的方式，客户端120可以包括计算机系统，诸如台式计算机、笔记本或膝上型计算机、上网本、平板计算机、gps设备、照相机、个人数字助理(pda)、手持电子设备、蜂窝电话、智能电话、其他合适的电子设备或其任何合适的组合。本发明实施例考虑了任何合适的客户端120。客户端120可使客户端120处的网络用户能够访问网络110。客户端120可使其用户能够与其他客户端120处的其他用户通信。
36.在一个具体的实现方式中，服务端系统160可以将多个音频对象或多个视频对象存储在一个或多个音频存储器164中。在一个具体的实现方式中，服务端系统160可向用户提供对服务端系统160支持的各种类型的服务或对象采取操作的能力。
37.图1b为本发明的另一实施例的音频采集装置的一个示例的界面图的示意图。图1c为本发明的另一实施例的音频采集装置的示意图。图1b和图1c的音频采集装置可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设备、智能设备、服务器、移动终端(如手机、pad等)和pc机等。如图1b所示，用户可以在音频采集装置的显示界面上弹奏具有特定和弦标识的和弦弹奏控件，应理解，图1b所示出的和弦弹奏控件仅仅为是示例性的，和弦弹奏控件也可以为上一和弦/下一和弦的控件。如图1c所示，和弦弹奏控件可以配置在人机交互模块中，人机交互模块可以包括显示屏、触控屏等硬件模块和/或用户界面等软件模块。人机交互模块接收用户的触控而播放相应的音频(例如，伴奏音频)，并且音频输出模块输出该音频，同时用户可以基于该音频进行演唱，在一个示例中，采用扬声器播放伴奏音频时，演唱音频可以通过音频采集模块进行采集；在另一示例中，采用耳机播放伴奏音频时，清唱音频可以通过音频采集模块进行采集，伴奏音频可以通过音频输出模块与音频采集模块的耦合连接进行采集。应理解，从人机交互模块接收到触控指令到音频输出模块输出会产生延迟，对音频输出模块输出的伴奏音频的采集以及对演唱音频(或者清唱音频)的采集可以近似认为是延迟相同，从而对于最终记录的音频而言，会产生伴奏音频与演唱音频(清唱音频)的不同步现象。
38.图2a为本发明的另一实施例的音频处理方法的示意性流程图。图2a的音频处理方法可以适用于应用服务端或者具有应用服务能力的资源服务端。上述服务端可以为诸如公有云、私有云、专有云或混合云的云服务端，也可以适用于具有服务能力的其他终端设备，该方法包括：
39.210：获取演唱采集音频和弹奏操作时间信息，演唱采集音频在对弹奏和弦进行播放时相应地进行采集，弹奏操作时间信息在对弹奏和弦进行弹奏时被记录。
40.应理解，文中的弹奏和弦可以为曲目的弹奏和弦。演唱采集音频可以为客户端设备通过外放扬声器采集的叠加音源音频。也可以为客户端设备通过耳机采集的人声音频。也可以为客户端设备对通过耳机采集的人声音频与内录播放的弹奏和弦进行叠加的叠加
音源音频。文中的弹奏和弦可以一个或多个和弦，例如，可以为弹奏和弦序列(未播放的弹奏和弦序列)。文中的弹奏和弦为弹奏和弦数据或弹奏和弦音频，例如，弹奏和弦的原始音频或者与弹奏和弦相关的特征数据(例如，采用该特征数据可以恢复或生成弹奏和弦)，而并非采集到的弹奏和弦音频。弹奏和弦可以存储在客户端设备中，也可以存储在资源服务端或应用服务端的服务端设备处，例如，存储在服务端的数据库中。此外，可以在客户端设备存储弹奏和弦的资源访问信息，客户端设备在用户进行弹奏时或者在弹奏之前，基于资源访问信息，从资源服务端下载弹奏和弦的信息。上述的弹奏和弦可以以单个和弦数据的方式存储或下载，也可以以对应于目标曲目的和弦数据包的方式存储或下载。此外，客户端设备在用户进行弹奏时，可以基于资源访问信息，从资源服务端经由诸如基于实时传输协议(real-time transport protocol，rtp)或超文本传输协议(hyper text transfer protocol,http)等的流媒体传输下载弹奏和弦的信息，以节省本地的存储空间。
41.此外，弹奏操作时间信息可以包括在客户端设备在诸如弹唱应用程序或具有弹唱功能的应用程序中记录的弹奏操作信息中。例如，弹奏操作信息中除了包括弹奏操作时间信息之外，还可以包括弹奏的每个和弦的和弦类型(大和弦、小和弦、三和弦、七和弦等)、和弦标识(例如，和弦最低音的音名)、弹奏力度信息等中的至少一者。弹奏操作时间信息可以单独存储，也可以存储在弹奏操作信息中。弹奏操作信息可以单独存储，也可以与演唱采集音频关联存储，例如，与演唱采集音频存储在同一数据包中(例如，基于上述应用程序生成或导出数据包)。上述数据包可以存储在客户端设备中，也可以上传到资源服务端中。上述数据包也可以直接发送到资源服务端。
42.在一个弹奏场景中，对弹奏和弦的弹奏，可以为用户对弹奏和弦进行播放控制。例如，播放速度控制、播放音量控制、播放曲风控制、弹奏力度控制等。
43.在另一弹奏场景中，对弹奏和弦的弹奏，可以为用户基于弹奏和弦的标识触发相应的和弦，以便进行和弦的创作。
44.在另一弹奏场景中，对弹奏和弦的弹奏，可以为用户对目标曲目的预定和弦序列进行控制，例如，用户可以触发上一和弦的播放、下一和弦的播放、当前和弦的保持等。
45.220：至少基于弹奏操作时间信息，对弹奏和弦和演唱采集音频进行叠加处理。
46.应理解，弹奏操作时间信息可以用于基于弹奏和弦，生成曲目伴奏。即，弹奏操作时间信息可以基于弹奏和弦，生成曲目伴奏。例如，可以基于弹奏和弦的弹奏速度，生成曲目伴奏。例如，可以基于弹奏和弦的弹奏时间和弹奏力度，生成曲目伴奏。例如，可以基于弹奏和弦的弹奏时间和弹奏类型，生成曲目伴奏。例如，可以基于弹奏和弦的弹奏时间、弹奏力度和弹奏类型，生成曲目伴奏。可以对曲目伴奏和演唱采集音频进行叠加处理。
47.此外，弹奏操作时间信息还可以用于对弹奏和弦和演唱采集音频进行叠加处理。例如，弹奏操作时间信息可以用于生成弹奏和弦和演唱采集音频之间的时间对齐信息，例如，可以基于该时间对齐信息对弹奏和弦和演唱采集音频进行叠加处理。
48.还应理解，上述叠加处理可以包括任何叠加方式。例如，可以叠加弹奏和弦和演唱采集音频两者。也可以叠加弹奏和弦、演唱采集音频和其他音频。也可以叠加弹奏和弦的部分和演唱采集音频。也可以叠加弹奏和弦和演唱采集音频的部分。
49.在本发明实施例的方案中，弹奏操作时间信息在对所述弹奏和弦进行弹奏时被记录，因此基于弹奏操作时间信息，对所述弹奏和弦和演唱采集音频进行叠加处理，使得处理
后的音频消除了由于各种原因产生的弹奏和弦与演唱时的人声之间的节奏不一致。此外，由于叠加处理中采用了弹奏和弦，而非在播放时的弹奏和弦采集音频，从而叠加后音频极大地提升了音质。
50.在本发明的另一实现方式中，演唱采集音频包括通过收音设备采集到的人声音源和弹奏音源的叠加音频，弹奏音源通过外放扬声设备播放弹奏和弦生成，其中，至少基于弹奏操作时间信息，对弹奏和弦和演唱采集音频进行叠加处理，包括：对叠加音频进行音源分离处理，得到人声音源音频；至少基于弹奏操作时间信息，叠加弹奏和弦和人声音源音频。
51.由于通过对叠加音频进行音源分离处理得到人声音源音频，避免了采集到的通过外放扬声设备播放弹奏的噪声，从而有效地去除了噪声。
52.在本发明的另一实现方式中，该方法还包括：获取弹奏操作时间信息对应的和弦信息，其中，至少基于弹奏操作时间信息，叠加弹奏和弦和人声音源音频，包括：基于弹奏操作时间信息及其对应的和弦信息，对弹奏和弦进行合成，得到合成伴奏音频；叠加人声音源音频的第一音轨和合成伴奏音频的第二音轨。
53.由于基于弹奏操作时间信息及其对应的和弦信息，对弹奏和弦进行合成，得到合成伴奏音频，并且弹奏操作时间信息和和弦信息较容易在采集演唱音频时相应地采集，因此实现了快捷和高效的音频数据处理。
54.在本发明的另一实现方式中，至少基于弹奏操作时间信息，对弹奏和弦和演唱采集音频进行叠加处理，包括：基于弹奏操作时间信息，确定弹奏和弦对应的视频帧序列；将视频帧序列、弹奏和弦和演唱采集音频进行叠加处理。例如，每个弹奏和弦可以对应于多组视频帧。基于弹奏和弦的序列，可以生成视频帧序列。
55.在本发明的另一实现方式中，基于弹奏操作时间信息，确定弹奏和弦对应的视频帧序列，包括：基于弹奏操作时间信息，确定弹奏和弦对应的歌词信息；通过将歌词信息与其匹配的多个视频帧，生成视频帧序列。例如，歌词信息可以与弹奏和弦匹配；歌词信息可以与视频帧匹配；歌词信息、弹奏和弦、视频帧可以各自匹配。
56.作为一个示例，可以通过应用程序调用设备的图片访问接口，并且访问相应的多个图片，生成上述的视频帧。图片访问接口可以为相册访问接口，多个图片可以为标记有时间戳的多个图片。可以基于上述的多个图片生成上述的视频帧，将视频帧序列、弹奏和弦和演唱采集音频进行叠加处理，生成个性化视频音乐。
57.图2b为本发明的另一实施例的音频处理方法的示意图。如图所示，在本示例中，获取弹奏信息和原始音频。对原始音频(或者，演唱采集音频)进行音源分离，得到原始人声和原始伴奏。此外，基于弹奏信息(或者，弹奏操作信息)进行伴奏合成(例如，基于与弹奏和弦相关的数据)，得到合成伴奏。然后，将原始人声与合成伴奏进行音轨叠加，得到优化音频。换言之，一方面，可以利用合成伴奏替换原始伴奏，得到优化音频。另一方面，可以利用弹奏信息，匹配合成伴奏和合成伴奏。
58.在本发明的另一实现方式中，叠加人声音源音频的第一音轨和合成伴奏音频的第二音轨，包括：基于人声音源的音调信息，生成第一音轨的时间轴信息；并且基于弹奏操作时间信息生成第二音轨的时间轴信息；通过对齐第一音轨的时间轴信息和第二音轨的时间轴信息，叠加第一音轨和第二音轨。
59.由于人声音源的音调信息有利于在音轨中确定人声片段的时间点，因此生成了准
确的第一音轨的时间轴信息，此外，由于弹奏操作时间信息有利用生成准确的第二音轨的时间轴信息，从而基于上述的时间轴信息，叠加第一音轨和第二音轨，有效地消除了演唱采集音频中的延迟。
60.在本发明的另一实现方式中，对叠加音频进行音源分离处理，得到人声音源音频，包括：将叠加音频输入预先训练的音源分离模型，输出得到人声音源音频。
61.由于预先训练的音源分离模型能够进行针对性的音源分离，因此提高了音源分离的效率。
62.例如，音源分离模型的训练样本可以包括分别采集的人声音源音频、弹奏音源音频以及与人声音源音频和弹奏音源音频对应的叠加音频。例如，训练样本包括分别采集的人声音源音频、弹奏音源音频以及与人声音源音频和弹奏音源音频对应的叠加音频。训练样本可以通过各种方式采集，例如，可以通过对历史叠加音频数据进行标记，得到人声音源音频、弹奏音源音频。也可以对历史叠加数据进行回放处理，并且进行标记，得到人声音源音频、弹奏音源音频。上述标记过程可以采集标记神经网络模型执行。在模型训练的一个示例中，训练标记神经网络模型，并且利用标记神经网络模型对叠加音频进行标记，得到人声音源音频和弹奏音源音频。在模型训练的另一示例中，将叠加音频输入到音频标记服务入口中，相应地，从服务出口服务得到人声音源音频和弹奏音源音频。音频标记服务可以通过服务接口提供预先训练的标记神经网络模型。在模型训练的另一示例中，可以通过三个采集入口分别采集人声音源音频、弹奏音源音频和叠加音频，并且生成训练样本。
63.此外，音源分离模型可以为在线模型也可以为离线模型。对于客户端设备而言，在线模型可以音源分离模型实现为应用程序的一个模块，通过应用服务器提供模型推理服务。离线模型可以安装在运行应用程序的终端设备中，基于该应用程序提供本地的推理服务。
64.在本发明的另一实现方式中，演唱采集音频包括通过收音设备采集到的人声采集音频，弹奏和弦通过耳机设备播放，其中，至少基于弹奏操作时间信息，对弹奏和弦和演唱采集音频进行叠加处理，包括：至少基于弹奏操作时间信息，叠加弹奏和弦和人声采集音频。
65.由于弹奏和弦通过耳机设备播放，因此减小了采集音频中的噪声，此外，人声采集音频中不包含播放时采集的弹奏和弦，因此提高了叠加处理的效率。
66.在本发明的另一实现方式中，获取演唱采集音频和弹奏操作时间信息，包括：从资源数据库中，获取上传的演唱采集音频文件包，采集音频文件包中包括演唱采集音频和弹奏操作时间信息，其中，该方法还包括：将叠加处理后的音频保存在资源数据库中。
67.例如，将叠加处理后的音频保存在资源数据库中，可以包括：将叠加处理后的音频生成优化音频文件包，保存在资源数据库中，对所述演唱采集音频文件包进行更新。
68.由于资源数据库中，获取上传的演唱采集音频文件包，并且将叠加处理后的音频保存在资源数据库中，因此实现了音频的在线处理，对于用户而言实现了无感知的。在一个服务场景中，用户可以从资源服务器中，下载所述优化音频文件包到本地，对优化音频进行播放，或者在线播放优化音频。在另一服务场景中，用户可以在客户端进行弹唱录制分享。例如，客户端响应用户在弹唱网络社区的自制弹唱展示界面中的录制触发操作，进入录制界面。在录制界面中完成录制后，客户端响应用户的上传操作，将演唱采集音频上传到应用
服务端或资源服务端。应用服务端或资源服务端基于本发明实施例的音频处理，得到优化音频。此外，客户端响应用户的发布和/或分享操作，通知应用服务端或资源服务端将优化音频发布到自制弹唱展示界面。
69.在一个具体的示例中，客户端响应第一账号在自制弹唱展示界面中的针对目标曲目的录制触发操作。客户端响应第一账号针对该目标曲目的发布和/或分享操作，通知应用服务端或资源服务端将该目标曲目的优化音频发布到自制弹唱展示界面，与目标曲目进行关联展示。例如，将第一账号的目标曲目的优化音频与第二账号的目标曲目的优化音频进行关联展示。
70.在另一示例中，第一账号为弹唱应用程序的付费账号(或者，会员)。第一账号为弹唱应用程序的非付费账号(或者，非会员)。例如，将第一账号的目标曲目的优化音频与第二账号的目标曲目的未优化音频(演唱采集音频)进行关联展示。
71.图3为本发明的另一实施例的音频处理方法的示意性流程图。图3的种音频处理方法可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设备、智能设备、服务器、移动终端(如手机、pad等)和pc机等，该方法包括：
72.310：在对弹奏和弦进行播放时，相应地采集演唱采集音频，并且记录弹奏和弦的弹奏操作时间信息；
73.320：至少基于弹奏操作时间信息，对弹奏和弦和演唱采集音频进行叠加处理。
74.应理解，弹奏操作时间信息可以用于基于弹奏和弦，生成曲目伴奏。即，弹奏操作时间信息可以基于弹奏和弦，生成曲目伴奏。例如，可以基于弹奏和弦的弹奏速度，生成曲目伴奏。例如，可以基于弹奏和弦的弹奏时间和弹奏力度，生成曲目伴奏。例如，可以基于弹奏和弦的弹奏时间和弹奏类型，生成曲目伴奏。例如，可以基于弹奏和弦的弹奏时间、弹奏力度和弹奏类型，生成曲目伴奏。可以对曲目伴奏和演唱采集音频进行叠加处理。
75.此外，弹奏操作时间信息还可以用于对弹奏和弦和演唱采集音频进行叠加处理。例如，弹奏操作时间信息可以用于生成弹奏和弦和演唱采集音频之间的时间对齐信息，例如，可以基于该时间对齐信息对弹奏和弦和演唱采集音频进行叠加处理。
76.还应理解，上述叠加处理可以包括任何叠加方式。例如，可以叠加弹奏和弦和演唱采集音频两者。也可以叠加弹奏和弦、演唱采集音频和其他音频。也可以叠加弹奏和弦的部分和演唱采集音频。也可以叠加弹奏和弦和演唱采集音频的部分。
77.在本发明实施例的方案中，弹奏操作时间信息在对所述弹奏和弦进行弹奏时被记录，因此基于弹奏操作时间信息，对所述弹奏和弦和演唱采集音频进行叠加处理，使得处理后的音频消除了由于各种原因产生的弹奏和弦与演唱时的人声之间的节奏不一致。
78.在本发明的另一实现方式中，演唱采集音频包括通过收音设备采集到的人声音源和弹奏音源的叠加音频，弹奏音源通过外放扬声设备播放弹奏和弦生成，至少基于弹奏操作时间信息，对弹奏和弦和演唱采集音频进行叠加处理，包括：将叠加音频输入预先训练的音源分离模型，输出得到人声音源音频；至少基于弹奏操作时间信息，叠加弹奏和弦和人声音源音频。
79.由于预先训练的音源分离模型能够进行针对性的音源分离，因此提高了音源分离的效率。
80.例如，音源分离模型的训练样本可以包括分别采集的人声音源音频、弹奏音源音
频以及与人声音源音频和弹奏音源音频对应的叠加音频。例如，训练样本包括分别采集的人声音源音频、弹奏音源音频以及与人声音源音频和弹奏音源音频对应的叠加音频。训练样本可以通过各种方式采集，例如，可以通过对历史叠加音频数据进行标记，得到人声音源音频、弹奏音源音频。也可以对历史叠加数据进行回放处理，并且进行标记，得到人声音源音频、弹奏音源音频。上述标记过程可以采集标记神经网络模型执行。在模型训练的一个示例中，训练标记神经网络模型，并且利用标记神经网络模型对叠加音频进行标记，得到人声音源音频和弹奏音源音频。在模型训练的另一示例中，将叠加音频输入到音频标记服务入口中，相应地，从服务出口服务得到人声音源音频和弹奏音源音频。音频标记服务可以通过服务接口提供预先训练的标记神经网络模型。在模型训练的另一示例中，可以通过三个采集入口分别采集人声音源音频、弹奏音源音频和叠加音频，并且生成训练样本。
81.此外，音源分离模型可以为在线模型也可以为离线模型。对于客户端设备而言，在线模型可以音源分离模型实现为应用程序的一个模块，通过应用服务器提供模型推理服务。离线模型可以安装在运行应用程序的终端设备中，基于该应用程序提供本地的推理服务。
82.在本发明的另一实现方式中，该方法还包括：获取弹奏操作时间信息对应的和弦信息，其中，至少基于弹奏操作时间信息，叠加弹奏和弦和人声音源音频，包括：基于弹奏操作时间信息及其对应的和弦信息，对弹奏和弦进行合成，得到合成伴奏音频；叠加人声音源音频的第一音轨和合成伴奏音频的第二音轨。
83.图3b为本发明的另一实施例的音频处理方法的示意图。如图所示，在本示例中，获取弹奏信息和原始音频。对原始音频(或者，演唱采集音频)进行音源分离，得到原始人声和原始伴奏。然后，将原始人声与合成伴奏进行音轨叠加，得到优化音频。可以利用合成伴奏替换原始伴奏，得到优化音频。应理解，可以基于弹奏信息(或者，弹奏操作信息)进行伴奏合成(例如，基于与弹奏和弦相关的数据)，得到合成伴奏。还可以利用弹奏信息，匹配合成伴奏和合成伴奏。
84.图4a为本发明的另一实施例的音频处理方法的示意图。在本示例中，在步骤411中，终端设备的应用客户端从应用服务端下载曲目的和弦数据包。在步骤412中，客户端在对弹奏和弦进行播放时，采集演唱音频，并且记录弹奏和弦的弹奏操作信息。在步骤413中，客户端将演唱音频以及弹奏操作信息上传到应用服务端。在步骤414中，应用服务端对演唱音频进行音源分离，得到人声音源音频。在步骤415中，应用服务端基于弹奏操作信息，对弹奏和弦和人声音源进行叠加。图4b为本发明的另一实施例的音频处理方法的示意图。在本示例中，在步骤421中，终端设备的应用客户端从应用服务端下载曲目的和弦数据包。在步骤422中，客户端在对弹奏和弦进行播放时，采集演唱音频，并且记录弹奏和弦的弹奏操作信息。在步骤423中，客户端对演唱音频进行音源分离，得到人声音源音频。在步骤424中，客户端基于弹奏操作信息，对弹奏和弦和人声音源进行叠加。在步骤425中，客户端将叠加后的音频上传到应用服务端。在一个音频处理场景中，应用服务端从第一资源服务端获取原始音频，并且对原始音频进行音源分离(例如，采用第一音源分离模型)，得到和弦音频。基于该和弦音频生成弹奏和弦数据包。应用服务端接收用户上传的演唱采集音频和弹奏操作信息，并且将演唱采集音频进行音源分离(例如，采集第二音源分离模型)，得到人声音频。应用服务端基于弹奏操作信息和弹奏和弦数据包生成合成伴奏，并且将合成伴奏和人声音
频进行叠加，得到优化音频。可以将该优化音频上传到第二资源服务端。第一资源服务端可以与第二资源服务端相同，也可以不同。此外，第一资源服务端可以提供付费音频服务。第二资源服务端可以提供免费音频服务。在应用服务端的自制音频社区中，第一账号可以上传自制音频(可以经由应用服务器进行上述的优化处理而被发布)，并且可以被第二账号分享或转发或打分。应用服务端可以基于上述的分享或转发或打分的次数或分值，确定该自制音频的热度。当上述热度满足阈值时，应用服务端可以从第二资源服务端获取该优化音频，上传到第一资源服务端，以便其他账号通过付费访问该优化音频。
85.在另一音频处理场景中，第一账号可以在自制音频要素中选择录制的目标曲目的演唱采集音频的替换伴奏。该替换伴奏可以为该第一账号提供试听版本，该试听版本可以为通过原始版本进行音源分离得到的伴奏，也可以为通过对第二账号上传的版本进行音源分离得到的伴奏。也可以为第二账号上传的和弦。也可以为第二账号上传的伴奏。可以该替换伴奏进行和弦分解处理，得到替换弹奏和弦数据包。可以经由本发明实施例的音频叠加处理，基于弹奏操作信息，将替换弹奏和弦数据包，生成与第一账号的人声音源匹配的合成伴奏。然后，可以对人声音源和合成伴奏进行叠加处理，得到替换音频。应用服务器可以将引用频率高的替换伴奏设定为付费替换伴奏。可以将引用频率低的替换伴奏设定为免费替换伴奏。
86.图5a为本发明的另一实施例的模型训练方法的示意性流程图。图5a的模型训练方法可以适用于应用服务端或者具有应用服务能力的资源服务端。上述服务端可以为诸如公有云、私有云、专有云或混合云的云服务端，也可以适用于具有服务能力的其他终端设备，该方法包括：
87.510：获取训练样本，训练样本包括分别采集的人声音源音频、弹奏音源音频以及与人声音源音频和弹奏音源音频对应的叠加音频；
88.520：基于至少一种音频特征，对人声音源音频、弹奏音源音频以及叠加音频，进行特征提取，得到特征提取后的人声音源音频数据、弹奏音源音频数据以及叠加音频数据；
89.530：分别以特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督训练，得到音源分离模型。
90.在本发明实施例的方案中，由于训练样本包括分别采集的人声音源音频、弹奏音源音频以及与人声音源音频和弹奏音源音频对应的叠加音频，因此，基于该训练样本训练得到的音源分离模型能够将采集到的叠加音频有效地分离为人声音源音频和弹奏音源音频。此外，对上述的训练样本进行了音频特征提取，因此，特征提取后的人声音源音频数据、弹奏音源音频数据以及叠加音频数据，更有利于利用音源分离模型进行与上述的音频特征相关的音源分离处理。
91.应理解，上述的至少一个音频特征包括但不限于音调特征、音调的时间相关特征、音量的时间相关特征、梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)、音频色度特征等。
92.在本发明的另一实现方式中，获取训练样本可以采用各种方式。
93.在第一示例中，对人声音源音频与叠加音频进行同步采集。例如，可以将采集到的人声音源音频同步输出，并且将输出的人声音源音频与弹奏音源音频一起采集，得到叠加音频。
94.在第二示例中，对弹奏音源音频和叠加音频进行同步采集。例如，可以将弹奏音源音频进行线上输出和线下输出，其中，线上输出与人声音源音频一起作为叠加音频采集，线下输出作为弹奏音源音频采集。
95.在第三示例中，对人声音源音频、弹奏音源音频和叠加音频进行同步采集。例如，可以将采集到的人声音源音频同步输出，并且可以将弹奏音源音频进行线上输出和线下输出。然后，将输出的人声音源音频与线上输出的弹奏音源音频一起采集，得到叠加音频。
96.此外，分别以特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督训练，包括：
97.分别以特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督初始训练，得到初始模型；对初始模型进行评测处理；如果通过所述评测处理，则输出初始模型，作为该音源分离模型，或者，
98.分别以特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督初始训练，得到初始模型；对初始模型进行评测处理；如果未通过评测处理，则获取另一训练样本，进行下次进行训练，或者，
99.分别以特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督初始训练，得到初始模型；对初始模型进行评测处理；如果未通过评测处理，则再次进行特征提取，以进行下次训练。图5b为本发明的另一实施例的模型训练方法的示意图。如图所示，在步骤501中，进行训练样本采集，在完成训练样本采集后，进入步骤502。例如，训练样本包括分别采集的人声音源音频、弹奏音源音频以及与人声音源音频和弹奏音源音频对应的叠加音频。训练样本可以通过各种方式采集，例如，可以通过对历史叠加音频数据进行标记，得到人声音源音频、弹奏音源音频。也可以对历史叠加数据进行回放处理，并且进行标记，得到人声音源音频、弹奏音源音频。上述标记过程可以采集标记神经网络模型执行。在模型训练的一个示例中，训练标记神经网络模型，并且利用标记神经网络模型对叠加音频进行标记，得到人声音源音频和弹奏音源音频。在模型训练的另一示例中，将叠加音频输入到音频标记服务入口中，相应地，从服务出口服务得到人声音源音频和弹奏音源音频。音频标记服务可以通过服务接口提供预先训练的标记神经网络模型。在模型训练的另一示例中，可以通过三个采集入口分别采集人声音源音频、弹奏音源音频和叠加音频，并且生成训练样本。在本示例中，在步骤502中，进行特征提取，在完成特征提取之后，进入步骤503。在步骤503中，进行模型训练，在完成模型训练之后，进行步骤504。在步骤504中，进行效果评测，在完成效果评测之后，进入步骤505。在步骤505中，判断是否通过效果评测。如果通过效果评测，侧进入步骤506；在本示例中，如果未通过效果评测，则返回步骤501。应理解，在其他示例中，如果未通过效果评测，也可以返回步骤502或步骤503。在步骤506中，输出音源分离模型。
100.图6为本发明的另一实施例的音频处理装置的示意性框图。图6的音频处理装置可以适用于应用服务端或者具有应用服务能力的资源服务端。上述服务端可以为诸如公有云、私有云、专有云或混合云的云服务端，也可以适用于具有服务能力的其他终端设备，该装置包括：
101.获取模块610，获取演唱采集音频和弹奏操作时间信息，演唱采集音频在对弹奏和弦进行播放时相应地进行采集，弹奏操作时间信息在对弹奏和弦进行弹奏时被记录；
102.处理模块620，至少基于弹奏操作时间信息，对弹奏和弦和演唱采集音频进行叠加处理。
103.在本发明实施例的方案中，弹奏操作时间信息在所述弹奏和弦进行弹奏时被记录，因此基于弹奏操作时间信息，对所述弹奏和弦和演唱采集音频进行叠加处理，使得处理后的音频消除了由于各种原因产生的弹奏和弦与演唱时的人声之间的节奏不一致。
104.在本发明的另一实现方式中，演唱采集音频包括通过收音设备采集到的人声音源和弹奏音源的叠加音频，弹奏音源通过外放扬声设备播放弹奏和弦生成，其中，处理模块具体用于：对叠加音频进行音源分离处理，得到人声音源音频；至少基于弹奏操作时间信息，叠加弹奏和弦和人声音源音频。
105.在本发明的另一实现方式中，获取模块还用于：获取弹奏操作时间信息对应的和弦信息，其中，处理模块具体用于：基于弹奏操作时间信息及其对应的和弦信息，对弹奏和弦进行合成，得到合成伴奏音频；叠加人声音源音频的第一音轨和合成伴奏音频的第二音轨。
106.在本发明的另一实现方式中，处理模块具体用于：基于人声音源的音调信息，生成第一音轨的时间轴信息；并且基于弹奏操作时间信息生成第二音轨的时间轴信息；通过对齐第一音轨的时间轴信息和第二音轨的时间轴信息，叠加第一音轨和第二音轨。
107.在本发明的另一实现方式中，处理模块具体用于：将叠加音频输入预先训练的音源分离模型，输出得到人声音源音频。
108.在本发明的另一实现方式中，演唱采集音频包括通过收音设备采集到的人声采集音频，弹奏和弦通过耳机设备播放，其中，处理模块具体用于：至少基于弹奏操作时间信息，叠加弹奏和弦和人声采集音频。
109.在本发明的另一实现方式中，获取模块具体用于：从资源数据库中，获取上传的演唱采集音频文件包，采集音频文件包中包括演唱采集音频和弹奏操作时间信息，其中，该方法还包括：将叠加处理后的音频保存在资源数据库中。
110.本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
111.图7为本发明的另一实施例的音频处理装置的示意性框图。图7的音频处理装置可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：物联网设备、嵌入式设备、智能设备、服务器、移动终端(如手机、pad等)和pc机等，该装置包括：
112.采集模块710，在对弹奏和弦进行播放时，相应地采集演唱采集音频，并且采集弹奏和弦的弹奏操作时间信息；
113.处理模块720，至少基于弹奏操作时间信息，对弹奏和弦和演唱采集音频进行叠加处理。
114.在本发明实施例的方案中，弹奏操作时间信息在对所述弹奏和弦进行弹奏时被记录，因此基于弹奏操作时间信息，对所述弹奏和弦和演唱采集音频进行叠加处理，使得处理后的音频消除了由于各种原因产生的弹奏和弦与演唱时的人声之间的节奏不一致。
115.在本发明的另一实现方式中，演唱采集音频包括通过收音设备采集到的人声音源和弹奏音源的叠加音频，弹奏音源通过外放扬声设备播放弹奏和弦生成，处理模块具体用
于：将叠加音频输入预先训练的音源分离模型，输出得到人声音源音频；至少基于弹奏操作时间信息，叠加弹奏和弦和人声音源音频。
116.在本发明的另一实现方式中，该装置还包括：获取模块，获取弹奏操作时间信息对应的和弦信息，其中，处理模块具体用于：基于弹奏操作时间信息及其对应的和弦信息，对弹奏和弦进行合成，得到合成伴奏音频；叠加人声音源音频的第一音轨和合成伴奏音频的第二音轨。
117.本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
118.图8为本发明的另一实施例的模型训练装置的示意性框图。图8的模型训练装置可以适用于应用服务端或者具有应用服务能力的资源服务端。上述服务端可以为诸如公有云、私有云、专有云或混合云的云服务端，也可以适用于具有服务能力的其他终端设备，该装置包括：
119.样本获取模块810，获取训练样本，训练样本包括分别采集的人声音源音频、弹奏音源音频以及与人声音源音频和弹奏音源音频对应的叠加音频；
120.特征提取模块820，基于至少一种音频特征，对人声音源音频、弹奏音源音频以及叠加音频，进行特征提取，得到特征提取后的人声音源音频数据、弹奏音源音频数据以及叠加音频数据；
121.模块训练模块830，分别以特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督训练，得到音源分离模型。
122.本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
123.图9为本发明的另一实施例的电子设备的结构示意图；该电子设备可以包括：
124.一个或多个处理器901；
125.存储介质902，可以配置为存储一个或多个程序，
126.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例所述的方法。
127.图10为本发明的另一实施例的电子设备的硬件结构；如图10所示，该电子设备的硬件结构可以包括：处理器1001，通信接口1002，存储介质1003和通信总线1004；
128.其中处理器1001、通信接口1002、存储介质1003通过通信总线1004完成相互间的通信；
129.可选地，通信接口1002可以为通信模块的接口；
130.其中，处理器1001具体可以配置为：获取演唱采集音频和弹奏操作时间信息，所述演唱采集音频在对弹奏和弦进行播放时相应地进行采集，所述弹奏操作时间信息在对所述弹奏和弦进行弹奏时被记录；至少基于所述弹奏操作时间信息，对所述弹奏和弦和所述演唱采集音频进行叠加处理，或者，
131.在对弹奏和弦进行播放时，相应地采集演唱采集音频，并且记录所述弹奏和弦的
弹奏操作时间信息；至少基于所述弹奏操作时间信息，对所述弹奏和弦和所述演唱采集音频进行叠加处理，或者，
132.获取训练样本，所述训练样本包括分别采集的人声音源音频、弹奏音源音频以及与所述人声音源音频和所述弹奏音源音频对应的叠加音频；基于至少一种音频特征，对所述人声音源音频、所述弹奏音源音频以及所述叠加音频，进行特征提取，得到特征提取后的人声音源音频数据、弹奏音源音频数据以及叠加音频数据；分别以所述特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督训练，得到音源分离模型。
133.处理器1001可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
134.存储介质1003可以是，但不限于，随机存取存储介质(random access memory，ram)，只读存储介质(read only memory，rom)，可编程只读存储介质(programmable read-only memory，prom)，可擦除只读存储介质(erasable programmable read-only memory，eprom)，电可擦除只读存储介质(electric erasable programmable read-only memory，eeprom)等。
135.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在存储介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时，执行本发明的方法中限定的上述功能。需要说明的是，本发明所述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。存储介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(ram)、只读存储介质(rom)、可擦式可编程只读存储介质(eprom或闪存)、光纤、便携式紧凑磁盘只读存储介质(cd-rom)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何存储介质，该存储介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
136.可以以一种或多种程序设计语言或其组合来编写配置为执行本发明的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c
++，还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
137.附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
138.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。这些模块的名称在某种情况下并不构成对该模块本身的限定。
139.作为另一方面，本发明还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所描述的方法。
140.作为另一方面，本发明还提供了一种存储介质，该存储介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述存储介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取演唱采集音频和弹奏操作时间信息，所述演唱采集音频在对弹奏和弦进行播放时相应地进行采集，所述弹奏操作时间信息在对所述弹奏和弦进行弹奏时被记录；至少基于所述弹奏操作时间信息，对所述弹奏和弦和所述演唱采集音频进行叠加处理，或者，
141.在对弹奏和弦进行播放时，相应地采集演唱采集音频，并且记录所述弹奏和弦的弹奏操作时间信息；至少基于所述弹奏操作时间信息，对所述弹奏和弦和所述演唱采集音频进行叠加处理，或者，
142.获取训练样本，所述训练样本包括分别采集的人声音源音频、弹奏音源音频以及与所述人声音源音频和所述弹奏音源音频对应的叠加音频；基于至少一种音频特征，对所述人声音源音频、所述弹奏音源音频以及所述叠加音频，进行特征提取，得到特征提取后的人声音源音频数据、弹奏音源音频数据以及叠加音频数据；分别以所述特征提取后的叠加音频数据、人声音源音频数据和弹奏音源音频数据作为输入、第一输出和第二输出，对目标神经网络进行有监督训练，得到音源分离模型。
143.在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可
称作第二元件，类似地，第二元件可称作第一元件。
144.当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)插入在这两者之间。
145.以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。