音频播放方法、装置、终端及存储介质与流程

1.本技术实施例涉及音频播放技术领域，特别涉及一种音频播放方法、装置、终端及存储介质。

背景技术：

2.随着音频设备和音频技术的发展，用户可以越来越方便地控制音频播放。
3.在相关技术中，用户通过智能手机的下载功能，从服务器中获取音轨文件后，可以直接通过智能手机中的音频播放app（application，应用程序）播放音轨文件。
4.在上述相关技术中，仅能够播放预先制作好的音轨文件，音频的播放效果较为单调。

技术实现要素：

5.本技术实施例提供了一种音频播放方法、装置、终端及存储介质，能够提升音频播放的个性化程度。所述技术方案如下。
6.根据本技术实施例的一个方面，提供了一种音频播放方法，所述方法包括：在用户界面中显示n个音轨标识，所述n个音轨标识和n个音轨一一对应，n为正整数；响应于针对所述音轨标识的位置调整操作，在所述用户界面中显示调整后的n个音轨标识；播放所述n个音轨对应的组合音频；其中，所述组合音频的空间音效与所述调整后的n个音轨标识的位置关系有关。
7.根据本技术实施例的一个方面，提供了一种音频播放装置，所述装置包括：标识显示模块，用于在用户界面中显示n个音轨标识，所述n个音轨标识和n个音轨一一对应，n为正整数；所述标识显示模块，还用于响应于针对所述音轨标识的位置调整操作，在所述用户界面中显示调整后的n个音轨标识；音频播放模块，用于播放所述n个音轨对应的组合音频；其中，所述组合音频的空间音效与所述调整后的n个音轨标识的位置关系有关。
8.根据本技术实施例的一个方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音频播放方法。
9.根据本技术实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述音频播放方法。
10.根据本技术实施例的一个方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介
质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现上述音频播放方法。
11.本技术实施例提供的技术方案可以包括如下有益效果。
12.通过在用户界面中显示各个音轨分别对应的音轨标识，并通过针对音轨标识的位置调整操作以改变音轨标识在用户界面中的显示位置，并使得播放的组合音频的空间音效与调整后的音轨标识相匹配，从而使得用户可以按照自己的意愿调整音频播放时的空间音效，用户自主调整，更具多样性和灵活性，进而使得音频播放更个性化。
13.另外，本技术实施例中，通过显示调整后的音轨标识，音频播放的空间音效形象化表示，便于用户了解到预期的组合音频的空间音效，并提升了用户操作的便捷性。
14.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
15.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
16.图1是本技术一个实施例提供的方案实施环境的示意图；图2是本技术一个实施例提供的音频播放方法的流程图；图3是本技术另一个实施例提供的音频播放方法的流程图；图4是本技术一个实施例提供的用户界面的示意图；图5是本技术一个实施例提供的频谱的示意图；图6是本技术又一个实施例提供的音频播放方法的流程图；图7是本技术再一个实施例提供的音频播放方法的流程图；图8是本技术还一个实施例提供的音频播放方法的流程图；图9是本技术另一个实施例提供的用户界面的示意图；图10是本技术一个实施例提供的音频播放装置的框图；图11是本技术另一个实施例提供的音频播放装置的框图；图12是本技术一个实施例提供的终端的框图。
具体实施方式
17.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的方法的例子。
18.请参考图1，其示出了本技术一个实施例提供的方案实施环境的示意图，该方案实施环境可以实现为一个音频播放系统。如图1所示，该系统10可以包括终端11。
19.终端11中安装并运行有目标应用程序，如目标应用程序的客户端。可选地，客户端中登录有用户帐号。终端是具备数据计算、处理和存储能力的电子设备。终端可以是智能手
机、平板电脑、pc（personal computer，个人计算机）、可穿戴设备等等，本技术实施例对此不作限定。可选地，终端11中设置有至少两个扬声器；当终端11中存在双扬声器时，该双扬声器为对称设置。该目标应用程序可以是音频播放应用程序，也可以是游戏应用程序、社交应用程序、支付应用程序、视频应用程序、购物应用程序、新闻应用程序等任何具有音频播放功能的应用程序。本技术实施例提供的方法，各步骤的执行主体可以是终端11，如运行在该终端11中的客户端。
20.在一些实施例中，该系统10还包括服务器12，服务器12与终端11建立有通信连接（如网络连接），服务器12用于为目标应用程序提供后台服务。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。
21.下面，通过几个实施例对本技术技术方案进行介绍说明。
22.请参考图2，其示出了本技术一个实施例提供的音频播放方法的流程图。在本实施例中，主要以该方法应用于上文介绍的客户端中来举例说明。该方法可以包括如下几个步骤（201~203）。
23.步骤201，在用户界面中显示n个音轨标识，n个音轨标识和n个音轨一一对应，n为正整数。
24.在一些实施例中，客户端显示有用户界面，用户界面中可以显示有提示信息、控件等，便于用户通过用户界面进行人机交互。可选地，用户界面中显示有n个音轨标识，每个音轨标识表示一个音轨。每个音轨都对应有一个音轨文件或一个数据模块，用于存储对应的音轨数据并区别于其他音轨。该n个音轨对应的音轨文件可以通过相关软件（如音序器软件）进行分离，n个音轨在音序器软件中可以分别用不同的轨道表示。n个音轨对应的音轨文件可以是存储在终端中的文件，也可以是从服务器中下载的文件，还可以是仅存储在服务器中的文件。
25.在一些实施例中，该步骤201之前，获取n个音轨的多音轨文件；其中，n个音轨的多音轨文件，是通过机器学习模型对原始单音轨音频进行多音轨预测得到的音轨文件。其中，原始单音轨音频的格式可以为mp3（moving picture experts group audio layer iii）格式，也可以为其他音频格式，本技术实施例对此不作具体限定。
26.在一些实施例中，不同音轨表示不同的声源，因而按照不同的声源划分音轨；例如，不同音轨分别对应于不同的乐器（如钢琴、吉他、鼓、小提琴、大提琴、笛声、唢呐等等）、或不同人的人声、或不同生物发出的声音等等，还可以按照其他划分方式划分音轨，本技术实施例对此不作具体限定。在一些实施例中，音轨标识可以显示为音符形状、乐器形状、圆形、三角形、正方形、星形等等，本技术实施例对此不作具体限定。
27.步骤202，响应于针对音轨标识的位置调整操作，在用户界面中显示调整后的n个音轨标识。
28.在一些实施例中，各个音轨标识的显示位置与最终的组合音频的播放效果有关。用户可以通过用户界面调整音轨标识的显示位置，从而使得调整后的n个音轨标识的显示位置，符合用户想要的播放效果。
29.步骤203，播放n个音轨对应的组合音频。
30.在一些实施例中，上述步骤202之后，播放基于n个音轨生成的组合音频；也即播放
按照调整后的n个音轨标识的显示位置生成的组合音频。可选地，组合音频的空间音效与调整后的n个音轨标识的位置关系有关。空间音效也可以称为立体声，能够模拟出具有空间感/立体感的播放效果；使用户在听组合音频的过程中，能够分辨出组合音频模拟的各个音频元素对应的声学位置。需要注意的是，声学位置仅仅是人耳和人脑配合感知到的音频元素的来源，并不代表音频元素真正的发声位置。
31.综上所述，本技术实施例提供的技术方案，通过在用户界面中显示各个音轨分别对应的音轨标识，并通过针对音轨标识的位置调整操作以改变音轨标识在用户界面中的显示位置，并使得播放的组合音频的空间音效与调整后的音轨标识相匹配，从而使得用户可以按照自己的意愿调整音频播放时的空间音效，进而使得音频播放更个性化。
32.请参考图3，其示出了本技术另一个实施例提供的音频播放方法的流程图。在本实施例中，主要以该方法应用于上文介绍的客户端中来举例说明。该方法可以包括如下几个步骤（301~308）。
33.步骤301，在用户界面中显示n个音轨标识，n个音轨标识和n个音轨一一对应，n为正整数。
34.该步骤301与上述图2实施例的步骤201的内容相同或相近，此处不再赘述。
35.步骤302，显示听感中心的标识。
36.在一些实施例中，如图4所示，用户界面40中显示有听感中心的标识41，用于表示用户接收的位置，音轨标识的位置可以是相对于听感中心的标识的位置，便于用户针对音轨标识执行位置调整操作。可选地，听感中心的标识显示在初始的n个音轨标识的正中间。
37.需要说明的是，上述步骤301和302不存在先后顺序，可以先执行步骤301，再执行步骤302；也可以先执行步骤302，再执行步骤301；还可以同时执行步骤301和步骤302，本技术实施例对此不作具体限定。
38.步骤303，响应于针对n个音轨标识中的目标音轨标识的拖动操作，显示调整后的目标音轨标识。
39.在一些实施例中，用户可以通过用户界面拖动音轨标识来调整音轨标识的显示位置。可选地，拖动音轨标识的操作体可以是光标、触控笔、手指等等，本技术实施例对此不作限定。
40.在一些实施例中，还可以通过点击操作来调整音轨标识的显示位置。例如，先通过第一次点击操作或长按操作选中音轨标识a，选中后的音轨标识a可以突出显示（如高亮显示、放大显示、显示为与未选中的音轨标识不相同的颜色等）；再通过第二次点击操作确定用户界面中的位置b，且音轨标识a的显示位置从原来的位置更换到位置b。也即，第一次点击操作用于选中音轨标识a，第二次点击操作用于确定将音轨标识a新的显示位置。可选地，在没有其他操作干扰的情况下（如为触碰其他音轨标识或其他控件），用户在选中一次音轨标识a之后，可以通过多次连续的点击操作来不断调整音轨标识a的显示位置，音轨标识a被选中之后的每一次点击操作，都会使音轨标识a将显示位置更换到最近一次点击操作所对应的位置，无需重复选中音轨标识a，从而提升了用户操作的便捷性。
41.步骤304，基于调整后的n个音轨标识的显示位置，确定n个音轨分别对应的声学位置信息。
42.其中，声学位置信息用于指示音轨对应的模拟的声学位置。在一些实施例中，音轨
标识的显示位置用于表示对应音轨的声学位置信息，即表示需要模拟音轨相对于听感中心的发声位置。可选地，组合音频实际上的发声位置可以是两个位置固定的扬声器。在一些实施例中，基于调整后的n个音轨标识的显示位置，与听感中心的标识之间的相对位置关系，确定n个音轨分别对应的声学位置信息。例如，在用户界面中，音轨标识b位于听感中心的标识的左侧x米处，则对应的音轨b对应的声学位置位于听感中心的左侧kx米处；其中，k为设定的距离系数，k为正数（k可以为10、50、100等等）。可选地，k的具体数值可以由用户自行设置，也可以由相关技术人员根据实际情况进行设定，本技术实施例对此不作具体限定。
43.步骤305，根据n个音轨分别对应的声学位置信息对n个音轨进行混音，得到组合音频。
44.在一些实施例中，按照n个音轨分别对应的声学位置与听感中心之间的相对位置关系，确定n个音轨分别对应的混音参数，并基于n个音轨进行混音，得到组合音频。混音是指将多个音轨进行处理后整合为一条音轨，在混音后的音轨中，可以听到来源于不同音轨的声音。可选地，基于n个音轨进行混音，可以得到两个或两个以上的音轨；也即，组合音频可以包括两个或两个以上的音轨，不同音轨可以由不同的扬声器同时进行播放。
45.本技术实施例中，通过调整后的音轨标识的显示位置确定对应音轨标识的声学位置信息，也即用户可以通过调整音轨标识来控制各个音轨对应的声学位置，用户自主调整，更具多样性和灵活性、更个性化。
46.上述步骤304、305可以由客户端执行，也可以由服务器执行，还可以由客户端和服务器交替执行，本技术实施例对此不作具体限定。
47.步骤306，播放n个音轨对应的组合音频。
48.该步骤306的部分内容与上述图2实施例的步骤203的内容相同或相近，此处不再赘述。
49.在一些实施例中，在组合音频的播放过程中，用户仍然可以调整各个音轨标识的显示位置，客户端仍然可以根据各个音轨标识最新的显示位置对n个音轨重新进行混音、得到对应最新的空间音效的最新的组合音频，并从头开始或从组合音频已播放完的时间点开始，播放最新的组合音频。也即，在音频的播放过程中，仍然可以根据针对音轨标识的位置调整操作，实时改变音轨对应的声学位置信息、实时生成新的组合音频并不间断地播放；进一步提升播放过程中，组合音频的空间音效的控制灵活性。
50.步骤307，采集组合音频在播放时的实时频谱信息。
51.在一些实施例中，通过采集组合音频播放时实时声音信号的频率与能量的关系信息，生成实时频谱信息。在一些实施例中，通过多个扬声器播放组合音频，则可以生成多个扬声器分别对应的实时频谱信息，也可以直接生成多个扬声器所播放音频的整体的实时频谱信息。
52.步骤308，按照组合音频在播放时的实时频谱信息，显示组合音频的频谱图。
53.在一些实施例中，基于实时频谱信息生成组合音频对应的频谱图并显示在用户界面中，从而提升用户在欣赏组合音频过程中的趣味性。可选地，每个扬声器都对应有一份实时频谱信息，则生成各个扬声器分别对应的频谱图，用户可以选择只显示其中部分扬声器对应的频谱图，也可以选择显示所有扬声器各自对应的频谱图。如图5所示，频谱图50中的横坐标52表示声音信号的频率，单位为khz（kilohertz，千赫兹）；纵坐标51表示声音信号的
能量，单位为db（decibel，分贝）。
54.综上所述，本技术实施例提供的技术方案，通过拖动操作可以很方便地调整音轨标识的显示位置，且音轨标识的显示位置与对应音轨的声学位置对应，从用户界面中就可以形象直观地了解到音轨对应的声学位置，从而提升用户操作的便捷性。
55.在一些可能的实现方案中，声学位置信息包括方向信息和距离信息，方向信息用于指示音轨的声学位置相对于听感中心的方向，距离信息用于指示音轨的声学位置与听感中心之间的距离。如图6所示，上述步骤304还包括如下步骤（3040）。
56.步骤3040，根据n个音轨分别对应的方向信息和距离信息，对n个音轨进行混音，得到组合音频。
57.在一些实施例中，声学位置信息包括音轨对应的需要模拟的发声的位置所在方向（如居左、居右、居上、居下等）和距离，进而按照方向信息和距离信息进行混音，以使得得到的组合音频的空间音效符合用户的需求。
58.可选地，组合音频包括第一组合音频和第二组合音频，第一组合音频和第二组合音频分别由两个不同的扬声器同时进行播放；第一组合音频包括n个音轨中的目标音轨对应的第一目标音频元素，第二组合音频包括目标音轨对应的第二目标音频元素。如图7所示，在一些实施例中，上述步骤3040还包括如下步骤（3041~3042）。
59.步骤3041，根据目标音轨对应的方向信息和距离信息，分别确定第一目标音频元素和第二目标音频元素的音量，以及确定第一目标音频元素和第二目标音频元素之间的播放时差。
60.首先介绍一些人耳分辨声音位置的原理：一个发声位置发出的声波，到达人的两耳时的时间和振幅（即音量）存在人耳能够感知的差异时，人的大脑就会根据该差异分析声音是从那个位置发出的；在一段时间内，还可以根据两耳节接收到的声音信号之间的差异的变化情况，分辨出声音位置与人耳之间的相对运动情况（如远离、靠近等）。基于上述相关原理，通过两个或两个以上的扬声器，可以模拟出音频的空间音效，使得音频更真实、更立体。
61.在一些实施例中，基于n个音轨生成音轨不相同的第一组合音频和第二组合音频，第一组合音频和第二组合音频分别由两个不同的扬声器同时进行播放。可选地，第一组合音频和第二组合音频中都存在n个音轨对应的音频元素。可选地，同一个音轨在第一组合音频中的音频元素，和在第二组合音频中的音频元素可以相同也可以略有差异，例如，播放时间存在较小但人耳可以感知的时差；又例如，播放音量存在差别等。可选地，第一目标音频元素和第二目标音频元素的音量，是指相对于组合音频的标准音量的音量。
62.可选地，第一扬声器和第二扬声器为终端中设置的扬声器，也可以为终端连接的外接扬声器。其中，外接扬声器可以为独立音箱、耳机（如有线耳机、无线蓝牙耳机等）等。在一些实施例中，终端与外接扬声器之间为有线连接，如通过音箱接口、耳机孔等音频接口连接。在一些实施例中，终端与外接扬声器之间为无线连接，如蓝牙连接、无线网络连接等等。
63.在一些实施例中，该步骤3041还包括如下几个步骤（1.1~1.2）：1.1、按照目标音轨对应的方向信息和距离信息，分别确定听感中心的第一听感侧与目标音轨对应的声学位置之间的第一目标距离、以及听感中心的第二听感侧与目标音轨对应的声学位置之间的第二目标距离；
1.2、根据第一目标距离和第二目标距离，分别确定第一目标音频元素和第二目标音频元素的音量、以及确定第一目标音频元素和第二目标音频元素之间的播放时差。
64.其中，第一目标音频元素的音量与第一目标距离负相关，第二目标音频元素的音量与第二目标距离负相关。
65.在该实施例中，听感中心的第一听感侧和第二听感侧分别用于表示人的左右两耳，根据目标音轨对应的方向信息和距离信息，即可计算出需要模拟的目标音轨的声学位置与两耳之间的距离，即第一目标距离和第二目标距离；并基于第一目标距离和第二目标距离，确定第一目标音频元素和第二目标音频元素音量和播放时差，从而更准确地模拟出目标音轨对应的声学位置，使得组合音频播放时的空间音效更真实、更立体。
66.步骤3042，基于n个音轨分别对应的音频元素的音量，以及n个音轨分别对应的播放时差，对n个音轨进行混音，得到组合音频。
67.在一些实施例中，基于n个音轨分别对应的音频元素的音量，以及n个音轨分别对应的播放时差，对n个音轨进行混音，分别生成左耳对应的第一组合音频，以及右耳对应的第二组合音频，即得到具有立体音效/空间音效的组合音频。
68.综上所述，本技术实施例提供的技术方案，通过将声学位置信息分为方向信息和距离信息两个方面，对用户想要的空间音效进行模拟，提升了音频的播放效果。
69.在一些可能的实现方案中，该方法还包括如下步骤（2.1~2.3）：2.1、响应于针对n个音轨标识中的目标音轨标识的方向设置操作，生成目标音轨标识对应的目标音轨的方向信息；2.2、响应于针对目标音轨标识的距离设置操作，生成目标音轨的距离信息；2.3、按照目标音轨的方向信息和/或距离信息，显示调整后的目标音轨标识。
70.在一些实施例中，通过设置操作设置各个音轨的方向信息和距离信息，以确定各个音轨的声学位置信息。例如，通过点击、长按、滑动等操作触发目标音轨标识，显示目标音轨当前对应的方向信息和距离信息，并对目标音轨当前对应的方向信息和距离信息进行调整设置，从而确定目标音轨新的方向信息和新的距离信息，即确定目标音轨新的声学位置信息。当然，用户也可以不调整目标音轨当前对应的方向信息和距离信息，也可以仅调整方向信息或仅调整距离信息，本技术实施例对此不作具体限定。
71.在一些实施例中，可以仅在用户界面中通过目标音轨标识与听感中心的标识之间的相对方向，以表示目标音轨对应的方向信息；也可以仅在用户界面中通过目标音轨标识与听感中心的标识之间的距离，以表示目标音轨对应的距离信息；当然，也可以在用户界面中通过目标音轨标识与听感中心的标识之间的相对方向和距离，同时表示目标音轨对应的方向信息和距离信息。可选地，目标音轨标识与听感中心的标识之间的距离越远，表示目标音轨与听感中心之间的距离越远；反之，目标音轨标识与听感中心的标识之间的距离越近，表示目标音轨与听感中心之间的距离越近。
72.在该实施例中，直接设置用户想要的各个音轨的声学位置的方向信息和距离信息，可以使得音轨的方向信息更加具体准确，也可以使得音轨的距离信息的设置不受用户界面的面积显示，从而提升最终得到的各个音轨的声学位置信息的准确性。
73.在一些可能的实现方案中，该方法还包括如下步骤（3.1~3.4）：3.1、获取n个音轨对应的默认的混音后音频，默认的混音后音频是根据n个音轨默
认的声学位置信息对n个音轨进行混音得到的音频；3.2、按照n个音轨标识的默认显示位置，显示n个音轨标识；其中，n个音轨标识的默认显示位置与n个音轨默认的声学位置信息匹配；3.3、接收针对n个音轨标识的默认显示位置的确认指令；3.4、根据针对n个音轨标识的默认显示位置的确认指令，播放默认的混音后音频。
74.在该实现方案中，先获取并存储默认的混音后音频，默认的混音后音频可以是推荐的较为受欢迎、或较为优质的组合音频，用户可以通过用户界面了解默认的混音后音频对应的n个音轨的声学位置信息，若用户满意该n个音轨目前的声学位置信息，则可以直接通过确认操作播放已存储的默认的混音后音频，无需客户端或服务器执行混音操作，节省处理资源和音频播放之前的准备时间，进一步提升了音频操作的便捷性。当然，若用户不满意该n个音轨目前的声学位置信息，也可以采用上文介绍的方案生成新的组合音频进行播放。
75.在一些可能的实现方案中，如图8所示，该音频播放方法包括如下几个步骤（801~807）：步骤801，通过机器学习模型对歌曲的原始单音轨音频进行多音轨预测，得到歌曲的原始多音轨文件；步骤802，云服务器存储歌曲的原始多音轨文件；步骤803，客户端通过终端的下载模块，从云服务器中下载歌曲的原始多音轨文件；步骤804，客户端通过多音轨空间音效控制器，控制各个音轨分别对应的音量；步骤805，客户端通过多音轨播放模块，基于多个音轨进行混音并播放混音后的组合音频；步骤806，客户端通过多音轨频谱计算模块，实时计算混音后输出的组合音频的频谱；步骤807，客户端按照0.05秒变化一次的频率显示变化的频谱动画。
76.在一些实施例中，频谱数值获取参数如下：每0.05秒取值一次，采样频段范围：20hz到22.5khz，采样点：从20hz到22.5做256等分，取256个采样点，获取当前频段的能量值（db），单次获取的能量与采样值可以参见图5。
77.在一些可能的实现方式中，上述图2实施例的步骤201之后，还包括如下几个步骤（4.1~4.2）。
78.4.1、响应于针对n个音轨标识中的目标音轨标识的替换操作，显示替换后音轨标识。
79.在该实现方式中，音轨标识可以用文字表示，如“钢琴”、“吉他”、“人声”等等；音轨标识也可以用象形符号表示，如采用钢琴形状的符号标识来代表钢琴声的音轨、采用吉他形状的符号标识来代表吉他声的音轨等等；音轨标识还可以用编号表示，如“1”、“2”、“3”等等。
80.在一些实施例中，目标音轨标识可以仅包括n个音轨标识中的一个音轨标识，也可以包括n个音轨标识中的多个音轨标识。通过针对目标音轨标识执行替换操作，实现对目标音轨标识对应的音轨的替换更新；且在用户界面中取消显示或隐藏显示目标音轨标识，并
显示目标音轨被替换后对应的替换后音轨标识。可选地，替换后的音轨标识可以与被替换的音轨标识的数量相同，也可以不相同。例如，若目标音轨标识与替换后音轨标识为一一对应，则表示目标音轨标识对应的目标音轨，与替换后音轨标识对应的音轨之间为一一对应替换。又例如，多个替换后音轨标识可以替换一个目标音轨标识，这表示该多个替换后音轨标识对应的音轨用于替换一个目标音轨。又例如，一个替换后音轨标识可以替换目标音轨标识中的多个音轨标识，这表示该一个替换后音轨标识对应的音轨可以替换多个目标音轨。
81.在一些实施例中，响应于针对n个音轨标识中的目标音轨标识的替换操作，显示替换后音轨标识，包括如下几个子步骤（4.1.1~4.1.2）。
82.（4.1.1）响应于针对目标音轨标识的选择操作，显示至少一个候选的素材音轨的标识。
83.在一些实施例中，若用户针对目标音轨标识执行选择操作，如单击、双击、滑动、长按目标音轨标识或目标音轨标识对应的音轨选择控件等操作，通过显示弹窗或显示新的界面，显示至少一个候选的素材音轨的标识，以供用户选择替换后的音轨。如图9所示，在用户界面40中，用户通过点击目标音轨标识91对应的音轨选择控件92后，用户界面40中显示浮窗93，浮窗93中显示有至少一个候选的素材音轨的标识。
84.可选地，素材音轨是指预先存储在素材库中（如存储在终端和/或服务器）中、用于替换用户所选目标音轨的音轨。在一些实施例中，素材音轨可以是相关技术人员或用户自行制作的音轨，也可以是通过裁剪等处理方式处理已有音频（如现有的歌曲）得到的音轨。
85.（4.1.2）响应于针对至少一个候选的素材音轨中目标素材音轨的标识的选择操作，将目标素材音轨的标识作为替换后音轨标识，替换显示目标音轨标识。
86.可选地，通过针对目标素材音轨的标识的选择操作（如点击、双击、长按、滑动等操作），表示用户确认采用目标素材音轨替换目标音轨，则在用户界面中取消显示目标音轨标识，并在目标音轨标识原来的显示位置或目标音轨标识原来的显示位置附近，显示目标素材音轨的标识。
87.4.2、播放至少一个待合成音轨对应的组合音频，至少一个待合成音轨包括替换后音轨标识对应的音轨。
88.在一些实施例中，将至少一个待合成音轨进行混音得到组合音频，并播放该组合音频。可选地，n个音轨标识和n个音轨一一对应，目标音轨标识对应有目标音轨。在一些实施例中，至少一个待合成音轨包括替换后音轨标识对应的音轨、以及n个音轨中除目标音轨之外的其他全部或部分音轨。
89.在一些实施例中，播放至少一个待合成音轨对应的组合音频，包括如下几个子步骤（4.2.1~4.2.2）：（4.2.1）对于目标音轨标识中的第一音轨标识，采用第一素材音轨替换第一音轨标识对应的第一音轨，得到替换后的第一音轨；（4.2.2）播放至少一个待合成音轨对应的组合音频，至少一个待合成音轨包括替换后的第一音轨。
90.在上述实施例中，对于第一音轨的替换操作，可以是将第一音轨的整个音轨完全替换成素材库中的另外一个音轨（即第一素材音轨）。也即，对第一音轨的替换操作，可以是
将第一音轨删除或隐藏（隐藏是指不删除第一音轨，但是第一音轨不参与生成组合音频），并添加新的音轨（即第一素材音轨）的操作。可选地，第一素材音轨的长度大于或等于第一音轨的长度。可选地，第一素材音轨的长度是指第一素材音轨的播放时长，第一音轨的长度是指第一音轨的播放时长。
91.在一些实施例中，该步骤还包括如下几个子步骤（4.3.1~4.3.2）：（4.3.1）对于目标音轨标识中的第二音轨标识，采用第二素材音轨替换第二音轨标识对应的第二音轨中的音轨片段，得到替换后的第二音轨；（4.3.2）播放至少一个待合成音轨对应的组合音频，至少一个待合成音轨包括替换后的第二音轨。
92.在上述实施例中，显然，第二音轨中的音轨片段的长度小于第二音轨的长度，音轨片段只是第二音轨中的一部分而非全部。对于第二音轨的替换操作，可以仅是替换第二音轨中的部分音轨片段，第二音轨中的其他音轨片段可以保留也可以被其他素材音轨替换。例如，在时间轴中将第二音轨中的第一音轨片段删除（也可以成为裁切）掉，并采用素材库中的第二素材音轨补在第一音轨片段原本所在的位置（即第一音轨片段原本的播放时段）。在一些实施例中，采用素材库中的多个不同的素材音轨，替换掉第二音轨中的多个不同的音轨片段，则第二音轨标识对应的替换后音轨标识可以为多个（即素材库中的多个不同的素材音轨）。
93.需要说明的是，关于上述第一音轨、第二音轨的音轨替换的内容仅是示例性的。当目标音轨包括多个音轨时，该多个音轨可以都是完整音轨被替换；也可以是都是部分音轨片段被替换；还可以是其中一部分音轨是完整音轨被替换、一部分音轨是部分音轨片段被替换，本技术实施例对此不作具体限定。
94.在上述实现方式中，用户可以按照自身想法，通过替换目标音轨的完整音轨或部分音轨片段，对待合成音轨本身的音色、音调、节奏等声学特征进行重新编辑，从而实现对原始乐曲的重新编曲，进而进一步提升了音频播放的个性化程度。
95.下述为本技术装置实施例，可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节，请参照本技术方法实施例。
96.请参考图10，其示出了本技术一个实施例提供的音频播放装置的框图。该装置具有实现上述音频播放方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的终端，也可以设置在终端上。该装置1000可以包括如下模块。
97.标识显示模块1010，用于在用户界面中显示n个音轨标识，所述n个音轨标识和n个音轨一一对应，n为正整数。
98.所述标识显示模块1010，还用于响应于针对所述音轨标识的位置调整操作，在所述用户界面中显示调整后的n个音轨标识。
99.音频播放模块1020，用于播放所述n个音轨对应的组合音频；其中，所述组合音频的空间音效与所述调整后的n个音轨标识的位置关系有关。
100.在示例性实施例中，如图11所示，所述装置1000还包括如下模块。
101.位置确定模块1030，用于基于所述调整后的n个音轨标识的显示位置，确定所述n个音轨分别对应的声学位置信息，所述声学位置信息用于指示音轨对应的模拟的声学位
置。
102.音频生成模块1040，用于根据所述n个音轨分别对应的声学位置信息对所述n个音轨进行混音，得到所述组合音频。
103.在示例性实施例中，如图11所示，所述标识显示模块1010，用于：显示听感中心的标识；响应于针对所述n个音轨标识中的目标音轨标识的拖动操作，显示调整后的目标音轨标识。
104.所述位置确定模块1030，用于：基于所述调整后的n个音轨标识的显示位置，与所述听感中心的标识之间的相对位置关系，确定所述n个音轨分别对应的声学位置信息。
105.在示例性实施例中，所述声学位置信息包括方向信息和距离信息，所述方向信息用于指示音轨的声学位置相对于听感中心的方向，所述距离信息用于指示音轨的声学位置与所述听感中心之间的距离；如图11所示，所述音频生成模块1040，用于：根据所述n个音轨分别对应的方向信息和距离信息，对所述n个音轨进行混音，得到所述组合音频。
106.在示例性实施例中，所述组合音频包括第一组合音频和第二组合音频，所述第一组合音频和所述第二组合音频分别由两个不同的扬声器同时进行播放；所述第一组合音频包括所述n个音轨中的目标音轨对应的第一目标音频元素，所述第二组合音频包括所述目标音轨对应的第二目标音频元素；如图11所示，所述音频生成模块1040，用于：根据所述目标音轨对应的方向信息和距离信息，分别确定所述第一目标音频元素和所述第二目标音频元素的音量，以及确定所述第一目标音频元素和所述第二目标音频元素之间的播放时差；其中，所述第一目标音频元素和所述第二目标音频元素的音量，是指相对于所述组合音频的标准音量的音量；基于所述n个音轨分别对应的音频元素的音量，以及所述n个音轨分别对应的播放时差，对所述n个音轨进行混音，得到所述组合音频。
107.在示例性实施例中，如图11所示，所述音频生成模块1040，用于：按照所述目标音轨对应的方向信息和距离信息，分别确定所述听感中心的第一听感侧与所述目标音轨对应的声学位置之间的第一目标距离、以及所述听感中心的第二听感侧与所述目标音轨对应的声学位置之间的第二目标距离；根据所述第一目标距离和所述第二目标距离，分别确定所述第一目标音频元素和所述第二目标音频元素的音量、以及确定所述第一目标音频元素和所述第二目标音频元素之间的播放时差；其中，所述第一目标音频元素的音量与所述第一目标距离负相关，所述第二目标音频元素的音量与所述第二目标距离负相关。
108.在示例性实施例中，如图11所示，所述装置1000还包括如下模块。
109.信息生成模块1050，用于响应于针对所述n个音轨标识中的目标音轨标识的方向设置操作，生成所述目标音轨标识对应的目标音轨的方向信息。
110.所述信息生成模块1050，还用于响应于针对所述目标音轨标识的距离设置操作，生成所述目标音轨的距离信息。
111.所述标识显示模块1010，还用于按照所述目标音轨的方向信息和/或距离信息，显示调整后的目标音轨标识。
112.在示例性实施例中，如图11所示，所述装置1000还包括如下模块。
113.音频获取模块1060，用于获取所述n个音轨对应的默认的混音后音频，所述默认的混音后音频是根据所述n个音轨默认的声学位置信息对所述n个音轨进行混音得到的音频。
114.所述标识显示模块1010，还用于按照所述n个音轨标识的默认显示位置，显示所述n个音轨标识；其中，所述n个音轨标识的默认显示位置与所述n个音轨默认的声学位置信息匹配。
115.指令接收模块1070，用于接收针对所述n个音轨标识的默认显示位置的确认指令。
116.所述音频播放模块1020，还用于根据所述针对所述n个音轨标识的默认显示位置的确认指令，播放所述默认的混音后音频。
117.在示例性实施例中，如图11所示，所述装置1000还包括如下模块。
118.信息采集模块1080，用于采集所述组合音频在播放时的实时频谱信息。
119.频谱显示模块1090，用于按照所述组合音频在播放时的实时频谱信息，显示所述组合音频的频谱图。
120.在示例性实施例中，所述标识显示模块1010，还用于响应于针对所述n个音轨标识中的目标音轨标识的替换操作，显示替换后音轨标识。
121.所述音频播放模块1020，还用于播放至少一个待合成音轨对应的组合音频，所述至少一个待合成音轨包括所述替换后音轨标识对应的音轨。
122.在示例性实施例中，所述标识显示模块1010，用于：响应于针对所述目标音轨标识中的选择操作，显示至少一个候选的素材音轨的标识；响应于针对所述至少一个候选的素材音轨中目标素材音轨的标识的选择操作，将所述目标素材音轨的标识作为所述替换后音轨标识，替换显示所述目标音轨标识。
123.在示例性实施例中，所述音频播放模块1020，用于：对于所述目标音轨标识中的第一音轨标识，采用第一素材音轨替换所述第一音轨标识对应的第一音轨，得到替换后的第一音轨；播放所述至少一个待合成音轨对应的组合音频，所述至少一个待合成音轨包括所述替换后的第一音轨；和/或，对于所述目标音轨标识中的第二音轨标识，采用第二素材音轨替换所述第二音轨标识对应的第二音轨中的音轨片段，得到替换后的第二音轨；播放所述至少一个待合成音轨对应的组合音频，所述至少一个待合成音轨包括所述替换后的第二音轨。
124.综上所述，本技术实施例提供的技术方案，通过在用户界面中显示各个音轨分别对应的音轨标识，并通过针对音轨标识的位置调整操作以改变音轨标识在用户界面中的显示位置，并使得播放的组合音频的空间音效与调整后的音轨标识相匹配，从而使得用户可以按照自己的意愿调整音频播放时的空间音效，进而使得音频播放更个性化。
125.需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
126.请参考图12，其示出了本技术一个实施例提供的终端1200的结构框图。该终端
1200可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、pc等电子设备。该终端用于实施上述实施例中提供的音频播放方法。该终端可以是图1所示实施环境中的终端11。具体来讲：通常，终端1200包括有：处理器1201和存储器1202。
127.处理器1201可以包括一个或多个处理核心，比如4核心处理器、12核心处理器等。处理器1201可以采用dsp（digital signal processing，数字信号处理）、fpga（field programmable gate array，现场可编程门阵列）、pla（programmable logic array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu（central processing unit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有gpu（graphics processing unit，图像处理器），gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括ai（artificial intelligence，人工智能）处理器，该ai处理器用于处理有关机器学习的计算操作。
128.存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储计算机程序，且经配置以由一个或者一个以上处理器执行，以实现上述音频播放方法。
129.在一些实施例中，终端1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。
130.本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
131.在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述音频播放方法。
132.在示例性实施例中，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现上述音频播放方法。
133.应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
134.以上所述仅为本技术的示例性实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。