首页 > 乐器声学 专利正文
语音处理及模型训练方法、装置、设备和存储介质与流程

时间:2022-02-15 阅读: 作者:专利查询

语音处理及模型训练方法、装置、设备和存储介质与流程

1.本公开涉及计算机技术领域,具体涉及语音合成、深度学习、自然语言处理等人工智能领域,尤其涉及一种语音处理及模型训练方法、装置、设备和存储介质。


背景技术:

2.有声读物是传统书的一种衍生形式,它是随着声磁技术的发展而开发出的一种以磁化物为载体并带有播放功能的书,最为常见的有声读物是有声小说。
3.相关技术中,有声小说只是将小说文本转换为对应的语音。


技术实现要素:

4.本公开提供了一种语音处理及模型训练方法、装置、设备和存储介质。
5.根据本公开的一方面,提供了一种语音处理方法,包括:对文本进行语音处理,以获得所述文本对应的语音;对所述文本进行音效信息预测,以获得待添加音效的音效信息;基于所述音效信息,在所述语音中添加所述待添加音效。
6.根据本公开的另一方面,提供了一种音效信息预测模型的训练方法,所述音效信息预测模型用于对文本进行音效信息预测,以获得待添加音效的音效信息,所述音效信息用于在所述文本对应的语音中添加所述待添加音效,所述方法包括:对已有样本进行增强处理,以获得增强样本;采用所述增强样本,训练音效信息预测模型。
7.根据本公开的另一方面,提供了一种语音处理装置,包括:语音处理模块,用于对文本进行语音处理,以获得所述文本对应的语音;预测模块,用于对所述文本进行音效信息预测,以获得待添加音效的音效信息;添加模块,用于基于所述音效信息,在所述语音中添加所述待添加音效。
8.根据本公开的另一方面,提供了一种音效信息预测模型的训练装置,所述音效信息预测模型用于对文本进行音效信息预测,以获得待添加音效的音效信息,所述音效信息用于在所述文本对应的语音中添加所述待添加音效,所述装置包括:增强模块,用于对已有样本进行增强处理,以获得增强样本;训练模块,用于采用所述增强样本,训练音效信息预测模型。
9.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
10.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
11.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
12.根据本公开的技术方案,可以提高有声读物的播放效果。
13.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.附图用于更好地理解本方案,不构成对本公开的限定。其中:
15.图1是根据本公开第一实施例的示意图;
16.图2是根据本公开第二实施例的示意图;
17.图3是根据本公开第三实施例的示意图;
18.图4是根据本公开第四实施例的示意图;
19.图5是根据本公开第五实施例的示意图;
20.图6是根据本公开第六实施例的示意图;
21.图7是根据本公开第七实施例的示意图;
22.图8是用来实现本公开实施例的语音处理方法或音效信息预测模型的训练方法中任一方法的电子设备的示意图。
具体实施方式
23.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
24.相关技术中,有声小说是将小说文本转换为对应的语音。
25.相关技术中并未在合成的语音中添加音效。然而,在语音的合适位置添加合适的音效,能够给听书的用户带来更多的画面感,大幅提升用户的使用体验。
26.为了提高语音处理效果,本公开提供如下实施例。
27.图1是根据本公开第一实施例的示意图,本实施例提供一种语音处理方法,所述方法包括:
28.101、对文本进行语音处理,以获得所述文本对应的语音。
29.102、对所述文本进行音效信息预测,以获得待添加音效的音效信息。
30.103、基于所述音效信息,在所述语音中添加所述待添加音效。
31.其中,文本是指有声读物的文本,以有声小说为例,文本是指小说文本。本实施例中,对小说文本的文体、领域、风格、形式、长度等不限定。可以理解的是,有声读物的文本不限定为有声小说,还可以为有声新闻、有声剧本、有声学习资源等。
32.本实施例的执行主体可以为语音处理装置,该装置可以位于电子设备内,该电子设备可以为云端设备、服务端设备、客户端设备等,该装置的具体形式不限定,可以为硬件、软件,或者软硬结合。对于软件形式,可以包括网页应用(web app)、移动应用(app)、系统应用(os app)等。对于客户端设备,还可以称为终端设备,可以包括移动设备(如手机、平板电脑)、可穿戴式设备(如智能手表、智能手环)、智能家居设备(如智能电视、智能音箱)等。
33.对文本进行语音处理是指,将文本转换为对应的语音。
34.语音处理的方式不限定,以小说文本为例,可以是对人朗读小说文本时的语音进行录制,以获得录制音频,并存储录制音频。在用户需要收听有声小说时,从存储录制音频的音频库中获取对应的录制音频作为所述文本对应的语音。或者,
35.还可以对小说文本采用语音合成模型进行语音合成处理,以获得合成语音,将其作为文本对应的语音。语音合成模型可以包括:声学模型和声码器,采用声学模型对文本进行处理,以获得声学特征,再采用声码器对声学特征进行处理,以获得文本对应的语音。
36.如图2所示,可以采用语音处理模块,对文本进行语音处理,以获得文本对应的语音。语音处理模块可以采用上述的在音频库中获取录制音频的方式,或者采用语音合成的方式,获取文本对应的语音。
37.待添加音效是指待添加进所述文本对应的语音中的音效,比如,雷声、雨声、开门声、钢琴声等。
38.音效信息可以包括:音效位置信息和音效类型信息。
39.如图2所示,可以采用预测模型对文本进行音效信息预测,以获得音效信息,音效信息以包括音效位置信息和音效类型信息为例。预测模型可以经过训练得到,预测模型可以为深层神经网络模型。
40.音效位置信息用于指示音效的添加位置,音效类型信息用于指示音效的类型。
41.具体地,音效位置信息可以包括起始位置和结束位置,比如,一条文本为“外面正在下雨,轰隆隆的一阵雷声”,假设待添加音效包括雨声和雷声,则对应雨声的音效位置信息可以包括:起始位置指向“下”、结束位置指向“雨”,对应雷声的音效位置信息可以包括:起始位置指向“轰”,结束位置指向第二个“隆”。
42.可以理解的是,也可以采用基于关键词检索的方式获取音效位置信息,比如,可以预设一些关键词,比如“雷声”,之后,将文本中包含“雷声”的位置作为音效位置。
43.不过,由于并不是所有包含音效相关词语,比如“雷声”的位置都需要添加音效。比如,对于一些描述性文本内容,比如“昨天下雨打雷了”,并不适合出现音效。应当是描述正在发生的打雷动作,才适合出现音效,如上述的“外面正在下雨,轰隆隆的一阵雷声”。
44.因此,采用预测模型预测音效位置信息的方式,相对于基于关键词检索的方式,可以提高音效位置信息的预测准确度。
45.另外,基于预测模型不仅可以预测词语的位置,还可以预测短语的位置,比如,采用预测模型,还可以预测类似短语“我倒了一杯水”对应的位置为音效位置,因此,还可以提高待添加音效的召回率。
46.针对音效类型,可以预先构建多种类型的音效,为每种类型的音效分配对应的类型标识,将类型标识可以是文字描述或者编号等,从而可以基于类型标识获取对应的音效。多种类型的音效可以包括:普通雷声、雨声、雷雨交织声、倒水哗哗声、喝水咕噜声、打呼噜声、衣服摩擦声、普通脚步声、高跟鞋脚步、雨中脚步声、开门声、关门声等。
47.如图2所示,预先构建的多种类型的音效可以存储在音效库中,并且在音效库中可以存储音效类型信息与音效之间的对应关系,采用预测模型获得音效类型信息后,可以从音效库中获得对应的音效。
48.获得语音和音效信息后,如图2所示,添加模块可以在语音的音频位置信息对应的位置处,添加从音频库中获得的音效,以获得添加音效的语音。之后,可以基于使用场景进
行后续处理,比如,在有声小说场景下,将小说文本对应的添加音效的语音,播放给用户。
49.预测模型的输入为文本,输出为待添加音效的音效信息。针对多种音效信息,可以采用一个预测模型进行预测后获得。或者,也可以采用多个模型,分别预测一种音效信息。
50.对于一个预测模型,可以采用多任务方式,即,一个模型可以包括任务,每种任务预测一种音效信息。
51.对于多个预测模型,可以每个预测模型预测一种音效信息。
52.具体地,对于一个预测模型,一些实施例中,所述音效信息为多种,所述对所述文本进行音效信息预测,以获得待添加音效的音效信息,包括:采用预测模型的共享部分对所述文本进行处理,以获得共享输出信息;采用所述预测模型中的多个特定部分,对所述共享输出信息进行处理,以获得所述多种音效信息。
53.如图3所示,针对多任务的预测模型,预测模型可以包括共享部分和特定部分,共享部分是指多个任务共享的模型部分,特定部分是任务特定的部分,不同任务不同。
54.以音效信息包括音效位置信息和音效类型信息为例,如图3所示,文本可以输入到预测模型中,预测模型的共享部分对文本进行处理,比如对文本进行编码处理,以获得编码向量,共享部分可以为双向transformer的encoder(bidirectional encoder representations from transformers,bert)模型。特定部分包括第一特定部分和第二特定部分,分别用于获得音效位置信息和音效类型信息,具体地,可以分别为指针模型和分类模型。
55.指针模型用于标识出音效对应的起始位置和结束位置,可以为包含注意力层的序列到序列模型。
56.分类模型用于标识出音效对应的类型,可以为全连接网络。
57.通过采用包括共享部分和多个特定部分的预测模型检测多种音效信息,可以基于多任务预测的方式的获得多种音效信息,提高运行效率。
58.对于多个预测模型,一些实施例中,所述音效信息为多种,所述对所述文本进行音效信息预测,以获得待添加音效的音效信息,包括:采用多个预测模型,对所述文本进行预测,以获得所述多种音效信息。
59.进一步地,所述多种音效信息包括音效位置信息和音效类型信息,所述多个预测模型包括音效位置预测模型和音效类型预测模型,所述采用多个预测模型,分别对所述文本进行预测,以获得所述多种音效信息,包括:采用所述音效位置预测模型,对所述文本进行预测,以获得所述音效位置信息;采用所述音效类型预测模型,对所述文本进行预测,以获得所述音效类型信息。
60.如图4所示,可以采用音效位置预测模型对文本进行处理,以获得音效位置信息,以及,采用音效类型预测模型对文本进行处理,以获得音效类型信息。
61.具体地,音效位置预测模型可以包括:预训练模型和指针模型。
62.音效类型预测信息可以包括:预训练模型和分类模型。
63.预训练模型比如为bert模型。
64.进一步地,不同领域(domain)的音效预测模型(音效位置预测模型、音效类型预测模型等中的至少一项)可以采用对应领域的样本进行训练后得到。比如,领域可以分为小说领域、新闻领域等,则若有声读物为有声小说,则其采用的音效预测模型是采用小说领域的
样本进行训练的,若有声读取为有声新闻,则其采用的音效预测模型是采用新闻领域的样本进行训练的。因此,上述的预训练模型还可以称为领域(domain)预训练模型。上述的指针模型还可以称为范围(span)指针模型,即用于指示位置信息的指针模型。
65.通过采用多个预测模型获得多种音效信息,可以提高灵活性。
66.进一步地,通过多个预测模型分别为音效位置预测模型和音效类型预测模型,可以获得较为充分的音效信息,进而可以在语音中添加合适的音效。
67.获得音效信息和语音后,基于预先配置的音效类型信息与音效之间的对应关系,确定所述音效类型预测模型获得的所述音效类型信息对应的音效,并基于所述确定的音效获取所述待添加音效;在所述语音的所述音效位置信息指示的位置处,添加所述获取的所述待添加音效。
68.比如,可以预先配置音效类型信息包括雷声及其对应的音效,若采用模型预测的音效类型信息为雷声,则可以获取对应的音效,该音效为关于雷声的音频,将该音效添加到对应的位置处。
69.通过基于配置的音效类型信息与音效之间的对应关系,可以在预测得到音效类型信息后,获得对应的音效。
70.进一步地,待添加音效还可以包含节奏信息,针对包含节奏信息的待添加音效,可以是预先配置具有节奏信息的音效,及其音效类型信息对应关系,基于该对应关系,可以获得包含节奏信息的音效。或者,
71.一些实施例中,若所述待添加音效包含节奏信息,所述对应关系中的音效不包含节奏信息,所述多种音效信息还包括:音效节奏信息,所述多个预测模型还包括音效节奏预测模型,所述基于所述确定的音效获取所述待添加音效,包括:采用所述音效节奏预测模型,对所述文本进行预测,以获得所述音效节奏信息;基于所述音效节奏信息,对所述确定的音效进行处理,以获得包含所述音效节奏信息的所述待添加音效。
72.具体地,音效信息还可以包括:音效节奏信息,音效节奏信息用于指示音效的轻重缓急。
73.一种实现方式中,在对音效进行分类时,具有不同音效节奏信息的音效可以分为不同的类型,比如,音效为雷声,还可以进一步分为:轻的雷声、重的雷声,或者,音效为脚步声,还可以进一步分为:缓慢的脚步声、急促的脚步声。以雷声为例,在配置时,可以将轻的雷声和重的雷声作为两个类型,分别存储轻的雷声对应的音效以及重的雷声对应的音效。
74.另一种实现方式中,在对音效进行分类时,可以配置标准音效,再基于音效节奏信息对标准音效进行调整。比如,音效类型为雷声,可以配置标准雷声,在获知音效节奏信息为轻的雷声时,可以对标准雷声进行调整,以生成轻的雷声,或者,在获知音效节奏信息为重的雷声时,可以对标准雷声进行调整,以生成重的雷声。具体的调整音效的方式可以采用各种相关技术实现,比如可以预先训练一个调整模型,采用调整模型进行调整。
75.通过获取音效节奏信息,并基于音效节奏信息调整标准音效,可以仅配置标准音效,再采用自动化调整技术进行节奏信息的调整,可以节省存储资源。
76.一些实施例中,所述基于所述音效信息,在所述语音中添加所述待添加音效,包括:基于预设的配置信息,或者对所述文本进行语法分析,确定所述待添加音效的添加方式,所述添加方式包括:插入方式或者伴随方式;采用所述添加方式,基于所述音效信息,在
所述语音中添加所述待添加音效。
77.其中,配置信息是指可以对应每种类型的音效配置对应的添加方式,比如,对应开门声,其添加方式可以配置为插入方式,对应钢琴声,其添加方式可以配置为伴随方式。
78.对于插入方式,是指将音效插入两段语音之间,对于伴随方式,是指音效与语音同时存在。
79.通过以插入方式或伴随方式,在语音中添加音效,可以选择合适的添加方式,提高添加效果。
80.进一步地,在获得添加音效的语音后,还可以将添加音效的语音播放给用户,比如,通过用户使用的终端设备上的语音输出装置,比如扬声器进行播放。
81.本公开实施例中,通过在文本对应的语音中添加音效,可以提高有声读物的播放效果,提升用户体验。
82.上述涉及了采用模型预测音效信息,模型可以预先训练得到,模型可以采用如下方式训练得到。
83.图5是根据本公开第五实施例的示意图,本实施例提供一种音效信息预测模型的训练方法,该方法包括:
84.501、对已有样本进行增强处理,以获得增强样本。
85.502、采用所述增强样本,训练音效信息预测模型。
86.该音效信息预测模型可以用于上述的语音处理过程,即,所述音效信息预测模型用于对文本进行音效信息预测,以获得待添加音效的音效信息,所述音效信息用于在所述文本对应的语音中添加所述待添加音效。
87.由于训练样本的数量比较少,因此,可以采用小样本学习(few shot learning)的训练方式,训练音效类型预测模型。
88.该方式下,可以对已有样本进行增强处理,以获得增强样本,并采用则增强样本进行模型训练。
89.一些实施例中,所述对已有样本进行增强处理,以获得增强样本,包括如下项中的至少一项:对所述已有样本进行语义相似度扩展,以获得所述已有样本的语义相似文本,将所述语义相似文本作为所述增强文本;对所述已有样本中的特定关键词进行掩码处理,以获得掩码后的样本,将所述掩码后的样本作为所述增强样本;基于所述已有样本获取初始模型,采用所述初始模型获取带噪声无监督样本,将所述带噪声无监督样本作为所述增强文本。
90.音效预测模型可以为上述的多任务的预测模型,还可以包括上述的音效类型预测模型、音效位置预测模型、音效节奏预测模型。
91.本实施例以音效类型预测模型为例进行说明,其余模型可以参照执行。
92.对于语义相似度扩展的方式,比如,对应雷声,可以获得“打雷,雷声,沉雷,春雷,风雷,焦雷,雷暴,雷电,雷电交加,雷轰电闪,雷击,雷鸣,雷鸣电闪,雷霆,霹雷,炸雷”等语义相似文本,将其作为增强文本。对于该语义相似文本,对应的类型标签均对应雷声,从而扩展了文本数量。
93.对于掩码方式,比如,“猫的叫声”、“狗的叫声”这类语义结构相似的文本,可以在训练时对“猫”、“狗”这种关键词进行掩码,从而模型训练的损失函数(loss)是与音效位置
无关的,即,模型的任务是学习是否有动作正在发生,而不关注位置信息,比如,上述的示例中模型关注是否发生了叫声,而不关注是猫的叫声还是狗的叫声,从而增强模型的知识迁移泛化能力。
94.对于带噪声无监督样本,比如,已有样本是大量的下雨声的样本,则可以采用大量的下雨声的样本训练出初始模型,再采用该初始模型生成雷声样本,由于该初始模型是针对下雨声训练的,在预测雷声时,会存在一定的误差,即,生成的是带噪声无监督样本,之后,可以采用带噪声无监督样本进行带噪声无监督训练,以获得能预测雷声的模型。
95.进一步地,采用带噪声无监督样本,训练得到音效类型预测模型后,还可以用一些精标数据,即,准确的关于雷声的样本,对上述的带噪声的模型进行微调(finetune),以提高音效类型预测模型的预测精度。
96.本公开实施例中,通过对已有样本进行增强处理,可以在样本量较少时,得到性能较好的音效信息预测模型,进而可以提高有声读取的播放效果。
97.进一步地,通过多种增强处理方式,可以扩展样本数,提高音效信息预测模型的预测精确度,还可以提升音效信息预测模型的泛化能力。
98.需要说明的是,本实施例中的音效信息预测模型并不是针对某一特定用户的模型,并不能反映出某一特定用户的个人信息。
99.本实施例中的已有样本可以来自于公开数据集,或者是经过了对应的用户的授权。
100.本实施例中,音效信息预测模型的训练方法的执行主体可以通过各种公开、合法合规的方式获取已有样本,例如可以是从公开数据集处获取的,或者是经过了用户的授权从用户处获取的。
101.图6是根据本公开第六实施例的示意图,本实施例提供一种语音处理装置。如图6所示,该装置600包括:语音处理模块601、预测模块602和添加模块603。
102.语音处理模块601用于对文本进行语音处理,以获得所述文本对应的语音;预测模块602用于对所述文本进行音效信息预测,以获得待添加音效的音效信息;添加模块603用于基于所述音效信息,在所述语音中添加所述待添加音效。
103.一些实施例中,所述音效信息为多种,所述预测模块602具体用于:采用音效信息预测模型的共享部分对所述文本进行处理,以获得共享输出信息;采用所述音效信息预测模型中的多个特定部分,对所述共享输出信息进行处理,以获得所述多种音效信息。
104.一些实施例中,所述音效信息为多种,所述预测模块602具体用于:采用多个音效信息预测模型,对所述文本进行预测,以获得所述多种音效信息。
105.一些实施例中,所述多种音效信息包括音效位置信息和音效类型信息,所述多个音效信息预测模型包括音效位置预测模型和音效类型预测模型,所述预测模块进一步具体用于:采用所述音效位置预测模型,对所述文本进行预测,以获得所述音效位置信息;采用所述音效类型预测模型,对所述文本进行预测,以获得所述音效类型信息。
106.一些实施例中,所述多种音效信息包括音效位置信息和音效类型信息,所述添加模块603具体用于:基于预先配置的音效类型信息与音效之间的对应关系,确定所述音效类型预测模型获得的所述音效类型信息对应的音效,并基于所述确定的音效获取所述待添加音效;在所述语音的所述音效位置信息对应的位置处,添加所述获取的所述待添加音效。
107.一些实施例中,若所述待添加音效包含节奏信息,所述对应关系中的音效不包含节奏信息,所述多种音效信息还包括:音效节奏信息,所述多个音效信息预测模型还包括音效节奏预测模型,所述添加模块603进一步具体用于:采用所述音效节奏预测模型,对所述文本进行预测,以获得所述音效节奏信息;基于所述音效节奏信息,对所述确定的音效进行处理,以获得包含所述音效节奏信息的所述待添加音效。
108.一些实施例中,所述添加模块603具体用于:基于预设的配置信息,或者对所述文本进行语法分析,确定所述待添加音效的添加方式,所述添加方式包括:插入方式或者伴随方式;采用所述添加方式,基于所述音效信息,在所述语音中添加所述待添加音效。
109.本公开实施例中,通过在文本对应的语音中添加音效,可以提高有声读物的播放效果,提升用户体验。
110.图7是根据本公开第七实施例的示意图,本实施例提供一种音效信息预测模型的训练装置。所述音效信息预测模型用于对文本进行音效信息预测,以获得待添加音效的音效信息,所述音效信息用于在所述文本对应的语音中添加所述待添加音效,所述装置700包括:增强模块701和训练模块702。
111.增强模块701用于对已有样本进行增强处理,以获得增强样本;训练模块702用于采用所述增强样本,训练音效信息预测模型。
112.一些实施例中,所述增强模块701具体用于:
113.对所述已有样本进行语义相似度扩展,以获得所述已有样本的语义相似文本,将所述语义相似文本作为所述增强文本;
114.对所述已有样本中的特定关键词进行掩码处理,以获得掩码后的样本,将所述掩码后的样本作为所述增强样本;
115.基于所述已有样本获取初始模型,采用所述初始模型获取带噪声无监督样本,将所述带噪声无监督样本作为所述增强文本。
116.本公开实施例中,通过对已有样本进行增强处理,可以在样本量较少时,得到性能较好的音效信息预测模型,进而可以提高有声读取的播放效果。
117.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
118.可以理解的是,本公开实施例中,不同实施例中的相同或相似内容可以相互参考。
119.可以理解的是,本公开实施例中的“第一”、“第二”等只是用于区分,不表示重要程度高低、时序先后等。
120.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
121.图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
122.如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(rom)
802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
123.电子设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
124.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如语音处理方法或音效信息预测模型的训练方法。例如,在一些实施例中,语音处理方法或音效信息预测模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元808而被载入和/或安装到电子设备800上。当计算机程序加载到ram803并由计算单元801执行时,可以执行上文描述的语音处理方法或音效信息预测模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音处理方法或音效信息预测模型的训练方法。
125.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
126.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
127.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
128.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
129.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
130.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
131.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
132.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。