首页 > 乐器声学 专利正文
歌词识别方法、装置、设备、存储介质及产品与流程

时间:2022-02-24 阅读: 作者:专利查询

歌词识别方法、装置、设备、存储介质及产品与流程

1.本公开涉及人工智能技术领域中的语音技术领域,尤其涉及一种歌词识别方法、装置、设备、存储介质及产品。


背景技术:

2.随着人工智能技术的成熟,语音技术,尤其是语音识别技术的应用越来越多,诸如直播平台、视频网站等诸多领域均可以使用到歌曲文本信息的自动识别。例如,直播场景中,歌手可以通过直播方式演唱歌曲,用户可以通过客户端观看歌手的演唱视频,并将歌手演唱的歌曲文本信息同步展示给观看视频的用户。
3.但是,由于歌曲的旋律以及语调与普通的对话场景下的语音特性不同,相比于普通语音,歌曲中背景音乐对歌曲的识别也存在一定的影响,因此,对歌曲的歌词识别是一个比较困难的问题,歌词的识别精度不高。


技术实现要素:

4.本公开提供了一种用于歌曲类型的语音信号的歌词识别方法、装置、设备、存储介质及产品。
5.根据本公开的第一方面,提供了一种歌词识别方法,包括:
6.获取待识别语音信号对应的语音文本信息;其中,所述待识别语音信号为歌曲类型;
7.将所述语音文本信息进行分词处理,获得待识别词语;
8.基于多个歌曲分别对应的歌词文本信息,确定与所述待识别词语相匹配的目标歌曲;
9.从所述目标歌曲的歌词文本信息中,识别所述语音文本信息在所述目标歌曲对应的目标歌词信息。
10.根据本公开的第二方面,提供了一种歌词识别装置,包括:
11.文本识别单元,用于获取待识别语音信号对应的语音文本信息;
12.第一分词单元,用于将所述语音文本信息进行分词处理,获得待识别词语;
13.歌曲匹配单元,用于基于多个歌曲分别对应的歌词文本信息,确定与所述待识别词语相匹配的目标歌曲;
14.歌词确定单元,用于从所述目标歌曲的歌词文本信息中,确定所述语音文本信息在所述目标歌曲对应的目标歌词信息。
15.根据本公开的第三方面,提供了一种电子设备,包括:
16.至少一个处理器;以及
17.与所述至少一个处理器通信连接的存储器;其中,
18.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
19.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
20.根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
21.根据本公开的技术解决了因歌曲受歌曲的特殊发音、语调以及背景音乐等问题的影响,而导致的歌曲文本信息的识别率不高的技术问题,通过对待识别语音信号的语音文本信息进行分词,获得待识别词语,以词语为单位可以提高多个歌曲与待识别文本的匹配效率,高效率地获得目标歌曲。然后从目标歌曲的歌词文本信息中,确定语音文本信息对应的目标歌词信息,以将确定的目标歌词信息为用户展示,实现从歌曲正常的歌词文本信息中提取准确的目标歌词信息,提高了歌词的识别精度。实现快速而准确的歌曲识别。
22.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.附图用于更好地理解本方案,不构成对本公开的限定。其中:
24.图1是根据本公开提供的用于歌词识别方法的第一网络架构示意图;
25.图2是根据本公开第一实施例提供的歌词识别方法的流程示意图;
26.图3是根据本公开第二实施例提供的歌词识别方法的流程示意图;
27.图4是根据本公开第三实施例提供的歌词识别方法的流程示意图;
28.图5是根据本公开第四实施例提供的歌词识别方法的流程示意图;
29.图6是根据本公开第五实施例提供的歌词识别方法的流程示意图;
30.图7是根据本公开第六实施例提供的歌词识别方法的流程示意图;
31.图8是根据本公开第七实施例提供的歌词识别方法的结构示意图;
32.图9是用来实现本公开实施例的歌词识别方法的电子设备的框图。
具体实施方式
33.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
34.本公开的技术方案可以应用于歌曲识别场景中,特别是直播领域、视频网站领域、视频通讯领域中,对于识别演唱视频中的语音信号或者直接采集的演唱歌曲的语音信号进行准确识别。
35.相关技术中,对歌曲类型的语音信号的识别,通常采用与普通语音信号相同的识别方式进行识别,获得文本信息,然后将识别的文本信息展示给用户。但是由于歌曲的旋律以及语调与普通的对话场景下的语音特性不同,相比于普通语音此外,歌曲中背景音乐对歌曲的识别也存在一定的影响,因此,对歌曲的歌词识别是一个比较困难的问题,歌词的识
别精度不高。
36.据此,发明人想到,在获得歌曲类型的语音信号进行普通的文本信息识别之后,进行更详细的歌词识别,以获得更准确的识别结果。此时,发明人想到,不同歌曲的歌词是可以获得的,利用识别的文本信息,以及各个歌曲的歌词,确定歌曲,然后,对识别的目标歌曲的歌词文本信息进行歌词匹配,以将与文本信息匹配的某段歌词输出,则可以实现歌词的准确输出,提高歌词识别精度。
37.本公开提供一种歌词识别方法、装置、设备、存储介质及产品,应用于人工智能技术领域中的语音领域,特别是语音识别领域,以达到歌曲类型的语音信号所对应歌词的快速而准确的识别的技术效果。
38.根据本公开的技术方案,针对歌曲类型的待识别语音信号,可以进行文本识别,获得语音文本信息。然后对待识别语音信号的语音文本信息进行分词,获得待识别词语,以词语为单位可以提高多个歌曲与待识别文本的匹配效率,高效率地获得目标歌曲。然后从目标歌曲的歌词文本信息中,确定语音文本信息对应的目标歌词信息,以将确定的目标歌词信息为用户展示,实现从歌曲正常的歌词文本信息中提取准确的目标歌词信息,提高了歌词的识别精度。实现快速而准确的歌曲识别。
39.下面将结合附图对本公开的技术方案进行详细介绍。
40.图1是根据本公开提供的用于歌曲类型的语音信号进行歌词识别方法的一个应用的网络架构图。如图1所示,该网络架构中可以包括一个电子设备1、第一用户终端2以及第二用户终端3,在图1所示示例中,第二用户终端3例如可以为:自动驾驶汽车31、平板电脑32和/或手机33等。需要说明的是图1所示实施例中所示出的第二用户终端3的数量以及类型均是示意性的,并不应构成对第二用户终端3的具体限定。第一用户终端2可以采集第一用户演唱时声音信号,或者视频,通过直接采集的方式或者提取视频中的声音信号的方式,可以获得歌曲类型的语音信号,然后电子设备1获取待识别语音信号,电子设备1根据本公开的歌曲识别方法对待识别语音信号进行识别,获得目标歌词信息之后,可以将目标歌词信息发送至任意第二用户终端3。获取到目标歌词信息的第二用户终端3可以为第二用户展示目标歌词信息,例如同步显示视频以及目标歌词信息。在一些情况下,电子设备1还可以通过第一用户终端2为第一用户显示视频以及目标歌词信息。
41.该电子设备1可以为云服务器1以及一个与云服务器1通过局域网或者广域网进行网络连接的第一用户终端2以及第二用户终端3。电子设备1例如可以为普通服务器,云服务器等类型的服务器、或者计算机、笔记本、超级计算机等设备,本公开中对电子设备的具体类型并不作出过多限定。第一用户终端2或者第二用户终端3例如可以为计算机、笔记本、平板电脑、可穿戴设备、智能家电、手机、带有显示屏幕的智能驾驶车辆等终端设备,本公开实施例中对第一用户终端2以及第二用户终端3的具体类型并不作出过多限定。
42.如图2所示,为本公开第一实施例提供的一种歌词识别方法的流程图,如图2所示,本技术提供的歌词识别方法的执行主体为歌词识别装置,该歌词识别装置位于电子设备中,则实施例提供的歌词识别方法可以包括以下几个步骤:
43.201:获取待识别语音信号对应的语音文本信息。
44.其中,待识别语音信号为歌曲类型。
45.可选地,可以采用语音识别算法识别待识别语音信号对应的语音文本信息。语音
识别算法例如可以为基于动态时间规整(dynamic time warping)算法,基于参数模型的隐马尔可夫模型算法,基于人工神经网络的算法或者混合算法。本公开所涉及的语音识别算法可以是相关技术中任一种,并不对语音识别算法的具体类型作出过多限定。
46.语音文本信息可以对待语音识别算法进行文本识别获得。
47.待识别语音信号可以为任意语种的语音信号。语音文本信息可以由识别的至少一个汉字或者至少一个字符构成。当然,在实际应用中,电子设备可以同时对多个语音文本信息进行歌词识别,为了区分每个语音信号,语音文本信息与对应语音信号的语音标识、时间戳、关联的视频标识等信息进行关联。
48.202:将语音文本信息进行分词处理,获得待识别词语。
49.待识别词语可以包括多个。每个待识别词语可以为语音文本信息中连续的两个以上的汉字或者字母构成。语音文本信息中每个汉字或者字母被分词至少一次。
50.203:基于多个歌曲分别对应的歌词文本信息,确定与待识别词语相匹配的目标歌曲。
51.可选地,可以将待识别词语与多个歌曲分别对应的歌词文本信息进行匹配,以获得具有待识别词语的歌词文本信息,从而确定具有待识别词语的歌词文本信息所对应的歌曲为目标歌曲。
52.歌词文本信息可以包括至少一个汉字或者至少一个字符。为了区分每个歌曲的歌词文本,歌词文本信息中与对应歌曲的歌曲名称等信息进行关联。
53.204:从目标歌曲的歌词文本信息中,识别语音文本信息在目标歌曲对应的目标歌词信息。
54.其中,可以从目标歌曲的歌词文本信息中确定预语音文本信息最匹配或者最相似的一段歌词作为目标歌词信息。目标歌词信息可以为歌词文本信息中的某一段歌词。
55.本实施例中,针对歌曲类型的待识别语音信号,可以进行文本识别,获得语音文本信息。然后对待识别语音信号的语音文本信息进行分词,获得待识别词语,以词语为单位可以提高多个歌曲与待识别文本的匹配效率,高效率地获得目标歌曲。然后从目标歌曲的歌词文本信息中,确定语音文本信息对应的目标歌词信息,以将确定的目标歌词信息为用户展示,实现从歌曲正常的歌词文本信息中提取准确的目标歌词信息,提高了歌词的识别精度。实现歌词的快速而准确的歌曲识别。
56.作为一个实施例,基于多个歌曲分别对应的歌词文本信息,确定与待识别词语相匹配的目标歌曲,可以包括:
57.获得多个歌曲各自的歌词文本信息对应的歌曲词语;
58.从多个歌曲各自的歌词文本信息对应的歌曲词语中,查找与待识别词语相匹配的目标歌曲。
59.可选地,获得多个歌曲分别对应的歌曲词语,可以包括:
60.对任一个歌曲的歌词文本信息进行分词处理,以获得多个歌曲各自的歌词文本信息对应的歌曲词语。
61.任一个歌词文本信息对应的歌曲词语可以包括多个。歌词文本信息的分词方式与语音文本信息的分词方式可以相同。每个歌曲词语可以为歌词文本信息中连续的两个以上的汉字或者字母构成。歌词文本信息中每个汉字或者字母被分词至少一次。
62.本实施例中,通过获取多个歌曲各自的歌词文本信息分别对应的歌曲词语,以从多个歌曲各自的歌曲词语中,查找与待识别词语相匹配的目标歌曲。通过以词语为单位,进行词语之间的匹配,可以快速查找到与待识别词语匹配的词语所对应的目标歌曲,实现目标歌曲快速而准确的查找。
63.为了快速获得各个歌曲对应的歌曲词语,可以预先建立各歌曲的歌曲词语库。作为又一个实施例,获得多个歌曲各自的歌词文本信息对应的歌曲词语,包括:
64.从歌曲词语库中,获取多个歌曲分别对应的歌曲词语;其中,多个歌曲分别对应的歌曲词语基于多个歌曲分别对应的歌词文本信息分词处理获得。
65.可选地,歌曲词语库可以为预先建立的多个歌曲分别对应的歌曲词语所形成的数据库。
66.本实施例中,通过建立歌曲词语库的方式,可以实现多个歌曲分别对应的歌曲词语的快速获取,避免因实时对多个歌曲进行实时分词的方式造成的歌曲词语获取效率较低的问题,进一步提高目标歌曲的查询效率,从而对目标歌词信息的获取效率有效提升。
67.如图3所示,为根据本公开第二实施例提供的一种歌词识别方法的流程图,该方法的执行主体可以是歌词识别装置,该歌词识别装置可以位于电子设备中,图3所示的歌词识别方法可以包括以下几个步骤:
68.301:获取待识别语音信号对应的语音文本信息。
69.其中,待识别语音信号为歌曲类型。
70.本实施例中部分步骤与上述实施例中部分步骤相同,为了描述的简洁性考虑,在此不再赘述。
71.302:将语音文本信息进行分词处理,获得待识别词语。
72.303:获得多个歌曲各自的歌词文本信息对应的歌曲词语。
73.其中,多个歌曲分别对应的歌曲词语基于多个歌曲分别对应的歌词文本信息分词处理获得。
74.304:分别计算待识别词语与多个歌曲各自的歌词文本信息对应的歌曲词语的相似度,获得多个歌曲分别对应的相似度。
75.可选地,可以计算待识别词语与任一个歌曲的歌词文本信息对应歌曲词语的相似度,获得该歌曲对应的相似度。
76.待识别词语可以包括多个。任一歌曲的歌词文本信息对应歌曲词语可以包括多个。计算待识别词语与任一个歌曲的歌词文本信息对应歌曲词语的相似度可以是计算多个待识别词语与任一个歌曲的歌词文本信息对应多个歌曲词语之间的词语相似度,获得该歌曲对应的相似度。
77.305:根据多个歌曲分别对应的相似度,从多个歌曲中确定满足相似度条件的目标歌曲。
78.306:从目标歌曲的歌词文本信息中,识别语音文本信息在目标歌曲对应的目标歌词信息。
79.本实施例中,获取待识别语音信号的语音文本信息之后,可以将语音文本信息进行分词处理,获得待识别词语。同样,可以获得多个歌曲各自的歌词文本信息对应的歌曲词语。从而以词语为单位实现待识别词语与多个歌曲各自的歌词文本信息对应歌曲词语的相
似度,获得多个歌曲分别对应的相似度,实现歌曲词语与待识别词语之间的相似度的准确计算,获得准确的相似度计算结果。从而选择满足相似度条件的目标歌曲。实现目标歌曲的快速而准确的获取。从歌曲正常的歌词文本信息中提取准确的目标歌词信息,进一步提高了歌词的识别精度。实现歌词的快速而准确的歌曲识别。
80.可选地,根据多个歌曲分别对应的相似度,从多个歌曲中确定满足相似度条件的目标歌曲包括:
81.将多个歌曲分别对应的相似度从大到小排序后,选择前n个相似度不小于相似度阈值的目标歌曲。
82.在一种可能的设计中,n可以为大于等于1的正整数。n可以预先设置获得。
83.可选地,假设不小于相似度阈值的歌曲的数量使用m表示,m为大于等于1的正整数。n可以小于m,也即从m个相似度不小于相似度阈值的歌曲中选择前n个歌曲作为目标歌曲。例如,假设查找到10个相似度不小于相似度阈值的歌曲,n为4时,即可以获得4个目标歌曲。从多个歌曲中选择n个相似度不小于相似度阈值的目标歌曲时,获得n个目标歌曲。当n大于1时,目标歌曲可以包括多个。本实施例中,采用将多个歌曲分别对应的相似度按照从大到小的顺序进行排序的方式,可以从多个歌曲中选择与待识别语音信号最相似的n个目标歌曲,实现目标歌曲的准确选取,进而提高歌词的识别准确度。
84.作为一个实施例,上述步骤304:分别计算待识别词语与多个歌曲各自的歌词文本信息对应的歌曲词语的相似度,获得多个歌曲分别对应的相似度可以包括:
85.从多个歌曲各自的歌词文本信息对应的歌曲词语中,查找歌曲词语包括待识别词语的至少一个候选歌曲;
86.确定任一个候选歌曲的歌曲词语与待识别词语之间的相同词语的词语数量,以获得至少一个候选歌曲分别对应的词语数量;
87.计算至少一个候选歌曲分别对应的词语数量与待识别词语的词语总量之间的比值,获得至少一个候选歌曲分别对应的相似度;
88.确定不包含待识别词语的歌曲与待识别词语的相似度为零。
89.在一些特殊情况下,若所有歌曲对应的相似度均为零,可以确定不存在与待识别语音信号相匹配的目标歌曲。此时,可以输出不存在目标歌曲的提示信息。
90.以语音文本信息为“我有一只猫”为例,分词处理获得“我有”“有一”“一只”“只猫”,这四个词即可以构成语音文本信息的多个待识别词语。
91.假设歌曲a、歌曲b、歌曲c作为多个歌曲。歌曲a的歌词文本信息“我是一只鸟”进行分词之后,获得“我是”“是一”“一只”“只鸟”四个歌曲词语。b的歌词文本信息“你是一支花”进行分词后,获得“你是”“是一”“一支”“支花”四个歌曲词语。而歌曲c的歌词文本信息“我有一只猫,但是它丢了”进行分词后获得“我有”“有一”“一只”“只猫”“猫但”“但是”“是它”“它丢”“丢了”。
92.将语音文本信息的多个待识别词语,与多个歌曲各自的多个歌曲词语分别进行匹配,以获得包含待识别词语的至少一个候选词语。以前述歌曲a、歌曲b以及歌曲c为例,歌曲a中,包含多个待识别词语中的一个词语“一只”。歌曲b中不包括多个待识别词语。歌曲c中包括多个待识别词语中的所有词语,“我有”“有一”“一只”“只猫”。此时,歌曲a与歌曲c可以作为候选歌曲。
93.之后,可以计算任一个候选歌曲的歌曲词语与待识别词语之间的相同词语的词语数量,也即获得任一候选词语的多个歌曲词语与多个待识别词语之间相同词语的词语数量。例如,歌曲a与待识别词语的相同词语数量是1。歌曲c与待识别词语的词语数量是4。
94.而为了进一步对后续歌曲进行准确选择,可以计算任一候选词语的相同词语数量占待识别词语的比值。也即计算任一个候选词语的词语数量与待识别词语的词语总量之间的比值,获得该候选歌曲对应的相似度。例如,待识别词语的词语总量为4。歌曲a的词语数量1与词语总量4的比值是0.25,因此,歌曲a与待识别词语的相似度为0.25。歌曲c的词语数量4与词语总量4的比值是1。因此,歌曲a与待识别词语的相似度为1。
95.而由于歌曲b中不包含任一个待识别词语,可以确定歌曲b与待识别词语的相似度为0。
96.在获得多个歌曲分别对应的相似度之后,可以从多个歌曲中确定满足相似度条件的目标歌曲。相似度条件例如可以为相似度大于相似度阈值,且数量不超过5。上述示例中,将多个歌曲的相似度从大到小的顺序进行排序,可以获得1,0.25,0。假设相似度阈值为50%,则从中选择相似度1对应的歌曲,也即歌曲c为目标歌曲。
97.本实施例中,通过计算歌曲词语与待识别词语之间的相同词语数据,可以对每个歌曲与待识别词语的相同词语数量进行确定,以词语为单位进行相似度比较,效率高且准确度高,可以快速而准确地确定每个歌曲与待识别词语的相似度。
98.作为又一个实施例,任一个文本信息分词处理步骤具体包括:
99.确定预设分词长度的分词窗口以及分词步长;
100.从任一个文本信息的第一个字符开始,按照分词步长,控制分词窗口在文本信息的多个字符中顺序滑动,获得每一次滑动产生的词语,以获得文本信息对应的多个词语。
101.可选地,上述涉及的任一个文本信息可以为语音文本信息或者多个歌曲分别对应的歌词文本信息中的任一个。每个歌曲的歌曲词语可以通过上述文本信息的分词处理步骤获得。语音文本信息的待识别词语可以通过上述文本信息的分词处理步骤获得。在将任一个文本信息进行分词之前,还可以去除该文本信息中的标点符号,以仅对文字进行分词。被分词的文本信息可以为去除标点符号的文字信息。
102.可选地,分词窗口的窗口长度可以为大于1的正整数。
103.为了提高语音文本信息与歌曲词语的匹配精度,可以将分词窗口设置为2。分词步长可以设置为1。本实施例中对窗口大小设置或步长的设置均是针对汉字数量或者字符数量而言的。例如,以汉字为例,分词窗口设置为2,分词设置为1时,则每个词的包括两个汉字,每次滑动的间隔为一个汉字。
104.为了便于理解,以语音文本信息为“我有一只猫”为例,以分词窗口为2,分词步长为1对该语音文本信息进行分词处理时,获得的分词结果为“我有”“有一”“一只”“只猫”,这四个词即可以构成语音文本信息的多个待识别词语。
105.本实施例中,通过采用窗口滑动方式,从任一个文本信息执行分词处理,以实现文本信息的自动化分词,提高分词效率以及分词准确度。
106.如图4所示,为根据本公开第三实施例提供的一种歌词识别方法的流程图,该方法的执行主体可以是歌词识别装置,该歌词识别装置可以位于电子设备中,图4所示的歌词识别方法可以包括以下几个步骤:
107.401:获取待识别语音信号对应的语音文本信息。
108.其中,待识别语音信号为歌曲类型。
109.本实施例中部分步骤与前述实施例中部分步骤相同,为了描述的简洁性考虑,在此不再赘述。
110.402:将语音文本信息进行分词处理,获得待识别词语。
111.403:基于多个歌曲分别对应的歌词文本信息,确定与待识别词语相匹配的目标歌曲。
112.404:确定语音文本信息在歌词文本信息中的目标位置信息。
113.405:获取歌词文本信息中目标位置信息对应的目标歌词信息。
114.406:从目标歌曲的歌词文本信息中,识别语音文本信息在目标歌曲对应的目标歌词信息。
115.本实施例中,在从目标歌曲的歌词文本信息中,识别语音文本信息在目标歌曲对应的目标歌词信息时,可以确定语音文本信息在歌词文本信息中的目标位置信息,从而获取歌词文本信息中目标位置信息对应的目标歌词信息。通过对待识别词语进行位置定位以获取到对应的目标歌词信息,实现歌词信息的准确获取。
116.作为一种可选实施方式,步骤404:确定语音文本信息在歌词文本信息中的目标位置信息,可以包括:
117.基于距离预测算法,计算歌词文本信息中与语音文本信息转换距离满足预设距离约束条件的子文本信息;
118.确定子文本信息在歌词文本信息中的位置信息为目标位置信息。
119.可选地,距离预测算法例如可以包括字符串最小编辑距离算法或者最长公共子序列算法等。通过距离预测算法,寻找歌词文本信息中与语音文本信息满足预设转换距离约束条件的子文本信息。
120.转换距离可以包括语音文本信息转换为子文本信息的字符编辑次数或者子文本信息转换为语音文本信息的字符编辑次数。编辑操作可以包括将一个字符替换为另一个字符。转换距离越小,两个文本信息的相似度越大。
121.距离约束条件具体可以包括转换距离足够小或者多个候选子文本信息与语音文本信息之间分别对应的转换距离中的最小转换距离。任一候选子文本信息可以是歌词文本信息中选取的任意一段文本信息。
122.距离约束条件的确定步骤具体可以是从歌词文本信息中选择多个候选子文本信息,并对多个候选子文本信息分别与语音文本信息分别进行编辑次数计算,获得多个转换距离,进而从中多个转换距离中选择最小的转换距离对应的候选子文本信息为最后获得的子文本信息。
123.在基于距离预测算法,计算歌词文本信息中与语音文本信息距离满足预设距离约束条件的子文本信息时,可以将歌词文本信息按照顺序进行编号,每个标点符号也可以按照其所在位置进行编号,例如,歌词文本信息中某段歌词:“知己结伴的仲夏,夜市闹三更”在歌词文本信息中的编号例如可以为“知(253)己(254)结(255)伴(256)的(257)仲(258)夏(259),(260)夜(261)市(262)闹(263)三(264)更(265)”。
124.目标位置信息可以包括子文本信息在歌词文本信息中的编号位置信息。假设,上
述示例中的子文本信息与语音文本信息“知己结伴的仲夏夜市小三顶”之间的转换距离满足距离约束条件时,该子文本信息在歌词文本信息的第一个编号253开始至最后一个编号265,也即253

265即可以用于生成目标位置信息。
125.本实施例中,采用距离预测算法,计算歌词文本信息中与语音文本信息距离满足预设距离约束条件的子文本信息。通过确定子文本信息在歌词文本信息中的位置信息为目标位置信息。实现子文本信息在歌词文本信息总的位置的准确预测。
126.在上述任一实施例中,目标歌曲可以包括多个,目标歌词信息可以包括多个。确定目标歌词信息之后,可以对目标歌词信息进行进一步识别。
127.如图5所示,为根据本公开第四实施例提供的一种歌词识别方法的流程图,该方法的执行主体可以是歌词识别装置,该歌词识别装置可以位于电子设备中,图5所示的歌词识别方法可以包括以下几个步骤:
128.501:获取待识别语音信号对应的语音文本信息。
129.其中,待识别语音信号为歌曲类型。
130.本实施例中部分步骤与上述实施例中部分步骤相同,为了描述的简洁性考虑,在此不再赘述。
131.502:将语音文本信息进行分词处理,获得待识别词语。
132.503:基于多个歌曲分别对应的歌词文本信息,确定与待识别词语相匹配的多个目标歌曲。
133.504:从多个目标歌曲的歌词文本信息中,识别语音文本信息在多个目标歌曲分别对应的目标歌词信息。
134.505:计算语音文本信息与多个目标歌词信息分别对应的文字匹配度。
135.506:根据多个目标歌词信息分别对应的文字匹配度,从多个目标歌词信息中选择文字匹配度最高的作为最终的目标歌词信息。
136.在一种可能的设计中,根据多个目标歌词信息分别对应的文字匹配度,若多个目标歌词信息分别对应的文字匹配度均小于预设匹配度阈值,可以确定多个目标歌词信息中不存在满足歌词使用条件的歌曲信息。此时,可以将语音文本信息作为最终的识别结果反馈给用户。例如,将语音文本信息反馈给第一用户的第一用户端或者第二用户的第二用户终端。
137.本实施例中,从多个歌曲中确定的与待识别词语相匹配的目标歌曲可以包括多个。对于多个目标歌曲,可以分别确定多个目标歌曲分别与语音文本信息相匹配的目标歌词信息。从而确定目标歌词信息,为了从多个目标歌词信息中选择更准确的歌词信息,可以采用文字匹配度的方式,从多个目标歌词信息中选择文字匹配度最高的作为最终的目标歌词信息。实现目标歌词信息的准确选择,实现歌词的更精确的匹配。
138.作为一种可能的实施方式,计算语音文本信息与多个目标歌词信息分别对应的文字匹配度,可以包括:
139.针对任一个目标歌词信息,计算目标歌词信息的多个第一字符与语音文本信息的多个第二字符中相同字符的字符数量与多个第二字符的字符总量的比值,以获得多个目标歌词信息分别对应的相同字符占比。
140.将多个目标歌词信息分别对应的相同字符占比确定为对应的文字匹配度。
141.可选地,字符可以包括汉字或者字母。任一个目标歌词信息对应的相同字符占比为该目标歌词信息的多个第一字符与语音文本信息的多个第二字符中相同字符的字符数量与多个第二字符的字符总量的比值。
142.根据多个目标歌词信息分别对应的文字匹配度,从多个目标歌词信息中选择文字匹配度最高的作为最终的目标歌词信息,也即可以是根据多个目标歌词信息分别对应的相同字符占比,从多个目标歌词信息中选择相同字符占比最高的作为最终的目标歌词信息。
143.本实施例中,对于语音文本信息与多个目标歌词信息分别对应的文字匹配度的计算方式,可以针对任一个目标歌词信息,计算目标歌词信息的多个第一字符与语音文本信息的多个第二字符中相同字符的字符数量与多个第二字符的字符总量的比值,以获得多个目标歌曲分别对应的相同字符占比。以将多个目标歌曲分别对应的相同字符占比作为各个目标歌曲分别对应的文字匹配度,实现文字的精确匹配,提高匹配效率。
144.本公开提供的歌词识别方法可以应用于诸多应用场景中,例如直播场景、歌曲识别场景、版权识别等场景中。图6以及图7描述了根据本公开提供的歌词识别方法的不同应用场景。
145.需要说明的是,本公开实施例中所描述的“第一”“第二”等词语是为了从名称上进行区分,而并不包含顺序上或者大小上的限定。
146.如图6所示,为根据本公开第五实施例提供的一种歌词识别方法的流程图,该方法的执行主体可以是歌词识别装置,该歌词识别装置可以位于电子设备中,图6所示的歌词识别方法可以包括以下几个步骤:
147.601:获取第一用户通过第一用户终端提供的待识别语音信号对应的语音文本信息。
148.其中,待识别语音信号为歌曲类型。
149.602:将语音文本信息进行分词处理,获得待识别词语。
150.603:基于多个歌曲分别对应的歌词文本信息,确定与待识别词语相匹配的目标歌曲;
151.604:从目标歌曲的歌词文本信息中,识别语音文本信息在目标歌曲对应的目标歌词信息。
152.605:向第二用户对应的第二用户终端输出目标歌词信息。
153.可选地,向第二用户对应第二用户终端输出目标歌词信息可以包括:向第二用户对应第二用户终端同步输出待识别语音信号以及目标歌词信息。
154.本实施例中,提供一种对第一用户的第一用户端进行语音信号的采集,以及将识别的目标歌词信息反馈给第二用户的第二用户终端进行展示的场景,通过在不同客户端进行采集与展示,实现歌词识别的多端交互,扩展应用效果。
155.可选地,用户终端可以为手机、平板电脑、个人计算机等电子设备。用户终端可以配置有声音采集模块以及声音输出模块。声音采集模块可以采集语音信号。声音输出模块可以输出语音信号。此外,用户终端还可以配置有显示屏幕,以通过显示屏幕输出目标歌词信息。
156.声音采集模块、声音输出模块以及显示屏幕可以位于用户终端,也可以是与用户终端独立的设备模块,本实施例中对用户终端与声音采集模块、声音输出模块或者显示屏
幕的连接方式并不作出具体限定。
157.作为一个实施例,步骤605:向第二用户对应的第二用户终端输出目标歌词信息,可以包括:
158.获取第一用户通过第一用户终端提供的与待识别语音信号对应的第一视频;
159.向第二用户的第二用户终端同步输出第一视频以及目标歌词信息,以使得第二用户终端显示具有目标歌词的第一视频。
160.当然,在向第二用户的第二用户终端同步输出第一视频以及目标歌词信息,以使得第二用户终端显示具有目标歌词的第一视频的同时,还可以向第一用户的第一用户终端同步输出第一视频以及目标歌词信息,以使得第一用户终端显示具有目标歌词的第一视频。
161.可选地,第二用户的第二用户终端同步输出第一视频以及目标歌词信息,以使得第二用户终端显示具有目标歌词的第二视频可以包括:将目标歌词信息按照时间戳增加到第一视频中,获得最终的第一视频;向第二用户的第二用户终端输出最终的第一视频,以使得第二用户终端显示具有目标歌词的第一视频。
162.其中,第一视频可以通过第一用户端对应的视频采集模块采集获得。待识别语音信号可以从第一视频中提取获得。当然,待识别语音信号也可以与第一视频的视频画面分别采用不同的设备获得,并通过时间戳将语音信号与视频信号同步。
163.本实施例中,可以同步向第二用户输出第一视频以及目标歌词信息,实现视频与歌词的同步输出,实现歌词的准确输出。
164.如图7所示,为根据本公开第六实施例提供的一种歌词识别方法的流程图,该方法的执行主体可以是歌词识别装置,该歌词识别装置可以位于电子设备中,图7所示的歌词识别方法可以包括以下几个步骤:
165.701:获取第一用户通过第一用户终端提供的待识别语音信号对应的语音文本信息。
166.其中,待识别语音信号为歌曲类型。
167.702:将语音文本信息进行分词处理,获得待识别词语。
168.703:基于多个歌曲分别对应的歌词文本信息,确定与待识别词语相匹配的目标歌曲。
169.704:从目标歌曲的歌词文本信息中,识别语音文本信息在目标歌曲对应的目标歌词信息。
170.705:向第一用户对应的第一用户终端输出目标歌词信息。
171.可选地,向第一用户对应第一用户端输出目标歌词信息可以包括:向第一用户对应第一用户端输出直接以文本形式输出目标歌词信息。
172.本实施例中,提供一种对第一用户的第一用户端进行语音信号的采集,以及将识别的目标歌词信息反馈给第一用户的第一用户端进行展示的场景,以使得第一用户在第一用户端查看到相应的目标歌词信息,对歌词识别结果进行确认,提高被识别歌词的应用效率。
173.作为一个实施例,步骤705:向第一用户对应的第一用户终端输出目标歌词信息,可以包括:
174.基于目标歌词信息,生成歌词显示页面;
175.将歌词显示页面发送至第一用户对应的第一用户终端,以供第一用户终端显示歌词显示页面中的目标歌词信息。
176.本实施例中,以歌词显示页面的形式为第一用户输出目标歌词信息,以供第一用户查看,实现歌词的文本显示,提高显示效果。
177.在一种可能的设计中,为第一用户输出目标歌词信息之后,还包括:
178.向第一用户终端输出目标歌曲的歌曲名称以及播放提示信息;播放提示信息用于指示第一用户执行播放确认操作,以为第一用户播放目标歌曲。
179.本实施例中,还可以向用户输出目标歌曲的歌曲名称以及播放提示信息,以便于第一用户对目标歌曲是否进行播放进行确认,实现目标感歌词信息对应目标歌曲的有效提示,提高歌词的应用效率。
180.如图8所示,为根据本公开第七实施例提供的一种歌词识别装置的结构示意图,该歌词识别装置配置有上述实施例的歌词识别方法,该歌词识别装置可以位于电子设备中,图8所示的歌词识别装置800可以包括以下几个单元:
181.文本识别单元801:用于获取待识别语音信号对应的语音文本信息;
182.第一分词单元802:用于将语音文本信息进行分词处理,获得待识别词语;
183.歌曲匹配单元803:用于基于多个歌曲分别对应的歌词文本信息,确定与待识别词语相匹配的目标歌曲;
184.歌词确定单元804:用于从目标歌曲的歌词文本信息中,确定语音文本信息在目标歌曲对应的目标歌词信息。
185.本实施例中,针对歌曲类型的待识别语音信号,可以进行文本识别,获得语音文本信息。然后对待识别语音信号的语音文本信息进行分词,获得待识别词语,以词语为单位可以提高多个歌曲与待识别文本的匹配效率,高效率地获得目标歌曲。然后从目标歌曲的歌词文本信息中,确定语音文本信息对应的目标歌词信息,以将确定的目标歌词信息为用户展示,实现从歌曲正常的歌词文本信息中提取准确的目标歌词信息,提高了歌词的识别精度。实现快速而准确的歌曲识别。
186.作为一个实施例,歌曲匹配单元,可以包括:
187.歌曲获取模块,用于获得多个歌曲各自的歌词文本信息对应的歌曲词语;
188.歌曲匹配模块,用于从多个歌曲各自的歌词文本信息对应的歌曲词语中,查找与待识别词语相匹配的目标歌曲。
189.在一种可能的设计中,歌曲获取模块,可以包括:
190.歌曲获取子模块,用于从歌曲词语库中,获取多个歌曲分别对应的歌曲词语;其中,多个歌曲分别对应的歌曲词语基于多个歌曲分别对应的歌词文本信息分词处理获得。
191.在某些实施例中,歌曲匹配单元,可以包括:
192.相似计算模块,用于分别计算待识别词语与多个歌曲各自的歌词文本信息对应的歌曲词语的相似度,获得多个歌曲分别对应的相似度;
193.相似比较模块,用于根据多个歌曲分别对应的相似度,从多个歌曲中确定满足相似度条件的目标歌曲。
194.可选地,相似比较模块包括:
195.相似比较子模块,用于将多个歌曲分别对应的相似度从大到小排序后,选择前n个相似度不小于相似度阈值的目标歌曲;n为大于等于1的正整数。
196.可选地,相似计算模块,可以包括:
197.候选查找子模块,用于从多个歌曲各自的歌词文本信息对应的歌曲词语中,查找歌曲词语包括待识别词语的至少一个候选歌曲;
198.词语确定子模块,用于确定任一个候选歌曲的歌曲词语与待识别词语之间的相同词语的词语数量,以获得至少一个候选歌曲分别对应的词语数量;
199.相似计算子模块,用于计算至少一个候选歌曲分别对应的词语数量与待识别词语的词语总量之间的比值,获得至少一个候选歌曲分别对应的相似度;
200.相似确定子模块,用于确定不包含待识别词语的歌曲与待识别词语的相似度为零。
201.作为又一个实施例,装置800还可以包括:
202.分词设置单元,用于确定预设分词长度的分词窗口以及分词步长;
203.分词处理单元,用于从任一个文本信息的第一个字符开始,按照分词步长,控制分词窗口在文本信息的多个字符中顺序滑动,获得每一次滑动产生的词语,以获得文本信息对应的多个词语。
204.作为又一个实施例,歌词确定单元,可以包括:
205.位置确定模块,用于确定语音文本信息在歌词文本信息中的目标位置信息;
206.歌词截取模块,用于获取歌词文本信息中目标位置信息对应的目标歌词信息。
207.在一种可能的设计中,位置确定模块,可以包括:
208.距离计算子模块,用于基于距离预测算法,计算歌词文本信息中与语音文本信息距离满足预设距离约束条件的子文本信息;
209.位置确定子模块,用于确定子文本信息在歌词文本信息中的位置信息为目标位置信息。
210.作为又一个实施例,目标歌曲包括多个;目标歌词信息为多个;装置800还可以包括:
211.文字匹配单元,用于计算语音文本信息与多个目标歌词信息分别对应的文字匹配度;
212.文字选择单元,用于根据多个目标歌词信息分别对应的文字匹配度,从多个目标歌词信息中选择文字匹配度最高的作为最终的目标歌词信息。
213.在一种可能的实施方式中,文字匹配单元,可以包括:
214.相似比较模块,用于针对任一个目标歌词信息,计算目标歌词信息的多个第一字符与语音文本信息的多个第二字符中相同字符的字符数量与多个第二字符的字符总量的比值,以获得多个目标歌词信息分别对应的相同字符占比;
215.匹配确定模块,用于将多个目标歌词信息分别对应的相同字符占比确定为对应的文字匹配度。
216.作为一个实施例,其中,文本识别单元,可以包括:
217.第一识别模块,用于获取第一用户通过第一用户终端提供的待识别语音信号对应的语音文本信息;
218.装置还包括:
219.第一输出单元,用于向第二用户对应的第二用户终端输出目标歌词信息。
220.可选地,第一输出单元,可以包括:
221.视频获取模块,用于获取第一用户通过第一用户终端提供的与待识别语音信号对应的第一视频;
222.视频输出模块,用于向第二用户的第二用户终端同步输出第一视频以及目标歌词信息,以使得第二用户终端显示具有目标歌词的第二视频。
223.作为又一个实施例,文本识别单元,可以包括:
224.第二识别模块,用于获取第一用户通过第一用户终端提供的待识别语音信号对应的语音文本信息;
225.装置还包括:
226.第二输出单元,用于向第一用户对应的第一用户终端输出目标歌词信息。
227.在一种可能的设计中,装置800还可以包括:
228.提示确认单元,用于向第一用户终端输出目标歌曲的歌曲名称以及播放提示信息;播放提示信息用于指示第一用户执行播放确认操作,以为第一用户播放目标歌曲。
229.在又一种可能的设计中,第二输出单元,可以包括:
230.页面生成模块,用于基于目标歌词信息,生成歌词显示页面;
231.页面输出模块,用于将歌词显示页面发送至第一用户对应的第一用户终端,以供第一用户终端显示歌词显示页面中的目标歌词信息。
232.需要说明的是,本实施例中的待识别语音信号并不是针对某一特定用户的语音信号,并不能反映出某一特定用户的个人信息。需要说明的是,本实施例中的多个歌曲来自于公开数据集。
233.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
234.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
235.根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
236.图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
237.如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram 903中,还可存储设备900操作所需的各种程序和数据。计
算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
238.设备900中的多个部件连接至i/o接口905,包括:输入单元806,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
239.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如歌词识别方法。例如,在一些实施例中,歌词识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由计算单元901执行时,可以执行上文描述的歌词识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行歌词识别方法。
240.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
241.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
242.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
243.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
244.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
245.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
246.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
247.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。