首页 > 乐器声学 专利正文
音频数据的转录方法和电子设备与流程

时间:2022-02-06 阅读: 作者:专利查询

音频数据的转录方法和电子设备与流程

1.本公开涉及计算机技术领域,尤其是一种音频数据的转录方法和电子设备。


背景技术:

2.现有技术中,如果想将移动终端采集的音频数据(例如通话数据)转换为文字,通常需要单独外扩声音并使用录音笔录制声音,然后再将其转换成文字。
3.然而,由于外扩声音时,录音笔等录音设备处于开放的环境中,不仅能录到外扩声音,还能录到用户本身的声音、环境噪音等,导致信息量异常增大,移动终端的转换处理速度无法解决信息量大的现象,影响转换的准确性和可靠性。


技术实现要素:

4.鉴于此,为解决如上部分或全部技术问题,本公开实施例提供一种音频数据的转录方法和电子设备,以提高音频数据转录的顺畅性和准确度。
5.第一方面,本公开实施例提供一种音频数据的转录方法,该方法包括:
6.在接收到移动终端发送的音频数据缓存指令的情况下,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送;
7.在接收到上述移动终端发送的音频数据返回指令的情况下,将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。
8.可选地,在本公开任一实施例的方法中,上述移动终端采集的音频数据包括至少两个发言人的语音音频;以及
9.上述对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,包括以下任一项:
10.将从上述移动终端接收到的、上述移动终端采集的音频数据中的单个目标发言人的语音音频作为一条音频数据,进行本地缓存;其中,上述目标发言人的语音音频为:从上述至少两个发言人的语音音频中选定的发言人的语音音频,或者,预先设定的发言人的语音音频;
11.将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频中的每个发言人的语音音频分别作为一条音频数据,进行本地缓存;
12.将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频作为一条音频数据,进行本地缓存。
13.可选地,在本公开任一实施例的方法中,上述将本地缓存的音频数据发送至上述
移动终端,包括:
14.将本地缓存的音频数据中的至少一条音频数据发送至上述移动终端。
15.可选地,在本公开任一实施例的方法中,上述方法还包括:
16.在接收到上述移动终端发送的音频数据确认指令的情况下,从本地缓存中删除上述音频数据确认指令对应的音频数据,其中,上述音频数据确认指令指示上述移动终端接收到上述音频数据或者上述移动终端已完成对上述音频数据的转换。
17.可选地,在本公开任一实施例的方法中,上述方法应用于蓝牙适配器;以及
18.上述方法还包括:
19.在上述移动终端接收到上述蓝牙耳机的蓝牙连接请求,或者,上述蓝牙适配器接收到上述蓝牙耳机的蓝牙连接请求的情况下,建立与上述蓝牙耳机的蓝牙连接;
20.通过上述蓝牙连接,向上述蓝牙耳机发送从移动终端接收到的、上述移动终端采集的音频数据。
21.可选地,在本公开任一实施例的方法中,上述方法应用于蓝牙适配器,上述蓝牙适配器通过连接端口与上述移动终端建立连接,上述连接端口用于上述蓝牙适配器与上述移动终端之间进行上述音频数据的传输。
22.可选地,在本公开任一实施例的方法中,上述移动终端对上述移动终端采集的音频数据无转换权限。
23.第二方面,本公开实施例提供一种音频数据的转录装置,上述装置包括:
24.缓存单元,被配置成在接收到移动终端发送的音频数据缓存指令的情况下,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送;
25.第一发送单元,被配置成在接收到上述移动终端发送的音频数据返回指令的情况下,将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。
26.可选地,在本公开任一实施例的装置中,上述移动终端采集的音频数据包括至少两个发言人的语音音频;以及
27.上述缓存单元包括以下任一项:
28.第一缓存子单元,被配置成将从上述移动终端接收到的、上述移动终端采集的音频数据中的单个目标发言人的语音音频作为一条音频数据,进行本地缓存;其中,上述目标发言人的语音音频为:从上述至少两个发言人的语音音频中选定的发言人的语音音频,或者,预先设定的发言人的语音音频;
29.第二缓存子单元,被配置成将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频中的每个发言人的语音音频分别作为一条音频数据,进行本地缓存;
30.第三缓存子单元,被配置成将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频作为一条音频数据,进行本地缓存。
31.可选地,在本公开任一实施例的装置中,上述第一发送单元包括:
32.发送子单元,被配置成将本地缓存的音频数据中的至少一条音频数据发送至上述移动终端。
33.可选地,在本公开任一实施例的装置中,上述装置还包括:
34.删除单元,被配置成在接收到上述移动终端发送的音频数据确认指令的情况下,从本地缓存中删除上述音频数据确认指令对应的音频数据,其中,上述音频数据确认指令指示上述移动终端接收到上述音频数据或者上述移动终端已完成对上述音频数据的转换。
35.可选地,在本公开任一实施例的装置中,上述装置还包括:
36.连接建立单元,被配置成在上述移动终端接收到上述蓝牙耳机的蓝牙连接请求,或者,上述蓝牙适配器接收到上述蓝牙耳机的蓝牙连接请求的情况下,建立与上述蓝牙耳机的蓝牙连接;
37.第二发送单元,被配置成通过上述蓝牙连接,向上述蓝牙耳机发送从移动终端接收到的、上述移动终端采集的音频数据。
38.可选地,在本公开任一实施例的装置中,上述蓝牙适配器通过连接端口与上述移动终端建立连接,上述连接端口用于上述蓝牙适配器与上述移动终端之间进行上述音频数据的传输。
39.可选地,在本公开任一实施例的装置中,上述移动终端对上述移动终端采集的音频数据无转换权限。
40.第三方面,本公开实施例提供一种音频数据的转录方法,该方法包括:
41.在移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下,向目标设备发送本地采集的音频数据的音频数据缓存指令,以使上述目标设备对上述本地采集的音频数据进行缓存;
42.在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下,向上述目标设备发送音频数据返回指令,以及接收上述目标设备发送的上述音频数据返回指令对应的音频数据;
43.将所接收的音频数据转换为文字,其中,上述第二预设数据量阈值小于上述第一预设数据量阈值。
44.可选地,在本公开任一实施例的方法中,上述采集的音频数据包括至少两个发言人的语音音频;以及
45.上述目标设备采用以下任一方式,对上述本地采集的音频数据进行缓存:
46.将从上述移动终端接收到的、上述移动终端采集的音频数据中的单个目标发言人的语音音频作为一条音频数据,进行本地缓存;其中,上述目标发言人的语音音频为:从上述至少两个发言人的语音音频中选定的发言人的语音音频,或者,预先设定的发言人的语音音频;
47.将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频中的每个发言人的语音音频分别作为一条音频数据,进行本地缓存;
48.将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频作为一条音频数据,进行本地缓存。
49.可选地,在本公开任一实施例的方法中,在上述向目标设备发送本地采集的音频
数据的音频数据缓存指令之后,上述目标设备从缓存中删除上述音频数据确认指令对应的音频数据,其中,上述音频数据确认指令指示上述移动终端接收到上述音频数据或者上述移动终端已完成对上述音频数据的转换。
50.可选地,在本公开任一实施例的方法中,上述方法应用于移动终端,在上述移动终端接收到蓝牙耳机的蓝牙连接请求,或者,上述目标设备接收到上述蓝牙耳机的蓝牙连接请求的情况下,上述目标设备建立与上述蓝牙耳机的蓝牙连接;以及
51.上述方法还包括:
52.通过上述蓝牙连接,经由上述目标设备向上述蓝牙耳机发送上述移动终端采集的音频数据。
53.第四方面,本公开实施例提供一种电子设备,包括:
54.存储器,用于存储计算机程序;
55.处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述第一方面或第三方面的音频数据的转录方法中任一实施例的方法。
56.第五方面,本公开实施例提供一种计算机可读介质,该计算机程序被处理器执行时,实现如上述第一方面或第三方面的音频数据的转录方法中任一实施例的方法。
57.第六方面,本公开实施例提供一种计算机程序,该计算机程序包括计算机可读代码,当该计算机可读代码在设备上运行时,使得该设备中的处理器执行用于实现如上述第一方面或第三方面的音频数据的转录方法中任一实施例的方法中各步骤的指令。
58.基于本公开上述实施例提供的音频数据的转录方法,可以在接收到移动终端发送的音频数据缓存指令的情况下,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送,之后,在接收到上述移动终端发送的音频数据返回指令的情况下,将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。由此,本公开实施例通过对从移动终端接收到的、上述移动终端采集的音频数据进行缓存,实现了信息量大出现阻塞情况下移动终端对音频数据的转换,提高了音频数据转录的顺畅性和准确度。
59.下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
60.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
61.图1是本公开实施例提供的一种音频数据的转录方法或音频数据的转录装置的示例性系统架构图;
62.图2是本公开实施例提供的一种音频数据的转录方法的流程图;
63.图3是针对图2的实施例的一个应用场景的示意图;
64.图4a是本公开实施例提供的一种音频数据的转录方法的交互过程示意图;
65.图4b是本公开实施例提供的一种音频数据的转录方法中所涉及的蓝牙适配器、蓝
牙耳机和移动终端的连接方式示意图;
66.图5是本公开实施例提供的音频数据的转录装置的结构示意图;
67.图6是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
68.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值并不限制本公开的范围。
69.本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等对象,既不代表任何特定技术含义,也不表示它们之间的逻辑顺序。
70.还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
71.还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
72.另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
73.还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
74.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
75.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
76.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
77.需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
78.图1是本公开实施例提供的一种音频数据的转录方法或音频数据的转录装置的示例性系统架构图。
79.如图1所示,系统架构100可以包括电子设备102、103,网络106和移动终端104。可选的,系统架构100还可以包括蓝牙设备101和网络105。其中,网络106可以在电子设备102、103和移动终端104之间提供通信链条的介质。网络106可以包括各种连接类型,例如有线、无线通信链条或者光纤电缆等等。电子设备102、103可以与移动终端104通过网络106进行交互,以接收移动终端104发送的音频数据,以及将本地缓存的音频数据发送至上述移动终端104。
80.此外,在系统架构100包括蓝牙设备101和网络105的情况下,网络105可以在电子设备102、103和蓝牙设备101之间提供通信链条的介质。作为示例,网络106可以为蓝牙网络。在该情况下,电子设备102、103可以将音频数据发送至移动终端104。
81.这里,电子设备102、103中的至少一者可以作为本公开的实施例所提供的音频数据的转录方法的执行主体。但需要说明的是,本公开的实施例所提供的音频数据的转录方法的执行主体可以是硬件,也可以是软件,在此不做具体限定。
82.作为一种示例,电子设备102、103可以是蓝牙适配器、不同于移动终端104的另一移动终端或服务器等。移动终端104可以是具有音频数据采集(例如录音功能)功能的各种移动终端。例如手机、电脑等。蓝牙设备101可以是蓝牙音箱、蓝牙耳机等。
83.应该理解,图1中的电子设备和网络的数目仅仅是示意性的。根据实现需要,可以具有任意数目的电子设备、网络、移动终端和蓝牙设备。
84.继续参考图2,示出了根据本公开的音频数据的转录方法的一个实施例的流程200。该音频数据的转录方法,包括以下步骤:
85.步骤201,在接收到移动终端发送的音频数据缓存指令的情况下,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存。
86.在本实施例中,在接收到移动终端发送的音频数据缓存指令的情况下,对音频数据的转录方法的执行主体(例如图1所示的电子设备102、103)可以通过有线连接方式或者无线连接方式,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存。
87.其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送至上述执行主体。
88.实践中,移动终端可以与上述执行主体采用有线或无线的方式相连接。移动终端可以具有音频数据采集功能。在移动终端每次采集到音频数据之后,可以将所采集到的音频数据发送至上述执行主体。上述执行主体在接收到音频数据之后,如果移动终端待转换的音频数据的数据量小于第一预设数据量阈值,那么,上述执行主体可以将接收到的音频数据发送(也即回传)至移动终端;如果移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值,那么,上述执行主体可以将接收到的音频数据进行本地缓存。其中,第一预设数据量阈值可以用于判断移动终端是否发生阻塞。
89.可选的,上述执行主体在接收到音频数据之后,还可以将接收到的音频数据转发至与该执行主体通信连接的其他电子设备。
90.作为示例,在本实施例的一些可选的实现方式中,上述方法应用于蓝牙适配器,也即上述执行主体为蓝牙适配器。在此基础上,上述执行主体还可以执行如下步骤:
91.首先,在上述移动终端接收到蓝牙耳机发送的蓝牙连接请求,或者,上述蓝牙适配器接收到上述蓝牙耳机发送的蓝牙连接请求的情况下,上述执行主体可以建立与上述蓝牙耳机的蓝牙连接。
92.其中,上述执行主体可以通过蓝牙扫描,来检测蓝牙耳机发送的蓝牙连接请求。如果蓝牙连接请求指示蓝牙耳机请求连接蓝牙适配器,那么,蓝牙耳机可以直接与蓝牙适配器建立蓝牙连接;如果蓝牙连接请求指示蓝牙耳机请求连接移动终端,那么,移动终端可以向蓝牙耳机发送用于指示蓝牙耳机与蓝牙适配器建立蓝牙连接的信息,以便蓝牙耳机与蓝牙适配器建立蓝牙连接。
93.之后,通过上述蓝牙连接,向上述蓝牙耳机发送从移动终端接收到的、上述移动终端采集的音频数据。
94.可以理解,上述可选的实现方式中,通过蓝牙适配器与蓝牙耳机建立的蓝牙连接,
来传输音频数据,这样可以避免移动终端将音频数据发送至蓝牙耳机而产生的信息干扰,从而提高了音频数据转录的准确度。
95.在本实施例的一些可选的实现方式中,上述移动终端采集的音频数据包括至少两个发言人的语音音频。在此基础上,上述执行主体可以采用如下任一方式,来对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存:
96.第一项,将从上述移动终端接收到的、上述移动终端采集的音频数据中的单个目标发言人的语音音频作为一条音频数据,进行本地缓存。
97.其中,上述目标发言人的语音音频为:从上述至少两个发言人的语音音频中选定的发言人的语音音频,或者,预先设定的发言人的语音音频。
98.这里,目标发言人可以经由用户来选择或指定,或者,也可以基于预设的条件来筛选。其中,预设的条件可以包括:至少两个发言人中,语音音频的声音最大的发言人,或者,至少两个发言人中,与预定发言人的音色相同的发言人。
99.作为示例,如果上述移动终端采集到甲目标发言人的音频数据和乙目标发言人的音频数据,并且,上述执行主体从上述移动终端接收到了上述甲目标发言人的音频数据和乙目标发言人的音频数据,那么,上述执行主体可以将甲目标发言人的音频数据作为一条音频数据,进行本地缓存,将乙目标发言人的音频数据作为一条音频数据,进行本地缓存。也即,将甲目标发言人的音频数据和乙目标发言人的音频数据分别作为两条音频数据,分别进行本地缓存。
100.第二项,将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频中的每个发言人的语音音频分别作为一条音频数据,进行本地缓存。
101.作为示例,如果上述移动终端采集到甲目标发言人的音频数据、乙目标发言人的音频数据和丙目标发言人的音频数据,并且,上述执行主体从上述移动终端接收到了上述甲目标发言人的音频数据、乙目标发言人的音频数据和丙目标发言人的音频数据,那么,可以向用户展示上述各音频数据的数据标识(用于指示甲目标发言人的音频数据、乙目标发言人的音频数据和丙目标发言人的音频数据),以便用户从上述各音频数据的数据标识选择至少两个数据标识,进而确定出选定的至少两个发言人的语音音频。例如,选定的至少两个发言人的语音音频可以包括:甲目标发言人的音频数据和乙目标发言人的音频数据。那么,上述执行主体可以将甲目标发言人的音频数据作为一条音频数据,进行本地缓存,将乙目标发言人的音频数据作为一条音频数据,进行本地缓存。也即,将甲目标发言人的音频数据和乙目标发言人的音频数据分别作为两条音频数据,分别进行本地缓存。
102.第三项,将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频作为一条音频数据,进行本地缓存。
103.作为示例,如果上述移动终端采集到甲目标发言人的音频数据、乙目标发言人的音频数据和丙目标发言人的音频数据,并且,上述执行主体从上述移动终端接收到了上述甲目标发言人的音频数据、乙目标发言人的音频数据和丙目标发言人的音频数据,那么,可以向用户展示上述各音频数据的数据标识(用于指示甲目标发言人的音频数据、乙目标发言人的音频数据和丙目标发言人的音频数据),以便用户从上述各音频数据的数据标识选择至少两个数据标识,进而确定出选定的至少两个发言人的语音音频。例如,选定的至少两
个发言人的语音音频可以包括:甲目标发言人的音频数据和乙目标发言人的音频数据。那么,上述执行主体可以将甲目标发言人的音频数据和乙目标发言人的音频数据作为一条音频数据,对甲目标发言人的音频数据和乙目标发言人的音频数据一起进行本地缓存。
104.其中,不同条音频数据,可以采用不同的方式进行标识或进行区分存储。作为示例,在上述移动终端为手机,音频数据包括通话过程中的上行数据(包括手机的使用者的音频数据)和下行数据(包括对方的音频数据)的情况下,上述执行主体可以仅将下行数据作为一条音频数据,进行本地缓存,也可以将上行数据和下行数据分别作为一条数据,将二者分别缓存在本地。
105.一条音频数据,可以包含一帧或多帧音频数据。可选的,也可以将移动终端每次打包发送的音频数据,作为一条音频数据。
106.可以理解,上述可选的实现方式中,可以将至少两个发言人的语音音频中,特定一个或多个发言人的语音音频作为一条音频数据,进而对其进行本地缓存,从而通过后续步骤,使得上述执行主体可以将单条数据发送至移动终端供其进行转换,进而提高了转录的准确度。
107.在上述可选的实现方式中的一些应用场景下,上述执行主体可以采用如下方式,将本地缓存的音频数据发送至上述移动终端:
108.将本地缓存的音频数据中的至少一条音频数据发送至上述移动终端。
109.作为示例,上述执行主体可以将本地缓存的全部音频数据,按照缓存时间的先后顺序,依次将各条音频数据发送至上述移动终端。可选的,上述执行主体也可以将本地缓存的音频数据中,用户选定的一条或多条音频数据发送至上述移动终端。
110.可以理解,上述可选的实现方式中,以条为单位向移动终端发送音频数据,例如,每次向移动终端发送的音频数据为一条音频数据。这样,移动终端可以对以条为单位的音频数据的转换,从而可以参照单条音频数据中的语义信息进行转换,由此进一步提高了转录的顺畅性和准确度。
111.在本实施例的一些可选的实现方式中,上述方法应用于蓝牙适配器,也即上述执行主体为蓝牙适配器。上述蓝牙适配器通过连接端口与上述移动终端建立连接,上述连接端口用于上述蓝牙适配器与上述移动终端之间进行上述音频数据的传输。
112.可以理解,上述可选的实现方式中,蓝牙适配器通过连接端口与上述移动终端建立连接,这样可以降低音频数据传输的误码率,提高音频数据传输的安全性。
113.步骤202,在接收到上述移动终端发送的音频数据返回指令的情况下,将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字。
114.在本实施例中,在接收到上述移动终端发送的音频数据返回指令的情况下,上述执行主体可以将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字。
115.这里,音频数据的转录,可以包括对音频数据的录制、将音频数据转换为文字等过程。
116.其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。
117.在本实施例的一些可选的实现方式中,在接收到上述移动终端发送的音频数据确认指令的情况下,上述执行主体还可以从本地缓存中删除上述音频数据确认指令对应的音频数据。
118.其中,上述音频数据确认指令指示上述移动终端接收到上述音频数据或者上述移动终端已完成对上述音频数据的转换。
119.上述音频数据确认指令对应的音频数据,可以是音频数据确认指令指示的上述移动终端已接收到的音频数据,或者,也可以是音频数据确认指令指示的上述移动终端已完成转换的音频数据。
120.例如,如果上述执行主体本地缓存了音频数据1、音频数据2和音频数据3。在此情况下,如果上述移动终端发送的音频数据确认指令指示对本地缓存的音频数据1进行删除(也即,音频数据确认指令对应的音频数据为音频数据1),那么,上述执行主体可以从本地缓存中删除音频数据1。
121.可以理解,在确保移动终端接收到上述音频数据或者上述移动终端已完成对上述音频数据的转换之后,上述执行主体可以对本地缓存的音频数据进行删除,从而提高了音频数据存储的安全性、节省了上述执行主体的存储空间,并且可以提高转换成功率。
122.在本实施例的一些可选的实现方式中,上述移动终端对上述移动终端采集的音频数据无转换权限。
123.这里,通常情况下,处于信息安全等角度的考虑,移动终端对移动终端自身采集的音频数据可能无转换权限,例如,手机自身无法将手机采集的通话记录等音频数据转换为文字。
124.可以理解,在一些应用场景下,移动终端对其所采集的音频数据无转换权限,上述可选的实现方式可以采用回传的方式,将从移动终端获得的音频数据回传至该移动终端,从而实现了移动终端对音频数据的转换。
125.继续参见图3,图3是根据本实施例的音频数据的转录方法的应用场景的一个示意图。在图3的应用场景中,在接收到移动终端320发送的音频数据缓存指令的情况下,蓝牙适配器310对从上述移动终端320接收到的、上述移动终端320采集的音频数据进行本地缓存。其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送。之后,在接收到上述移动终端320发送的音频数据返回指令的情况下,蓝牙适配器310将本地缓存的音频数据发送至上述移动终端320,以便上述移动终端320将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端320在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。
126.本公开的上述实施例提供的方法,在接收到移动终端发送的音频数据缓存指令的情况下,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送,之后,在接收到上述移动终端发送的音频数据返回指令的情况下,将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第
二预设数据量阈值小于上述第一预设数据量阈值。由此,本公开实施例通过对从移动终端接收到的、上述移动终端采集的音频数据进行缓存,实现了信息量大出现阻塞情况下移动终端对音频数据的转换,提高了音频数据转录的顺畅性和准确度。
127.进一步参考图4a,图4a是本公开实施例提供的一种音频数据的转录方法的交互过程示意图。
128.在图4a所示的步骤401中,移动终端向蓝牙适配器发送录音启动指令。
129.在一些应用场景下,蓝牙适配器、移动终端和蓝牙耳机可以相连接。其中,移动终端可以用于采集音频数据,用户可以使用蓝牙耳机收听音频数据对应的音频。作为示例,蓝牙适配器、移动终端和蓝牙耳机之间的连接方式可以如图4b所示。
130.示例性的,蓝牙适配器可以与移动终端通过usb(universal serial bus,通用串行总线)建立连接,移动终端可以通过usb向蓝牙适配器发动录音启动指令。
131.在步骤402中,移动终端向蓝牙适配器发送音频数据。
132.这里,移动终端可以通过usb向蓝牙适配器发送音频数据。
133.此外,移动终端向蓝牙适配器发送的音频数据可以仅包含单向数据(例如下行数据),例如通话过程中移动终端获取到的对方的音频数据。
134.可选的,移动终端向蓝牙适配器发送的音频数据也可以包含双向数据,例如下行数据和上行数据。
135.在步骤403中,移动终端向蓝牙适配器发送音频数据缓存指令。
136.这里,如果移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值,那么移动终端可以通过usb向蓝牙适配器发送音频数据缓存指令,以指示蓝牙适配器对音频数据进行缓存。
137.但需要说明的是,在一些情况下,可以先执行步骤403,之后再执行步骤402。
138.在步骤404中,蓝牙适配器对音频数据进行本地缓存。
139.这里,移动终端如果因信息量大出现阻塞,可以向蓝牙适配器发送音频数据缓存指令通知蓝牙适配器进行缓存,蓝牙适配器对音频数据(例如下行数据)进行打包缓存,等待移动终端疏通以后再发送音频数据返回指令给到蓝牙适配器。
140.在步骤405中,移动终端向蓝牙适配器发送音频数据返回指令。
141.这里,如果移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值,那么,移动终端可以向蓝牙适配器发送音频数据返回指令,以使蓝牙适配器将本地缓存的音频数据发送至移动终端。其中,上述第二预设数据量阈值小于上述第一预设数据量阈值。
142.在步骤406中,蓝牙适配器将本地缓存的音频数据发送至移动终端。
143.这里,蓝牙适配器可以将本地缓存的音频数据(例如移动终端的下行数据)打包压缩后,通过usb转发给到移动终端。
144.可选的,蓝牙适配器也可以将本地缓存的音频数据(例如移动终端的下行数据)打包分成两路,一路分发给到与蓝牙适配器连接的其他蓝牙设备(例如上述蓝牙耳机),另一路数据打包压缩通过usb转发给到移动终端。
145.可选的,如果蓝牙适配器本地缓存的音频数据中包含上行数据,那么也可以将上行数据发给移动终端。
146.在步骤407中,移动终端将接收到的音频数据转换为文字。
147.这里,移动终端收到音频数据后对其进行解压,给蓝牙适配器发送确认命令,并对音频数据进行实时解析,将音频数据转换成文字。
148.目前,网络教学的发展越来越普及,教学的范围更加广阔,在学习的过程中需要记录更多更全面的教学内容;语音会议或者在语音宣讲过程中,与会者需要记录会议或者宣讲内容;日常观看或者收听视频音频时,需要对视频音频做一些文字记录。针对上述日常生活中,出现单向音频频率较高的实际场景,如果能够利用设备对单向音频进行录音,并转换为文字,能够给使用者带来很大便利。
149.在现有的技术背景下如果想实现上需求,想要转换对方通话的声音,需要单独外扩声音并使用录音笔录制声音,后面转换成文字,但是由于录音笔处于开放的环境中,不仅从耳机或音箱发出的通话对方的声音,还能录到用户本身的声音,因此容易受到外部声音干扰,影响转录的准确性和可靠性。
150.本实施例中音频数据的转录方法可以通过蓝牙适配器来转发移动终端采集的音频数据,由于蓝牙适配器可直接将通话对方的数据回传给移动终端,由此,移动终端即可获得只有通话对方的数据,与用户语音数据独立分开,从而提高了转录的准确度,并且通过对从移动终端接收到的、上述移动终端采集的音频数据进行缓存,实现了信息量大出现阻塞情况下移动终端对音频数据的转换,提高了音频数据转录的顺畅性。
151.此外,本公开的音频数据的转录方法还可以包括:在移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下,向目标设备发送本地采集的音频数据的音频数据缓存指令,以使上述目标设备对上述本地采集的音频数据进行缓存;在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下,向上述目标设备发送音频数据返回指令,以及接收上述目标设备发送的上述音频数据返回指令对应的音频数据;将所接收的音频数据转换为文字,其中,上述第二预设数据量阈值小于上述第一预设数据量阈值。
152.在本实施例的一些可选的实现方式中,上述采集的音频数据包括至少两个发言人的语音音频;以及
153.上述上述目标设备采用以下任一方式,对上述本地采集的音频数据进行缓存:
154.将从上述移动终端接收到的、上述移动终端采集的音频数据中的单个目标发言人的语音音频作为一条音频数据,进行本地缓存;其中,上述目标发言人的语音音频为:从上述至少两个发言人的语音音频中选定的发言人的语音音频,或者,预先设定的发言人的语音音频;
155.将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频中的每个发言人的语音音频分别作为一条音频数据,进行本地缓存;
156.将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频作为一条音频数据,进行本地缓存。
157.在本实施例的一些可选的实现方式中,在上述向目标设备发送本地采集的音频数据的音频数据缓存指令之后,上述目标设备从缓存中删除上述音频数据确认指令对应的音频数据,其中,上述音频数据确认指令指示上述移动终端接收到上述音频数据或者上述移动终端已完成对上述音频数据的转换。
158.在本实施例的一些可选的实现方式中,上述方法应用于移动终端,在上述移动终端接收到蓝牙耳机的蓝牙连接请求,或者,上述目标设备接收到上述蓝牙耳机的蓝牙连接请求的情况下,上述目标设备建立与上述蓝牙耳机的蓝牙连接;以及,上述方法还包括:
159.通过上述蓝牙连接,经由上述目标设备向上述蓝牙耳机发送上述移动终端采集的音频数据。
160.需要说明的是,上述实施例所描述的各个步骤的执行方式和产生的效果,可以参照以上图2、图3、图4a和图4b的相关描述,为简洁描述,在此不作赘述。
161.进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种音频数据的转录装置的一个实施例,该音频数据的转录装置实施例与以上所描述的方法实施例相对应,除下面所记载的特征外,该音频数据的转录装置实施例还可以包括与以上所描述的方法实施例相同或相应的特征,以及产生与以上所描述的方法实施例相同或相应的效果。
162.如图5所示,本实施例的音频数据的转录装置500。上述装置500包括:缓存单元501和第一发送单元502。其中,缓存单元501,被配置成在接收到移动终端发送的音频数据缓存指令的情况下,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送;第一发送单元502,被配置成在接收到上述移动终端发送的音频数据返回指令的情况下,将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。
163.在本实施例中,在接收到移动终端发送的音频数据缓存指令的情况下,音频数据的转录装置500的缓存单元501可以对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送。
164.在本实施例中,在接收到上述移动终端发送的音频数据返回指令的情况下,第一发送单元502可以将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。
165.在本实施例的一些可选的实现方式中,上述移动终端采集的音频数据包括至少两个发言人的语音音频;以及
166.上述缓存单元包括以下任一项:
167.第一缓存子单元(图中未示出),被配置成将从上述移动终端接收到的、上述移动终端采集的音频数据中的单个目标发言人的语音音频作为一路音频数据,进行本地缓存;其中,上述目标发言人的语音音频为:从上述至少两个发言人的语音音频中选定的发言人的语音音频,或者,预先设定的发言人的语音音频;
168.第二缓存子单元(图中未示出),被配置成将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频中的每个发言人的语音音频分别作为一路音频数据,进行本地缓存;
169.第三缓存子单元(图中未示出),被配置成将从上述移动终端接收到的、上述移动终端采集的音频数据中选定的至少两个发言人的语音音频作为一路音频数据,进行本地缓存。
170.在本实施例的一些可选的实现方式中,上述第一发送单元502包括:
171.发送子单元(图中未示出),被配置成将本地缓存的音频数据中的至少一路音频数据发送至上述移动终端。
172.在本实施例的一些可选的实现方式中,上述装置500还包括:
173.删除单元(图中未示出),被配置成在接收到上述移动终端发送的音频数据确认指令的情况下,从本地缓存中删除上述音频数据确认指令对应的音频数据,其中,上述音频数据确认指令指示上述移动终端接收到上述音频数据或者上述移动终端已完成对上述音频数据的转换。
174.在本实施例的一些可选的实现方式中,
175.上述装置500还包括:
176.连接建立单元(图中未示出),被配置成在上述移动终端接收到上述蓝牙耳机的蓝牙连接请求,或者,上述蓝牙适配器接收到上述蓝牙耳机的蓝牙连接请求的情况下,建立与上述蓝牙耳机的蓝牙连接;
177.第二发送单元(图中未示出),被配置成通过上述蓝牙连接,向上述蓝牙耳机发送从移动终端接收到的、上述移动终端采集的音频数据。
178.在本实施例的一些可选的实现方式中,上述装置设置于蓝牙适配器,上述蓝牙适配器通过连接端口与上述移动终端建立连接,上述连接端口用于上述蓝牙适配器与上述移动终端之间进行上述音频数据的传输。
179.在本实施例的一些可选的实现方式中,上述移动终端对上述移动终端采集的音频数据无转换权限。
180.本公开的上述实施例提供的装置500中,缓存单元501可以在接收到移动终端发送的音频数据缓存指令的情况下,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送;第一发送单元502可以在接收到上述移动终端发送的音频数据返回指令的情况下,将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。由此,本公开实施例通过对从移动终端接收到的、上述移动终端采集的音频数据进行缓存,实现了信息量大出现阻塞情况下移动终端对音频数据的转换,提高了音频数据转录的顺畅性和准确度。
181.图6为本公开实施例提供的一种电子设备的结构示意图,图6所示的电子设备600包括:至少一个处理器601、存储器602和至少一个网络接口604和其他用户接口603。电子设备600中的各个组件通过总线系统605耦合在一起。可理解,总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统605。
182.其中,用户接口603可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
183.可以理解,本公开实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
184.在一些实施方式中,存储器602存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统6021和应用程序6022。
185.其中,操作系统6021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序6022,包含各种应用程序,例如媒体播放器(media player)、浏览器(browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序6022中。
186.在本公开实施例中,通过调用存储器602存储的程序或指令,具体的,可以是应用程序6022中存储的程序或指令,处理器601用于执行各方法实施例所提供的方法步骤,例如包括:在接收到移动终端发送的音频数据缓存指令的情况下,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送;在接收到上述移动终端发送的音频数据返回指令的情况下,将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。或者,在移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下,向目标设备发送本地采集的音频数据的音频数据缓存指令,以使所述目标设备对所述本地采集的音频数据进行缓存;在所述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下,向所述目标设备发送音频数据返回指令,以及接收所述目标设备发送的所述音频数据返回指令对应的音频数据;将所接收的音频数据转换为文字,其中,所述第二预设数据量阈值小于所述第一预设数据量阈值。
187.上述本公开实施例揭示的方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电条芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电条或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电
条(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。
188.可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电条(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
189.对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
190.本实施例提供的电子设备可以是如图6中所示的电子设备,可执行如图2中音频数据的转录方法的所有步骤,进而实现图2所示音频数据的转录方法的技术效果,具体请参照图2相关描述,为简洁描述,在此不作赘述。
191.本公开实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
192.当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的音频数据的转录方法。
193.所述处理器用于执行存储器中存储的通信程序,以实现以下在电子设备侧执行的音频数据的转录方法的步骤:在接收到移动终端发送的音频数据缓存指令的情况下,对从上述移动终端接收到的、上述移动终端采集的音频数据进行本地缓存,其中,上述音频数据缓存指令经由上述移动终端在上述移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下发送;在接收到上述移动终端发送的音频数据返回指令的情况下,将本地缓存的音频数据发送至上述移动终端,以便上述移动终端将接收到的音频数据转换为文字,其中,上述音频数据返回指令经由上述移动终端在上述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下发送,上述第二预设数据量阈值小于上述第一预设数据量阈值。或者,在移动终端待转换的音频数据的数据量大于或等于第一预设数据量阈值的情况下,向目标设备发送本地采集的音频数据的音频数据缓存指令,以使所述目标设备对所述本地采集的音频数据进行缓存;在所述移动终端待转换的音频数据的数据量小于或等于第二预设数据量阈值的情况下,向所述目标设备发送音频数据返回指令,以及接收所述目标设备发送的所述音频数据返回指令对应的音频数据;将所接收的音频数据转换为文字,其中,所述第二预设数据量阈值小于所述第一预设数据量阈值。
194.专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
195.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
196.以上所述的具体实施方式,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施方式而已,并不用于限定本公开的保护范围,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。