一种远程会议语音翻译系统及方法与流程

1.本发明涉及翻译技术领域，尤其涉及一种远程会议语音翻译系统及方法。

背景技术：

2.现在的线上远程会议一般是通过zoom、腾讯会议等音频应用程序进行远程会议，存在语音翻译的需求。但现有的翻译机或翻译app均是面向现场翻译的场景，在远程会议场景中使用存在明显的缺陷，主要体现在以下几个方面：
3.现有翻译机通过自带麦克风拾音(翻译app则是通过手机麦克风拾音)，因此在远程会议时需要先通过参会设备的扬声器进行播放，再通翻译机的麦克风拾音，这个过程会产生较大的音损，显著降低了语音的识别准确率。
4.现有翻译机需要先拾音，再翻译成指定的语言播放译音，但译音又会通过参会设备的麦克风传送给远端的参会者，而且，反方向的语言翻译过程也会存在类似的多次语音传送问题，从而给远端参会者造成困扰，影响会议进程。

技术实现要素：

5.鉴于以上技术问题，本发明提供了一种远程会议语音翻译系统及方法，以解决现有翻译机在远程会议中存在着识别率低、翻译效率低下等缺陷的问题。
6.本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
7.根据本公开的一方面，提供一种远程会议语音翻译系统，所述系统包括：
8.一种远程会议语音翻译系统，其特征在于，所述系统包括：
9.蓝牙单元，所述蓝牙单元用于截获参会设备上的音频应用程序中的原始音频；
10.所述蓝牙单元将被截获的所述原始音频发送至翻译应用程序，在所述翻译应用程序对所述原始音频翻译成第一目标音频后，所述蓝牙单元接收所述第一目标音频，所述翻译应用程序安装在所述参会设备或其他设备中。
11.进一步的，还包括音频数据处理单元，所述音频数据处理单元用于对所述原始音频进行编码压缩。
12.进一步的，所述翻译应用程序在接收经编码压缩后的所述原始音频后，用于将所述原始音频发送至服务器，所述服务器包括：
13.第一识别单元，所述第一识别单元对所述原始音频进行语言类型识别；
14.第一翻译单元,所述第一翻译单元用于将所述原始音频转换为原文字进行翻译，得到第一目标文字，所述第一翻译单元将所述第一目标文字发送至所述翻译应用程序；
15.第一合成单元，所述第一合成单元将所述第一目标文字合成得到所述第一目标音频后发回至所述翻译应用程序；
16.所述翻译应用程序将所述第一目标音频发送至所述蓝牙单元，以及，在展示窗中展示所述第一目标文字。
17.进一步的，在所述翻译应用程序在接收经编码压缩后的所述原始音频后，在所述翻译应用程序中翻译，所述翻译应用程序包括：
18.第二识别单元，所述第二识别单元对所述原始音频进行语言类型识别；
19.第二翻译单元，所述第二翻译单元将所述原始音频转换为原文字进行翻译，得到第一目标文字；
20.第二合成单元，所述第二合成单元将所述第一目标文字合成得到所述第一目标音频；
21.所述翻译应用程序将所述第一目标音频发送至所述蓝牙单元，以及，在展示窗中展示所述第一目标文字。
22.进一步的，所述系统还包括麦克风单元，所述麦克风单元用于将采集到的本地语音通过所述蓝牙单元发送至所述音频应用程序。
23.进一步的，所述麦克风单元在采集到所述本地语音后，将所述本地语音发送至所述翻译应用程序；
24.所述翻译应用程序将所述本地语音翻译成第二目标音频后发送至所述蓝牙单元；
25.所述蓝牙单元将所述第二目标音频发送至所述音频应用程序。
26.进一步的，在所述翻译应用程序将所述本地语音翻译成第二目标音频时，还将所述本地语音翻译成第二目标文字，所述翻译应用程序同步展示所述第二目标文字。
27.进一步的，所述系统还包括与所述蓝牙单元连接的扬声器单元，所述扬声器单元用于播放所述蓝牙单元接收到的音频。
28.进一步的，所述蓝牙单元通过ble或spp蓝牙数据通信模式与所述翻译应用程序连接，所述蓝牙单元通过hsp、hfp、a2dp中的一种或多种蓝牙音频通信模式与所述参会设备连接。
29.与上述远程会议语音翻译系统相匹配，本发明再一方面提供一种会议语音翻译方法，所述方法包括：
30.截获参会设备上的音频应用程序中的原始音频，并发送到翻译应用程序中；
31.在所述翻译应用程序对所述原始音频翻译成第一目标音频后，接收所述第一目标音频，所述翻译应用程序安装在所述参会设备或其他设备中。
32.本公开的技术方案具有以下有益效果：
33.本公开所指的远程会议语音翻译系统及方法，可直接获得远程会议中的语音数据，避免了现有翻译机或翻译app需要参会设备先外放再采集的过程中造成的音损，从而大幅提升了语音的识别率，为用户提供更好的翻译效果，这种获取音频的方式也不需要和各种远程会议平台进行技术对接，从而具有更广泛的应用范围。
34.本公开所指的远程会议语音翻译系统及方法在获得音频数据后再通过蓝牙数据通道传送给翻译应用程序进行翻译，这样的方式显著降低了翻译工作对前述蓝牙设备的计算资源和网络资源的需求，从而极大的降低了该蓝牙设备的生产成本。
附图说明
35.图1为本说明书实施例中的一种远程会议语音翻译系统的结构框图；
36.图2为本说明书实施例中参会设备的结构框图；
37.图3为本说明书实施例中翻译系统与参会设备的连接结构框图；
38.图4为本说明书实施例中翻译系统与参会设备的又一连接结构框图；
39.图5为本说明书实施例中翻译系统、参会设备和服务器的连接结构框图；
40.图6为本说明书实施例中翻译系统与参会设备的又一连接结构框图；
41.图7为本说明书实施例中翻译系统的又一结构框图；
42.图8为本说明书实施例中翻译方法的流程图。
具体实施方式
43.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
44.此外，附图仅为本公开的示意性图解。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
45.如图1至图4所示，本说明书实施例提供一种远程会议语音翻译系统，包括：
46.一种远程会议语音翻译系统，所述系统100包括：
47.蓝牙单元101，所述蓝牙单元101用于截获参会设备上的音频应用程序201中的原始音频；
48.所述蓝牙单元101将被截获的所述原始音频发送至翻译应用程序202，在所述翻译应用程序202对所述原始音频翻译成第一目标音频后，所述蓝牙单元101接收所述第一目标音频，所述翻译应用程序202安装在所述参会设备200或其他设备中。
49.还包括音频数据处理单元102，所述音频数据处理单元102用于对所述原始音频进行编码压缩。
50.在附图中，为了方便理解，示范性的将翻译应用程序202和音频应用程序201设置在同一参会设备中，值得注意的是，此不能作为对本公开的限制，在其他示范性实施方式中，翻译应用程序202和音频应用程序201可以设置在不同的参会设备200中的。
51.其中，翻译系统100具体可以以蓝牙耳机、蓝牙音响等形态存在，参会设备200和其他设备可以是手机、平板电脑、个人计算机等，参会设备200或其他设备上安装有上述的翻译应用程序202，示范性的，音频应用程序201可以是会议软件，使用场景设定在远程会议中，翻译应用程序202和音频应用程序201安装在同一个参会手机上，参会手机与蓝牙单元101蓝牙无线连接，在进行远程语音会议时，音频应用程序接收到来自会议服务器的原始音频，蓝牙单元101截取原始音频，音频数据处理单元102然后对原始音频进行编码压缩，以减
少其积极，加快传输速度，在编码压缩后，音频数据处理单元102控制蓝牙单元101将原始音频发送至参会手机上的翻译应用程序202，翻译应用程序202对原始音频进行识别和翻译，翻译得到第一目标音频，其中，识别过程可以是预先设定的，即，使用者应当知道原始音频的语种，预先在翻译应用程序202中设定源语言，以使得翻译应用程序202更快地将原始音频翻译成预设定的第一目标音频，当然，识别过程也可以是智能识别，即，翻译应用程序202可以将原始音频与数据库中的资源逐一对比，确定原始音频的语种后，再将其翻译成预设定的第一目标音频，随后，翻译应用程序202再将第一目标音频通过蓝牙无线发送至蓝牙单元101，翻译系统便得到了翻译好的第一目标音频，便可以将第一目标发回至参会手机中播放，或，直接在代表着翻译系统的蓝牙耳机或蓝牙音响中播放。
52.采用上述的实施方式，可直接获得音频应用程序201中的语音数据，避免了现有翻译机或翻译app需要参会设备先外放再采集的过程中造成的音损，从而大幅提升了语音的识别率，为用户提供更好的翻译效果，同时，也解决了现有的翻译app无法直接获取音频应用程序的音频数据的问题。
53.在一实施方式中，如图5所示，所述翻译应用程序202在接收经编码压缩后的所述原始音频后，用于将所述原始音频发送至服务器400，所述服务器400包括：
54.第一识别单元401，所述第一识别单元401对所述原始音频进行语言类型识别；
55.第一翻译单元402,所述第一翻译单元402将所述原始音频转换为原文字进行翻译，得到第一目标文字，所述第一翻译单元402将所述第一目标文字发送至所述翻译应用程序202；
56.第一合成单元403，所述第一合成单元403将所述第一目标文字合成得到所述第一目标音频后发回至所述翻译应用程序202；
57.所述翻译应用程序202将所述第一目标音频发送至所述蓝牙单元101，以及，在展示窗203中展示所述第一目标文字。
58.其中，为了节省翻译过程对计算资源的需求，同时也减小翻译应用程序202的体积，将翻译过程在服务器400中进行，即，蓝牙单元101与翻译应用程序202所在的设备连接，翻译应用程序202所在的设备与服务器400连接，蓝牙单元101将截获的原始音频发送至翻译应用程序202后，翻译应用程序202再将原始音频发送至网络连接的服务器400，服务器400上预安装有对应的翻译程序，翻译程序具体包括第一识别单元401、第一翻译单元402、第一合成单元403，对原始音频进行语种识别、基于当前语种翻译成原文字、将原文字翻译成预先设定第一目标文字的语种、将第一目标文字合成第一目标音频，最后蓝牙单元101接收到翻译好的第一目标音频，完成了翻译，另外，展示窗203可以是位于翻译应用程序200中，也可以是后台展示，即，后台展示指的是第一目标文字始终在参会设备200的显示屏上以悬浮窗的方式展示。
59.在一实施方式中，如图6所示，在所述翻译应用程序202在接收经编码压缩后的所述原始音频后，在所述翻译应用程序202的离线资源库中翻译，所述离线资源库包括：
60.第二识别单元204，所述第二识别单元204对所述原始音频进行语言类型识别；
61.第二翻译单元205，所述第二翻译单元205将所述原始音频转换为原文字进行翻译，得到第一目标文字；
62.第二合成单元206，所述第二合成单元205将所述第一目标文字合成得到所述第一
目标音频；
63.所述翻译应用程序202将所述第一目标音频发送至所述蓝牙单元101，以及，在展示窗203中展示所述第一目标文字。
64.其中，为了提高翻译的速度，以减少因为网络环境而对翻译进度的影响，翻译工作可以在翻译应用程序所在的设备中进行，即，翻译应用程序所在的设备预安装有离线资源库，翻译应用程序便可以执行上述中服务器翻译程序所执行的内容，如包括第二识别单元204、第二翻译单元205、第二合成单元206，原始音频与离线资源库中的数据对比，得到原文字，再将原文字翻译成第一目标文字，将第一目标文字合成第一目标音频。
65.在一实施方式中，如图7所示，所述系统还包括麦克风单元103，所述麦克风单元103用于将采集到的本地语音通过所述蓝牙单元101发送至所述音频应用程序201。
66.其中，麦克风单元103可以是外置麦克风，即麦克风单元103与蓝牙单元01以及音频数据处理单元102并非是一个实体整体，而是通过实体线与音频数据处理单元102连接，麦克风单元103可以有多个或采用麦克风阵列，从而具有更广阔的用途，同时也具有更好的降噪效果，音频数据处理单元102将采集到的本地语音进行编码压缩后，传输至蓝牙单元101，蓝牙单元101再将本地语音发送至音频应用程序201。
67.作为补充的，麦克风单元103还可以是内置麦克风，即，即麦克风单元103与蓝牙单元101以及音频数据处理单元102是一个实体整体。
68.作为补充的，所述麦克风单元103在采集到所述本地语音后，将所述本地语音发送至所述翻译应用程序202；
69.所述翻译应用程序202将所述本地语音翻译成第二目标音频后发送至所述蓝牙单元101；
70.所述蓝牙单元101将所述第二目标音频发送至所述音频应用程序201。
71.其中，由于参会双方的语言不同，为了更加高效地进行会议，由参会的一方完成翻译全过程，即，参会的一方将参会另一方的语言翻译成己方语言，同时，也将己方语言翻译成参会另一方的语言，使得参会另一方无需再进行翻译工作。
72.作为补充的，在所述翻译应用程序202将所述本地语音翻译成第二目标音频时，还将所述本地语音翻译成第二目标文字，所述翻译应用程序202同步展示所述第二目标文字。
73.其中，为了更好的监控是否翻译出错，所述翻译应用程序202的展示窗203中展示第二目标文字，便于参会的一方检验翻译结果。
74.在一实施方式中，继续参阅图7，所述系统还包括与所述蓝牙单元101连接的扬声器单元104，所述扬声器单元104用于播放所述蓝牙单元101接收到的音频。
75.其中，为了更加便捷地进行会议沟通，设置一用于播放第一目标音频的扬声器单元104，扬声器单元104可以是外置的，也可以是内置的，在蓝牙单元101接收到第一目标音频后，蓝牙单元101将第一目标音频发送至扬声器单元104，扬声器单元104便可以进行音频播放，在实际使用中，由于参会设备200的音频应用程序201中的原始音频被蓝牙单元101截获，参会设备200便没有播放原始音频，而原始音频经过翻译应用程序202翻译后，在蓝牙单元101所连接的扬声器单元104中播放，便可以使得使用者感受到第一目标音频为音频应用程序201直接播放出来的，减少了现有的翻译设备中在翻译过程中，原始音频和翻译后的音频混杂播放，使得使用者陷入翻译思维混乱中的问题，当然，在其他实施例中，扬声器单元
104还可以通过修改设置，而使得扬声器单元104播放其他音频。
76.在一实施方式中，所述蓝牙单元101通过hsp、hfp或a2dp中的一种蓝牙音频通信模式与所述参会设备连接。减少延迟，实现多通道连接。
77.在一实施方式中，所述蓝牙单元101通过ble或spp蓝牙数据通信模式与所述翻译应用程序连接。减少延迟，实现多通道连接。
78.本说明书实施例提供的远程会议语音翻译系统，可直接获得远程会议中的语音数据，避免了现有翻译机或翻译app需要参会设备先外放再采集的过程中造成的音损，从而大幅提升了语音的识别率，为用户提供更好的翻译效果，这种获取音频的方式也不需要和各种远程会议平台进行技术对接，从而具有更广泛的应用范围。
79.本公开所指的远程会议语音翻译系统在获得音频数据后再通过蓝牙数据通道传送给翻译应用程序进行翻译，这样的方式显著降低了翻译工作对前述蓝牙设备的计算资源和网络资源的需求，从而极大的降低了该蓝牙设备的生产成本
80.基于同样的思路，本说明书实施例提供一种远程会议语音翻译方法，如图8所示远程会议语音翻译方法的流程图，该方法的执行主体可以为专用的蓝牙设备，蓝牙设备可以以蓝牙耳机、蓝牙音响等形态存在。该方法具体可以包括以下步骤s801～s802：
81.在步骤s801中，截获参会设备上的音频应用程序中的原始音频，并发送到翻译应用程序中；
82.在步骤s802中，在所述翻译应用程序对所述原始音频翻译成第一目标音频后，接收所述第一目标音频，所述翻译应用程序安装在所述参会设备或其他设备中。
83.在一实施方式中，所述翻译应用程序在接收经编码压缩后的所述原始音频后，用于将所述原始音频发送至服务器；
84.所述服务对所述原始音频进行语言类型识别；
85.所述服务器将所述原始音频转换为原文字进行翻译，得到第一目标文字；
86.所述服务器将所述第一目标文字合成得到所述第一目标音频后发回至所述翻译应用程序；
87.所述翻译应用程序将所述第一目标音频发送至所述蓝牙单元，以及，在展示窗中展示所述第一目标文字。
88.在一实施方式中，在所述翻译应用程序在接收经编码压缩后的所述原始音频后，基于离线资源库，所述翻译应用程序对所述原始音频进行语言类型识别；
89.所述翻译应用程序将所述原始音频转换为原文字进行翻译，得到第一目标文字；
90.所述翻译应用程序将所述第一目标文字合成得到所述第一目标音频；
91.所述翻译应用程序将所述第一目标音频发送至所述蓝牙单元，以及，在展示窗中展示所述第一目标文字。
92.在一实施方式中，所述方法还包括：采集到的本地语音，将采集到的本地语音通过所述蓝牙单元发送至所述音频应用程序。
93.作为补充的，在采集到所述本地语音后，将所述本地语音发送至所述翻译应用程序；
94.所述翻译应用程序将所述本地语音翻译成第二目标音频后发送至所述蓝牙单元；
95.所述蓝牙单元将所述第二目标音频发送至所述音频应用程序。
96.在所述翻译应用程序将所述本地语音翻译成第二目标音频时，还将所述本地语音翻译成第二目标文字，所述翻译应用程序同步展示所述第二目标文字。
97.在一实施方式中，所述方法还包括：在所述蓝牙单元接收所述第一目标音频后，播放所述第一目标音频。
98.在一实施方式中，所述蓝牙单元通过hsp、hfp或a2dp中的一种蓝牙音频通信模式与所述参会设备连接。
99.在一实施方式中，所述蓝牙单元通过ble或spp蓝牙数据通信模式与所述翻译应用程序连接。
100.此外，上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。
101.应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
102.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。
103.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。