面向电视终端的语音消息的处理方法及处理系统与流程

1.本发明涉及电视终端的技术领域，尤其涉及一种面向电视终端的语音消息的处理方法及处理系统。

背景技术：

2.传统上电视终端(包括电视机)普遍使用红外遥控器,但因为红外遥控器的一些缺点，如受角度和距离影响、容易受其他家电的干扰等。慢慢地，人们引入了语音遥控器，包括蓝牙语音遥控器、其他2.4ghz无线语音遥控器，语音遥控器在处理诸如搜索、文字输入等业务来说，比红外要方便很多。这些语音遥控器将内置麦克风采集的语音数据通过蓝牙或其他2.4ghz无线通信传输给电视终端，由电视终端进行语音识别或转发至云端进行语音识别，然后根据识别的结果进行语音控制，如“收看央视新闻频道”、“收看201频道”、“音量调大”等。在识别准确率、响应速度有保证的前提下，语音控制的功能在年轻人中比较受欢迎；但是对于电视机的主要受众老年人而言，语音识别、语音控制因为老年人只会说方言且方言复杂等因素制约，语音识别率偏低，难以推广使用。
3.同时，随着电视终端的更新换代，其所承载的业务也越来越多，如专门为老人提供服务的智慧养老等栏目。如何让老人通过语音遥控器、通过电视终端就能享受到更加暖心、贴心、便捷的服务，首先要克服语音识别率低的问题。
4.因此，亟需提供一种新的面向电视终端的语音消息的处理方法及处理系统，以至少部分地缓解或解决现有解决方案存在的上述问题和缺陷

技术实现要素：

5.本发明要解决的技术问题是为了克服现有的电视终端对于部分人群而言，语音识别率低因而多种功能和服务实际使用极为不便的缺陷，提出一种新的面向电视终端的语音消息的处理方法及处理系统。
6.本发明是通过下述技术方案来解决上述技术问题的：
7.本发明提供了一种面向电视终端的语音消息的处理方法，其特点在于，所述电视终端配备有用户端设备，并与远程服务端通信连接，所述处理方法包括以下步骤：
8.步骤一、远程服务端初始化多个方言语音消息队列，每个语音消息队列对应于一种方言的语音消息；
9.步骤二、远程服务端初始化服务账号，确定每个服务账号支持的一种或多种方言；
10.步骤三、远程服务端响应于从任意用户端设备发送的语音消息，根据该发送的用户端设备的用户设置信息确定该语音消息所属方言的种类，并将该语音消息加入对应于该种方言的语音消息队列；
11.步骤四、支持该种方言的服务账号，在处于空闲状态时，从该语音消息队列中提取该语音消息，该服务账号进入占用状态；
12.步骤五、该服务账号听取该语音消息并处理，将处理结果反馈至发送该语音消息
的用户端设备，该服务账号恢复空闲状态。
13.根据本发明的一种实施方式，步骤四包括：
14.每个服务账号在处于空闲状态时，先查询自己能够支持的方言所对应的所有方言语音消息队列的队列长度，并选取其中队列长度最长的方言语音消息队列并从中提取语音消息，然后进入占用状态。
15.根据本发明的一种可替代的实施方式，步骤四包括：
16.每个服务账号在处于空闲状态时，先查询自己能够支持的方言所对应的所有方言语音消息队列的队列长度，然后基于预设的负载均衡算法选取其中的一个方言语音消息队列并从中提取语音消息，然后进入占用状态。
17.根据本发明的一种实施方式，步骤四包括：
18.每个服务账号在处于空闲状态时，先查询自己能够支持的方言所对应的所有方言语音消息队列中最早接收到的语音消息，并选取及提取最早接收到的语音消息，然后进入占用状态。
19.根据本发明的一种实施方式，步骤三还包括：
20.用户端设备接收用户的语音输入，并将语音输入转换为语音消息，再将语音消息发送至远程服务端。
21.根据本发明的一种实施方式，步骤三还包括：
22.初始化用户端设备，并载入用户设置信息，所述用户设置信息包含能够指示用户所属方言区的信息，并且所述用户设置信息允许经由用户端设备人工修改。
23.根据本发明的一种实施方式，用户端设备具有模式触发按键、语音采集模块和语音收发模块，模式触发按键被配置成用于激活语音采集模块，语音采集模块被配置成用于采集用户的语音输入，语音收发模块被配置为用于将采集到的语音输入转换为语音消息并将转换而成的语音消息发送至远程服务端；
24.其中，语音采集模块为内置于用户端设备的电视机、电视机顶盒或者遥控器内的麦克风阵列。
25.根据本发明的一种实施方式，语音收发模块内置有语音预判断单元，语音预判断单元被配置成能够接收语音采集模块采集的声音信号，并根据预设判定规则确定是否能够排除采集到的声音信号为语音输入的可能性，若未能排除可能性则将转换后的语音消息发送至远程服务端。
26.根据本发明的一种实施方式，语音预判断单元内置有该预设判定规则，该预设判定规则包括预设的声音频率范围，若采集到的声音信号的声音频率在该声音频率范围以外，则排除采集到的声音信号为语音输入的可能性。
27.根据本发明的一种实施方式，语音预判断单元内置有该预设判定规则，该预设判定规则包括预设的振幅阈值，若采集到的声音信号的振幅超出该振幅阈值，则排除采集到的声音信号为语音输入的可能性。
28.根据本发明的一种实施方式，语音预判断单元内置有该预设判定规则，该预设判定规则包括预设的持续时间阈值，若采集到的声音信号的持续时间未达到该持续时间阈值，则排除采集到的声音信号为语音输入的可能性。
29.本发明还提供了一种面向电视终端的语音消息的处理系统，该处理系统包括被配
置为能够执行如上所述的处理方法的远程服务端和用户端设备。
30.在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。
31.本发明的积极进步效果在于：
32.根据本发明的面向电视终端的语音消息的处理方法及处理系统，有助于降低甚至消除诸如老人在内的一些用户使用语音消息的障碍，使得和语音相关的一些功能和服务对于用户而言更易于使用。
附图说明
33.图1为用于执行根据本发明的优选实施方式的面向电视终端的语音消息的处理方法及相关系统的示例性组成架构的示意图。
34.图2为用于执行根据本发明的优选实施方式的面向电视终端的语音消息的处理方法及相关系统的应用实例中涉及的方言区域数据的树状图。
35.图3为根据本发明的优选实施方式的面向电视终端的语音消息的处理方法中涉及的语言消息队列机制的原理示意图。
36.图4为根据本发明的优选实施方式的面向电视终端的语音消息的处理方法的流程示意图。
具体实施方式
37.下面结合说明书附图，进一步对本发明的优选实施例进行详细描述，以下的描述为示例性的，并非对本发明的限制，任何的其他类似情形也都落入本发明的保护范围之中。
38.在以下的具体描述中，方向性的术语，例如“左”、“右”、“上”、“下”、“前”、“后”等，参考附图中描述的方向使用。本发明的实施例的部件可被置于多种不同的方向，方向性的术语是用于示例的目的而非限制性的。
39.在以下实施方式中，所针对的应用场景包括电视终端，其配备有用户端设备，并与远程服务端通信连接。
40.参考图4所示，根据本发明的较佳实施方式的面向电视终端的语音消息的处理方法，包括以下步骤：
41.步骤一、远程服务端初始化多个方言语音消息队列，每个语音消息队列对应于一种方言的语音消息；
42.步骤二、远程服务端初始化服务账号，确定每个服务账号支持的一种或多种方言；
43.步骤三、远程服务端响应于从任意用户端设备发送的语音消息，根据该发送的用户端设备的用户设置信息确定该语音消息所属方言的种类，并将该语音消息加入对应于该种方言的语音消息队列；
44.步骤四、支持该种方言的服务账号，在处于空闲状态时，从该语音消息队列中提取该语音消息，该服务账号进入占用状态；
45.步骤五、该服务账号听取该语音消息并处理，将处理结果反馈至发送该语音消息的用户端设备，该服务账号恢复空闲状态。
46.根据本发明的一些优选实施方式，步骤四包括：
47.每个服务账号在处于空闲状态时，先查询自己能够支持的方言所对应的所有方言语音消息队列的队列长度，并选取其中队列长度最长的方言语音消息队列并从中提取语音消息，然后进入占用状态。
48.根据本发明的一些优选实施方式，步骤四包括：
49.每个服务账号在处于空闲状态时，先查询自己能够支持的方言所对应的所有方言语音消息队列中最早接收到的语音消息，并选取及提取最早接收到的语音消息，然后进入占用状态。
50.根据上述优选实施方式的方案，尤其对于老人而言是极为有益的。一般对于老人而言，受方言等因素影响，语音识别率偏低。为避免这种缺陷，以上方案至少在一定程度上可视为一种有益的适老化解决方案，将语音数据以语音消息的方式分发给熟悉方言的人工客服，以满足老人方言沟通需求。
51.根据本发明的一些可替代的优选实施方式，步骤四可包括：
52.每个服务账号在处于空闲状态时，先查询自己能够支持的方言所对应的所有方言语音消息队列的队列长度，然后基于预设的负载均衡算法选取其中的一个方言语音消息队列并从中提取语音消息，然后进入占用状态。
53.其中，这种优选实施方式采用的负载均衡算法可采用各种已知的算法，以合理分配资源。在例如长队列一直有新消息进来的情形下，相比于直接选取最长队列的实施方式，本实施方式可避免导致短队列中的消息一直被延后处理的情况。负载均衡算法可例如结合已有的随机分配算法、轮盘赌算法等已知算法。
54.并且，为确保不同方言的语音消息被分发给正确的客服，实现客服资源的合理调度，我们使用多个方言语音消息队列，每个方言语音消息队列可以由多位客服，每位客服可以从他所熟悉的多个方言的语音消息队列中提取受理语音消息。多消息队列的使用，可避免单队列堵塞影响整体性能，可提高系统的业务整体处理能力的可扩展性，降低老人用户提交语音消息后潜在的排队等待时间，特别是老人熟悉多种方言、客服熟悉多种方言时，更有利于缩短排队等候时间。
55.因此，上述方案有利于一方面便于用户尤其是老人使用相关功能和办理业务，另一方面也有助于提高相关客服系统的服务效率和水平，其优势显著。
56.此外，根据本发明的另一些实施方式，例如当有多位合适客服空闲时，则可选择最早进入空闲状态的合适客服，而将下一条语音消息分配给被选中的合适客服。
57.具体地举例来说，当有多位客服空闲时，空闲客服队列中包括最早进入空闲状态的客服s1以及最晚进入空闲状态的客服s5。那么，当语音消息队列有消息到达(非空)时，则客服调度器(系统)将客服s1而非客服s5移出上述空闲队列，并通知客服s1从各语音消息队列提取消息。若提取成功，则客服s1进入“占用”状态；若未提取到合适方言的语音消息，那么客服s1将重新进入队列的末尾。
58.在这一过程中，可以理解的是，空闲客服的队列是动态变化的。并且，若有某种方言的语音消息队列，一直无法清空，则说明该方言所需客服资源十分紧缺，在此情况下，远程服务端的系统可在管理后台提出警示或者提示。
59.根据本发明的一些优选实施方式，步骤三还包括：
60.用户端设备接收用户的语音输入，并将语音输入转换为语音消息，并将语音消息
发送至远程服务端。
61.根据本发明的一些优选实施方式，步骤三还包括：
62.初始化用户端设备，并载入用户设置信息，所述用户设置信息包含能够指示用户所属方言区的信息，并且所述用户设置信息可经由用户端设备人工修改。
63.根据本发明的一些优选实施方式，用户端设备具有模式触发按键、语音采集模块和语音收发模块，模式触发按键被配置成用于激活语音采集模块，语音采集模块被配置成用于采集用户的语音输入，语音收发模块被配置为用于将采集到的语音输入转换为语音消息并将转换而成的语音消息发送至远程服务端。其中，语音采集模块为内置于用户端设备的电视机、电视机顶盒或者遥控器内的麦克风阵列。其中，语音收发模块可以采用内置于电视机或电视机顶盒中的cpu实现将语音数据转换为语音消息。
64.根据本发明的一些优选实施方式，语音收发模块内置有语音预判断单元，语音预判断单元被配置成能够接收语音采集模块采集的声音信号，并根据预设判定规则确定是否能够排除采集到的声音信号为语音输入的可能性，若未能排除可能性则将转换后的语音消息发送至远程服务端。
65.根据本发明的一些优选实施方式，语音预判断单元内置有该预设判定规则，该预设判定规则包括预设的声音频率范围，若采集到的声音信号的声音频率在该声音频率范围以外，则排除采集到的声音信号为语音输入的可能性。
66.根据本发明的一些优选实施方式，语音预判断单元内置有该预设判定规则，该预设判定规则包括预设的振幅阈值，若采集到的声音信号的振幅超出该振幅阈值，则排除采集到的声音信号为语音输入的可能性。
67.根据本发明的一些优选实施方式，语音预判断单元内置有该预设判定规则，该预设判定规则包括预设的持续时间阈值，若采集到的声音信号的持续时间未达到该持续时间阈值，则排除采集到的声音信号为语音输入的可能性。
68.上述几种可能的优选实施方式，可从不同角度在用户端设备的本地就迅速排除诸如由误操作引发的声音输入信号，从而避免不期望地对于整个系统资源的不当占用或者不必要占用，进而进一步提高了处理效率。可以理解的是，上述几种可能的优选实施方式的预设判定规则可被结合为一个能够从多方面或多因素进行预判的预设规则。
69.应理解的是，本发明的另一些优选实施方式还可提供一种面向电视终端的语音消息的处理系统，该处理系统包括被配置为能够执行如上任意优选实施方式所描述的处理方法的远程服务端和用户端设备。
70.以下参考图1-3所示介绍根据本发明的一些优选实施方式的面向电视终端的语音消息的处理系统的应用实例。
71.如图1所示，在该应用实例中，整个系统可由语音遥控器、电视终端、语音消息后台、终端运营数据库、方言区域数据库组成。语音遥控器除提供常规电视机按键遥控信号外，还内置麦克风，具备语音数据采集功能，所采集的语音数据通过蓝牙等无线方式传输给电视终端。电视终端接收遥控器的操控，并接收来自网络的音视频内容，可通过网络与内容服务平台交互，并在电视屏幕上呈现电视画面、软件功能界面，实现电视端的用户交互功能。当模式触发按键被操作时，启动专项服务功能，此时通过用户端设备采集语音信息，发送至语音消息后台。语音消息后台可为电视终端用户存储通讯录，其中通讯录包括用户的
亲友，亲友属性包括注册的手机号、注册的电视终端标识号。用户标识号与方言区域关联，允许有多个方言区域。消息后台还存储有人工客服的信息，包括支持的方言区域，允许有多个方言区域，如支持上海松江方言、上海青浦方言、上海嘉定方言、上海金山方言。
72.如图2所示，该应用实例中的方言区域划分进一步支持子区域的划分，如上海金山方言可按当地方言特性划分为不同的子区域，朱泾子区域、亭林子区域、枫泾子区域。其中方言区域数据可按树状结构组织。
73.消息后台可以将来自电视终端的语音数据转发给能够听懂相应方言的合适人工客服，也可根据用户请求转发给用户所选定的通讯录联系人(亲友)。
74.用户的方言区域可以手工设定，也可根据所用电视终端安装绑定的地址区域进行自动化设定。对于电信运营商iptv机顶盒或者广电运营商的数字电视机顶盒，由于业务鉴权与计费需要，这些电视终端的唯一标识号，譬如电视机顶盒的以太网mac号，都与具体安装地址进行了关联。就是说，根据电视终端的唯一标识号，系统可以查询到所安装的地址、地理区域，进而自动设定所属方言区域。这种方式未必准确，但可以减少人工设定的工作量。
75.用户亦可自行修改方言区域。
76.一个方言区域可以有多位客服(在此所称的客服可对应为或视为前文描述的服务账号)提供服务。参考图3所示，在语音消息系统中，每个方言区域有一个语音消息队列，客服从所覆盖的多个方言区域消息队列中提取消息进行处理。一条语音消息可以作为引用出现在多个消息队列中。若一个消息在任何一个队列中被提取并受理后，那它在其他队列被提取后将直接被忽略掉。执行提取操作时需要通过互斥信号锁进行互斥保护。消息队列的放入与提取遵循常规的fifo(先入先出)规则。
77.客服账号必须在线登录，以实时接收来自老人的语音消息。客服收到语音消息的同时，系统还会同步向客服显示老人的有关信息，如地址、联系方式、求助/服务历史记录，以帮助客服理解老人的语音内容和诉求。
78.为便于理解上述创新方案的原理及原则，以下对本文中涉及的部分用语做如下说明。
79.本文中，语音数据一词，通常可理解为：包含人声的音频数据，语音采集设备采集的原始数据通常为pcm格式，也可编码(压缩)为mp3、ac3、aac、vorbis等格式。
80.语音消息一词，通常可理解为：载有语音数据(录音)的消息，如微信中的语音留言(语音消息)，传统电话系统的电话留言等等。传输语音消息时，可不对语音进行任何识别处理(即speech to text，stt)。换言之，本文中的语音消息可例如理解为语音留言。
81.语音指令和语音控制等词，在本文中通常可理解为：以语音数据形式发布命令、指令、操控指令，例如但不限于“换台”、“关机”、“音量大一点”等等，接收设备(通常为智能设备)必须能够理解其语义。然而，目前的语音指令、语音控制，基本上是基于语音识别(stt)、自然语言处理(nlp)语义分析等技术来实现语音指令、语音控制，而目前的语音指令、语音控制在涉及方言的应用场景下仍有较大局限性。
82.在该应用实例中，一次完整的服务过程可大致如下：
83.老人用户端设备(电视机顶盒、语音遥控器)的安装初始化，包括在终端运营数据库中设定设备安装地址，或者人工设定方言区域；
84.方言语音消息队列的初始化，每个队列对应一种方言；
85.人工客服账号的初始化，包括该账号所支持的单个或多个方言语音消息队列；
86.人工客服登录上线，监听所支持方言的语音消息队列(可以有多个)，随时准备接收老人的语音消息；
87.老人用户通过遥控器进入电视界面中老人专项服务栏目；
88.老人用户通过遥控器发送语音；
89.机顶盒收到语音数据后上传语音消息平台；
90.语音消息平台根据老人用户所属方言区域，将消息放入对应的方言消息队列(可能有多个方言队列)；
91.在线人工客服从所支持方言的语音消息队列中提取并受理一条尚未受理的语音消息。若支持多个方言，则从其中一个非空队列中提取。若提取的消息已受理，则重复一次提取操作。选择非空队列的方式，可以是随机选择，或选择最长队列。
92.在线人工客服收听所受理语音消息中的语音数据，根据诉求主动电话联系老人，安排服务并在系统内记录服务情况。
93.应理解的是，上述较为完整的服务流程仅是出于举例说明的目的而做详细说明，并非旨在以此限制本发明的保护范围。
94.虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。