首页 > 乐器声学 专利正文
车内语音交互方法和系统与流程

时间:2022-02-18 阅读: 作者:专利查询

车内语音交互方法和系统与流程

1.本发明主要涉及汽车的智能控制领域,尤其涉及一种车内语音交互方法和系统。


背景技术:

2.当前透明a柱的主要使用场景是显示被a柱遮挡的视野,在城市道路转弯场景下可以降低安全隐患。但是驾驶时间的绝大部分屏幕都是处于闲置状态,对于价格高昂的透明a柱系统来说,其价值未被充分利用。
3.在此基础上,由于汽车产业的日趋成熟,车载智能设备和功能也逐渐完善。语音服务现如今是车辆的标配,目前车内的语音交互主要通过独立的硬件实现,或者通过与中控屏幕的人机交互实现更高级别的车内语音功能。
4.然而,对于独立的硬件,屏幕的尺寸较小,功能有限,且一般只能显示有限的图像,可交互性不足。对于与中控屏幕的语音交互的方案,语音功能在未唤醒时多处于隐藏状态,用户感知度不足。由此可知,语音服务仅仅作为一个常规功能,缺少了智能科技的温度及体贴感。


技术实现要素:

5.本发明要解决的技术问题是提供一种车内语音交互方法和系统,可以充分利用a柱屏幕实现车内语音交互,提高车内语音功能的智能化程度从而提升驾驶感受。
6.为解决上述技术问题,本发明提供了一种车内语音交互方法,包括如下步骤:在a柱屏幕上常态地呈现处于等待状态的语音形象;唤醒所述处于等待状态的语音形象,以使所述语音形象进入对话状态;通过语音设备接收语音指令;以及通过车机将所述语音指令转换为文本指令,对所述文本指令进行语义分析后,在所述a柱屏幕通过所述语音形象的变化形态呈现语音交互结果。
7.在本发明的一实施例中,当所述语音指令为获取信息的语音指令时,所述语音交互结果包括由所述语音形象的第一变化形态展示电子服务卡片,所述电子服务卡片中包含需要获取的信息。
8.在本发明的一实施例中,所述方法还包括根据时间、天气、车辆状态、应用状态和/或用户信息呈现所述语音形象的不同形态,其中,所述车辆状态包括车辆的停止或前行状态,所述应用状态包括在所述语音形象进入所述对话状态后,车内同时进行的其他车载应用的状态,所述用户信息包括用户年龄、性别和/或情绪。
9.在本发明的一实施例中,当根据所述用户信息呈现所述语音形象的不同形态时,在通过所述语音设备接收语音指令的同时,还包括通过车内摄像头拍摄用户图像,通过所述车机对所述用户图像进行图像分析后,识别用户年龄、性别和/或情绪,并在所述a柱屏幕根据所述用户年龄、性别和/或情绪呈现所述语音形象的不同形态。
10.在本发明的一实施例中,在车辆行驶的车速小于一阈值时,在所述a柱屏幕上呈现所述处于等待状态的语音形象的同时,还包括在所述a柱屏幕上呈现车外的a柱盲区影像,
且所述语音形象与所述a柱盲区影像共用所述a柱屏幕。
11.在本发明的一实施例中,当所述车速大于或等于所述阈值时,在所述a柱屏幕上关闭所述a柱盲区影像,同时调节所述语音形象的大小以及在所述a柱屏幕上的呈现位置。
12.本发明的另一方面还提出了一种车内语音交互系统,包括:a柱屏幕,配置为常态地呈现处于等待状态的语音形象,并呈现处于对话状态的语音形象以及所述语音形象的变化形态;语音设备,配置为接收语音指令;车机,与所述a柱屏幕和所述语音设备相连,所述车机配置为将所述语音指令转化为文本指令,对所述文本指令进行语义分析后,发送信号至所述a柱屏幕以使所述a柱屏幕通过所述语音形象的变化形态呈现语音交互结果。
13.在本发明的一实施例中,所述系统还包括车内摄像头,连接所述车机,所述车内摄像头配置为拍摄用户图像,所述车机还配置为对所述用户图像进行图像分析后,识别用户年龄、性别和/或情绪,并在所述a柱屏幕根据所述用户年龄、性别和/或情绪呈现所述语音形象的不同形态。
14.本发明的另一方面还提出了一种车内语音交互系统,包括:存储器,用于存储可由处理器执行的指令;以及处理器,用于执行所述指令以实现上述车内语音交互方法。
15.本发明的另一方面还提出了一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现上述车内语音交互方法。
16.与现有技术相比,本发明具有以下优点:基于透明a柱屏幕硬件和系统软件的配置,本发明中的语音形象常态地展示在a柱屏幕上,将不显示路况的时间用于语音形象的交互展示,充分利用了a柱屏幕的价值;在此基础上,由于透明a柱屏幕的尺寸较大、色彩分辨率较高,可以展示更加丰满活泼的语音形象,语音形象具有多维度的感知能力,极大的提升了语音产品的感知度和科技感,显著提高了语音功能的智能化程度从而提升了驾驶感受。
附图说明
17.包括附图是为提供对本技术进一步的理解,它们被收录并构成本技术的一部分,附图示出了本技术的实施例,并与本说明书一起起到解释本发明原理的作用。附图中:
18.图1是本发明一实施例的一种车内语音交互方法的流程示意图;
19.图2a和图2b是本发明一实施例的一种车内语音交互方法中在a柱屏幕呈现语音形象的示意图;
20.图3a和图3b本发明一实施例的一种车内语音交互方法中在a柱屏幕呈现电子服务卡片和其他形态的语音形象的示意图;
21.图4是本发明一实施例的一种车内语音交互系统的系统框图;以及
22.图5是本发明另外一实施例的一种车内语音交互系统的系统框图。
具体实施方式
23.为了更清楚地说明本技术的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本技术的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本技术应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
24.如本技术和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
25.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本技术的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
26.在本技术的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本技术保护范围的限制;方位词“内、外”是指相对于各部件本身的轮廓的内外。
27.为了便于描述,在这里可以使用空间相对术语,如“在
……
之上”、“在
……
上方”、“在
……
上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在
……
上方”可以包括“在
……
上方”和“在
……
下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
28.此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本技术保护范围的限制。此外,尽管本技术中所使用的术语是从公知公用的术语中选择的,但是本技术说明书中所提及的一些术语可能是申请人按他或她的判断来选择的,其详细含义在本文的描述的相关部分中说明。此外,要求不仅仅通过所使用的实际术语,而是还要通过每个术语所蕴含的意义来理解本技术。
29.应当理解,当一个部件被称为“在另一个部件上”、“连接到另一个部件”、“耦合于另一个部件”或“接触另一个部件”时,它可以直接在该另一个部件之上、连接于或耦合于、或接触该另一个部件,或者可以存在插入部件。相比之下,当一个部件被称为“直接在另一个部件上”、“直接连接于”、“直接耦合于”或“直接接触”另一个部件时,不存在插入部件。同样的,当第一个部件被称为“电接触”或“电耦合于”第二个部件,在该第一部件和该第二部件之间存在允许电流流动的电路径。该电路径可以包括电容器、耦合的电感器和/或允许电流流动的其它部件,甚至在导电部件之间没有直接接触。
30.本发明的一实施例提出了一种车内语音交互方法,可以充分利用a柱屏幕实现车
内语音交互,提高车内语音功能的智能化程度从而提升驾驶感受。
31.如图1所示,是本发明一实施例的一种车内语音交互方法10的流程示意图。本技术中图1使用了流程图用来说明根据本技术的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
32.根据图1,车内语音交互方法10包括如下的步骤。
33.步骤11为在a柱屏幕上常态地呈现处于等待状态的语音形象。示例性的,处于等待状态的语音形象包括二维形象、三维形象,或者根据a柱屏幕所呈现的其他应用或画面而在此等待状态下降语音形象缩略为图标。本发明不对此做出限制。示例性的,如图2a和2b所示,为本发明一些实施例中在a柱屏幕20上呈现语音形象21的示意图。
34.更具体的,在图2a中,由于a柱屏幕20还需展示其他应用,所以在常态的状态下,语音形象21呈现为a柱屏幕20右下角的缩略图。但是需要说明的是,本发明不以图2a所示出的静态的二维图像为限,例如,在本发明的一些其他的实施例中,语音形象21可以是常态的动画形式,或者其与其他应用共享a柱屏幕的位置也与图2a示出的存在差异。
35.另一方面,图2b示出了该语音形象21在无需与其他应用共享a柱屏幕20时的呈现方式,在这样的条件下,a柱屏幕上还显示出了步骤12唤醒处于等待状态的语音形象21后,语音形象21采用对话的方式回应唤醒的操作,这部分内容将在下文进一步介绍。
36.总的来说,在本发明的实施例中,处于等待状态的语音形象可以常态的呈现在a柱屏幕上,由此解决现有技术中车内语音智能设备用户感知度不足的问题。
37.在本发明的一些实施例中,在车辆行驶的车速小于一阈值时,在a柱屏幕上呈现上述处于等待状态的语音形象的同时,还包括在a柱屏幕上呈现车外的a柱盲区影像,且语音形象与a柱盲区影响共用a柱屏幕。如现有技术中提到的,当前透明a柱的主要使用场景是显示被a柱遮挡的视野,即a柱盲区。而需要呈现该a柱盲区影像的场景一般是低速状态。
38.因此,此处要说明的是,本发明在一些实施例中提出了在车辆行驶的车速小于一阈值(即低速状态)时,对于已显示a柱盲区影像的a柱屏幕,采用在a柱屏幕同时呈现a柱盲区影像和语音形象的方式,解决现有技术中语音形象隐藏导致用户感知度不足的问题。
39.示例性的,可以是a柱盲区影像和处于等待状态的语音形象共用一块a柱屏幕,或者当a柱屏幕具有两块屏幕时,a柱盲区影像与处于等待状态的语音形象分别占用一块屏幕显示,本发明不对此共同显示实施例对a柱屏幕的占用方式做出限制。
40.进一步具体的,在这些a柱盲区影像与语音形象共同显示的实施例中,当车速大于或等于该阈值时(也即不再处于低速状态),在a柱屏幕上关闭a柱盲区影像,同时调节语音形象的大小以及在a柱屏幕上的呈现位置。示例性的,由于共同占用屏幕,如上所述,低速状态下的语音形象可以是更小的形象或者是图标,当a柱屏幕不再需要显示a柱盲区影像时,自动调节此时语音形象的大小,以使其在屏幕上的位置更加与a柱屏幕的实时显示状况更加适配。
41.进一步的根据图1,步骤12为唤醒处于等待状态的语音形象,以使语音形象进入对话状态。
42.示例性的,在本发明的一些实施例中,唤醒的方式可以是通过车内的语音设备接收语音指令、或者通过车内中控屏幕上按键/操作界面按钮等唤醒语音形象,本发明不对此
做出限制。示例性的,如上所述,如图2b所示,在本发明的一些实施例中,在唤醒处于等待状态的语音形象21后,语音形象21在a柱屏幕20上采用对话的方式回应唤醒的操作,例如,提示文字“嗨,我是小优,有什么可以帮您吗?”,从而可以增加语音形象的智能性与互动性,从而增强用户体验。
43.继续参照图1,步骤13为通过语音设备接收语音指令。示例性的,这里的语音设备可以是与上述步骤12涉及的接收唤醒语音指令的语音设备为同一个设备。更具体的,该设备可以是车载话筒,或者移动终端的应用程序,本发明不对此作出限制。
44.最后,在图1中,步骤14为通过车机将语音指令转换为文本指令,对文本指令进行语义分析后,在a柱屏幕通过语音形象的变化形态呈现语音交互结果。具体来说,通过语音形象的变化形态呈现语音交互结果,是在每一次展示交互结果时,语音形象都具有变化的形态,从而使该语音形象更为生动,与用户的交互性更强。
45.优选地,如图3a所示,在本发明的一些实施例中,当步骤13中接收的语音指令为获取信息的语音指令时,例如,获取天气信息、导航信息等等,步骤14中的语音交互结果包括由如图2a和2b所示的语音形象21的第一变化形态210展示电子服务卡片22,电子服务卡片22中包含需要获取的信息。
46.通过对比可以看出的是,第一变化形态210在如图3a的实施例中是参照图2a和2b示出的语音形象21的表情变化,但是本发明不以此为限,例如,在本发明的一些实施例中,该第一变化形态还可以是其他动作或图案的变形或者是形态的变化等,本发明不对此做出限制。
47.进一步的,如图3b所示,在本发明的一些实施例中,当执行步骤14在a柱屏幕20通过语音形象的变化形态呈现语音交互结果时,还包括根据时间、天气、车辆状态、应用状态和/或用户信息呈现语音形象的不同形态,其中,车辆状态包括车辆的停止或前行状态,应用状态包括在语音形象进入对话状态后,车内同时进行的其他车载应用的状态,用户信息包括用户年龄、性别和/或情绪。
48.具体的,如图3b所示的为在本发明的一些实施例中,当车辆状态为前行状态,更具体的,如在前行时发生了速度的变化时,此时在a柱屏幕20上呈现处于奔跑状态的语音形象23。同时,由于天气良好或是晴天,在展示奔跑状态的语音形象的同时,还呈现太阳的标识。如此以来,语音形象根据环境和车辆状态的情况的不同,呈现更加丰富的动作或形态,以提升本发明的语音交互方法的智能性和交互性。
49.进一步具体的,当根据用户信息呈现语音形象的不同形态时,在通过语音设备接收语音指令的同时,还包括通过车内摄像头拍摄用户图像,通过车机对用户图像进行图像分析后,识别用户年龄、性别和/或情绪,并在a柱屏幕根据用户年龄、性别和/或情绪呈现语音形象的不同形态。
50.如图4所示,本发明的另一方面提出了一种车内语音交互系统40。根据图4,车内语音交互系统40包括a柱屏幕41、语音设备42以及车机43。其中,a柱屏幕41配置为常态地呈现处于等待状态的语音形象,并呈现处于对话状态的语音形象以及语音形象的变化形态。语音设备42配置为接收语音指令。车机43与a柱屏幕41和语音设备42相连,车机43配置为将语音指令转化为文本指令,对文本指令进行语义分析后,发送信号至a柱屏幕41以使a柱屏幕41通过语音形象的变化形态呈现语音交互结果。
51.优选地,在本发明的一些实施例中,车内语音交互系统40还包括车内摄像头,连接车机43,车内摄像头配置为拍摄用户图像,车机还配置为对用户图像进行图像分析后,识别用户年龄、性别和/或情绪,并在a柱屏幕根据用户年龄、性别和/或情绪呈现语音形象的不同形态。
52.车内语音交互系统40,可以充分利用a柱屏幕实现车内语音交互,提高车内语音功能的智能化程度从而提升驾驶感受。其他关于本发明的语音交互系统的细节可以参照上述对于本发明的语音交互方法10的说明,在此不再赘述。
53.本发明的一实施例还提出了一种如图5所示的车内语音交互系统50。根据图5,语音交互系统50可包括内部通信总线51、处理器(processor)52、只读存储器(rom)53、随机存取存储器(ram)54、以及通信端口55。当应用在个人计算机上时,语音交互系统50还可以包括硬盘56。
54.内部通信总线51可以实现车内语音交互系统50组件间的数据通信。处理器52可以进行判断和发出提示。在一些实施例中,处理器52可以由一个或多个处理器组成。通信端口55可以实现车内语音交互系统50与外部的数据通信。在一些实施例中,车内语音交互系统50可以通过通信端口55从网络发送和接受信息以及数据。
55.车内语音交互系统50还可以包括不同形式的程序储存单元以及数据储存单元,例如硬盘56,只读存储器(rom)53和随机存取存储器(ram)54,能够存储计算机处理和/或通信使用的各种数据文件,以及处理器52所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备,在用户界面上显示。
56.除此之外,本发明另一方面还提出了一种存储有计算机程序代码的计算机可读介质,计算机程序代码在由处理器执行时实现上述的语音交互方法。
57.上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述发明披露仅仅作为示例,而并不构成对本技术的限定。虽然此处并没有明确说明,本领域技术人员可能会对本技术进行各种修改、改进和修正。该类修改、改进和修正在本技术中被建议,所以该类修改、改进、修正仍属于本技术示范实施例的精神和范围。
58.同时,本技术使用了特定词语来描述本技术的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本技术至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本技术的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
59.本技术的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理器件(dapd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器或者其组合。此外,本技术的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。例如,计算机可读介质可包括,但不限于,磁性存储设备(例如,硬盘、软盘、磁带
……
)、光盘(例如,压缩盘cd、数字多功能盘dvd
……
)、智能卡以及闪存设备(例如,卡、棒、键驱动器
……
)。
60.计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。
61.同理,应当注意的是,为了简化本技术披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本技术实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本技术对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
62.一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有
±
20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本技术一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
63.虽然本技术已参照当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本技术,在没有脱离本技术精神的情况下还可作出各种等效的变化或替换,因此,只要在本技术的实质精神范围内对上述实施例的变化、变型都将落在本技术的权利要求书的范围内。