首页 > 化学装置 专利正文
实现自动驾驶决策的方法、装置、计算机存储介质及终端与流程

时间:2022-02-17 阅读: 作者:专利查询

实现自动驾驶决策的方法、装置、计算机存储介质及终端与流程

1.本文涉及但不限于无人驾驶技术,尤指一种实现自动驾驶决策的方法、装置、计算机存储介质及终端。


背景技术:

2.无人驾驶技术可以提高通行效率、降低通勤成本和提高交通安全性。一般将无人驾驶分为感知层、决策层和控制层。感知层获取环境状态信息,决策层以环境状态信息为依据做出运动决策,控制层实现基于运动决策执行运动的轨迹的跟踪。在此过程中,决策层完全根据感知层给出的环境状态信息做出运动决策。
3.目标检测技术是无人驾驶汽车感知层中的重要技术之一,感知层通过目标检测算法基于概率目标检测,获取包含自车周围物体的语义信息(物体的类别信息)的目标检测结果;通过感知模块获取感知信息后,根据目标检测结果和感知信息,生成环境状态信息;生成的环境状态信息输入到决策层后,由决策层做出运动决策。
4.目前目标检测算法大多基于深度神经网络,然而由于实际环境复杂多变、传感器采集信息时存在损失和噪声、认知算法存在缺陷和网络训练集有限等原因,目标检测算法无法确保在任意场景下均给出一个完全准确的结果,因此概率目标检测结果存在不准确或不正确的情况,基于此结果做出的运动决策可能无效或存在安全问题。如何提升运动决策的安全性,是无人驾驶应用中需要解决的一个问题。


技术实现要素:

5.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
6.本发明实施例提供一种实现自动驾驶决策的方法、装置、计算机存储介质及终端,能够自动驾驶的安全性。
7.本发明实施例提供了一种实现自动驾驶决策的方法,包括:对无人驾驶车辆采集到的图像信息进行概率目标检测,获得概率目标检测结果集合;根据感知信息与获得的概率目标检测结果集合中的每一个概率目标检测结果,分别生成环境状态信息,并将生成的环境状态信息组合为环境状态信息集合;根据生成的环境状态信息集合生成可选的用于车辆控制的动作的可选动作集合;根据生成的可选动作集合和环境状态信息集合,确定用于车辆控制的动作;其中,所述感知信息与所述图像信息采集时刻相同。
8.另一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述实现自动驾驶决策的方法。
9.再一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;所述计算机程序被所述处理器执行时实现如上述实现自动驾驶决策的方法。
10.还一方面,本发明实施例还提供一种实现自动驾驶决策的装置,包括:概率目标检测模块、状态构建模块、生成动作模块和选择动作模块;其中,概率目标检测模块设置为:对无人驾驶车辆采集到的图像信息进行概率目标检测,获得概率目标检测结果集合;状态构建模块设置为:根据感知信息与获得的概率目标检测结果集合中的每一个概率目标检测结果,分别生成环境状态信息,并将生成的环境状态信息组合为环境状态信息集合;生成动作模块设置为:根据生成的环境状态信息集合生成可选的用于车辆控制的动作的可选动作集合;选择动作模块设置为:根据生成的可选动作集合和环境状态信息集合,确定用于车辆控制的动作;其中,所述感知信息与所述图像信息采集时刻相同。
11.本技术技术方案包括:对无人驾驶车辆采集到的图像信息进行概率目标检测,获得概率目标检测结果集合;根据感知信息与获得的概率目标检测结果集合中的每一个概率目标检测结果,分别生成环境状态信息,并将生成的环境状态信息组合为环境状态信息集合;根据生成的环境状态信息集合生成可选的用于车辆控制的动作的可选动作集合;根据生成的可选动作集合和环境状态信息集合,确定用于车辆控制的动作;其中,所述感知信息与所述图像信息采集时刻相同。本发明实施例通过概率目标检测对图像信息进行处理获得包含多个概率目标检测结果的概率目标检测结果集合,概率目标检测结果集合包含的概率目标检测结果估计了目标检测过程中的不确定性,每一个概率目标检测结果和感知信息生成一个环境状态信息,由概率目标检测结果集合中的概率目标检测结果与感知信息生成环境状态信息集合,进而基于环境状态信息集合生成了考虑不确定性的可选动作集合,根据可选动作集合和环境状态信息集合确定用于车辆驾驶控制的动作,提升了在感知结果不能保证完全准确时的自动驾驶的安全性。
12.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
13.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本技术的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
14.图1为本发明实施例实现自动驾驶决策的方法的流程图;图2为本发明实施例实现自动驾驶决策的装置的结构框图;图3是本发明应用示例实现自动驾驶决策的系统的组成示意图;图4为本发明应用示例的流程示意图。
具体实施方式
15.为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互任意组合。
16.在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
17.图1为本发明实施例实现自动驾驶决策的方法的流程图,如图1所示,包括:步骤101、对无人驾驶车辆采集到的图像信息进行概率目标检测,获得概率目标检测结果集合;需要说明的是,本发明实施例中的概率目标检测(pod,probabilistic object detection)为相关技术中,一类基于蒙特卡洛抽样原理,估计目标检测过程中的不确定性的方法。具体的实现例包括基于monte carlo dropout的目标检测方法等的已有算法;概率目标检测结果集合中包含的概率目标检测结果的个数可以根据概率目标检测算法中的前馈次数确定,前馈次数可以由本领域技术人员根据经验设定。
18.步骤102、根据感知信息与获得的概率目标检测结果集合中的每一个概率目标检测结果,分别生成环境状态信息,并将生成的环境状态信息组合为环境状态信息集合;其中,感知信息与图像信息为采集时刻相同。
19.在一种示例性实例中,本发明实施例感知信息包括以下一项或任意组合:自动驾驶车辆周围物体的位置信息、自车行驶状态信息、地图信息等。可以通过包括雷达、全球定位系统(gps)模块、高精度地图模块等实现感知信息的获取。
20.本发明实施例由概率目标检测结果和感知信息生成环境状态信息的方法,与相关技术中根据目标检测结果和感知信息生成环境状态信息的方法相同,仅是将相关技术中的目标检测结果替换为概率目标检测结果。
21.步骤103、根据生成的环境状态信息集合生成可选的用于车辆控制的动作的可选动作集合;在一种示例性实例中,本发明实施例根据生成的环境状态信息集合生成可选的用于车辆控制的动作的可选动作集合,包括:通过预设的第一决策方法对环境状态信息集合进行处理,生成第一动作;对环境状态信息集合中的每一个环境状态信息,分别通过预设的第二决策方法进行处理,生成每一个环境状态信息相应的第二动作;将由第一动作和第二动作构成的集合,确定为可选动作集合;其中,第一决策方法包括:不考虑目标语义信息的决策方法;第二决策方法包括:考虑目标语义信息的决策方法。
22.本发明实施例基于第一决策方法和第二决策方法的混合决策框架,生成了包含考虑目标语义信息和不包含目标语义信息的可选动作集合。
23.本发明实施例第一决策方法包括相关技术中的基于规则模型的决策方法,实现的是具有严格约束下的自动驾驶,可以确定自动驾驶系统的安全性。在一种示例性实例中,本发明实施例中的第一决策方法包括:a*的局部路径规划算法和不含类别的人工势场法等。
24.本发明实施例第二决策方法包括相关技术中的基于深度强化学习的决策方法,通过对状态转移概率的估计求解最优化问题,可以提升自动驾驶系统的效率;此外,第二决策方法一般具有较强的泛化能力,提升了系统应对陌生场景的能力。在一种示例性实例中,本发明实施例中的第二决策方法包括:基于强化学习的决策方法和最小化变道引起的总制动方法(mobil,minimizing overall braking induced by lane change)等;步骤104、根据生成的可选动作集合和环境状态信息集合,确定用于车辆控制的动作。
25.本发明实施例通过概率目标检测对图像信息进行处理获得包含多个概率目标检测结果的概率目标检测结果集合,概率目标检测结果集合包含的概率目标检测结果估计了目标检测过程中的不确定性,每一个概率目标检测结果和感知信息生成一个环境状态信息,由概率目标检测结果集合中的概率目标检测结果与感知信息生成环境状态信息集合,进而基于环境状态信息集合生成了考虑不确定性的可选动作集合,根据可选动作集合和环境状态信息集合确定用于车辆驾驶控制的动作,提升了在感知结果不能保证完全准确时的自动驾驶的安全性。
26.在一种示例性实例中,本发明实施例步骤104确定用于车辆驾驶控制的动作,包括:对可选动作集合中的每一个用于车辆控制的动作,分别计算环境状态信息集合中的每一个环境状态信息下的动作价值,将所有环境状态信息下的动作价值组为该动作的动作价值集合;根据计算的每个动作的动作价值集合,按预设策略确定基于置信区间下界的考虑不确定性的动作价值;将不确定性的动作价值最大的动作,确定为用于车辆控制的动作。
27.本发明实施例根据感知的环境状态信息集合的分布,估计所有可选动作在不确定性下的价值,进而选择不确定性的动作价值最大的动作,用于车辆控制,提升了自动车辆驾驶的安全性。
28.在一种示例性实例中,本发明实施例按预设策略确定基于置信区间下界的考虑不确定性的动作价值,包括:计算确定性的动作价值的期望值和标准差;根据计算的期望值和标准差,确定不确定性的动作价值。
29.在一种示例性实例中,本发明实施例通过以下公式计算不确定性的动作价值:;其中,,表示动作的动作价值的期望值;表示环境状态信息的确定性的动作价值;环境状态信息集合为;,表示确定性的动作价值的标准差;为预设的反映不确定性权重的参数;t为概率目标检测的前馈次数。
30.本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机程
序,计算机程序被处理器执行时实现上述实现自动驾驶决策的方法。
31.本发明实施例还提供一种终端,包括:存储器和处理器,存储器中保存有计算机程序;其中,处理器被配置为执行存储器中的计算机程序;计算机程序被处理器执行时实现如上述实现自动驾驶决策的方法。
32.图2为本发明实施例实现自动驾驶决策的装置的结构框图,如图2所示,包括:概率目标检测模块、状态构建模块、生成动作模块和选择动作模块;其中,概率目标检测模块设置为:对无人驾驶车辆采集到的图像信息进行概率目标检测,获得概率目标检测结果集合;状态构建模块设置为:根据感知信息与获得的概率目标检测结果集合中的每一个概率目标检测结果,分别生成环境状态信息,并将生成的环境状态信息组合为环境状态信息集合;生成动作模块设置为:根据生成的环境状态信息集合生成可选的用于车辆控制的动作的可选动作集合;选择动作模块设置为:根据生成的可选动作集合和环境状态信息集合,确定用于车辆控制的动作;其中,感知信息与图像信息采集时刻相同。
33.本发明实施例通过概率目标检测对图像信息进行处理获得包含多个概率目标检测结果的概率目标检测结果集合,概率目标检测结果集合包含的概率目标检测结果估计了目标检测过程中的不确定性,每一个概率目标检测结果和感知信息生成一个环境状态信息,由概率目标检测结果集合中的概率目标检测结果与感知信息生成环境状态信息集合,进而基于环境状态信息集合生成了考虑不确定性的可选动作集合,根据可选动作集合和环境状态信息集合确定用于车辆驾驶控制的动作,提升了在感知结果不能保证完全准确时的自动驾驶的安全性。
34.在一种示例性实例中,本发明实施例生成动作模块是设置为:通过预设的第一决策方法对环境状态信息集合进行处理,生成第一动作;对环境状态信息集合中的每一个环境状态信息,分别通过预设的第二决策方法进行处理,生成每一个环境状态信息相应的第二动作;将由第一动作和第二动作构成的集合,确定为可选动作集合;其中,第一决策方法包括:不考虑目标语义信息的决策方法;第二决策方法包括:考虑目标语义信息的决策方法。
35.在一种示例性实例中,本发明实施例选择动作模块是设置为:对可选动作集合中的每一个用于车辆控制的动作,计算对应的每一个环境状态信息的确定性的动作价值;根据计算的每个动作的确定性的动作价值,按预设策略确定基于置信区间下界的考虑不确定性的动作价值;将不确定性的动作价值最大的动作,确定为用于车辆控制的动作。
36.在一种示例性实例中,本发明实施例选择动作模块设置为按预设策略确定基于置信区间下界的考虑不确定性的动作价值,包括:
计算确定性的动作价值的期望值和标准差;根据计算的期望值和标准差,确定不确定性的动作价值。
37.在一种示例性实例中,本发明实施例选择动作模块通过以下公式计算不确定性的动作价值:;其中,,表示动作的动作价值的期望值;表示环境状态信息的确定性的动作价值;环境状态信息集合为;,表示确定性的动作价值的标准差;为预设的反映不确定性权重的参数;t为概率目标检测的前馈次数。
38.以下通过应用示例对本发明实施例进行简要说明,应用示例仅用于陈述本发明实施例,并不用于限定本发明的保护范围。
39.应用示例本发明应用示例基于感知层和决策层的划分,将实现自动驾驶决策的方法基于由感知子系统和决策子系统组成的系统实施,图3是本发明应用示例实现自动驾驶决策的系统的组成示意图,如图3所示,包括:感知子系统和决策子系统;其中,感知子系统采集自动车辆行驶时道路的图像信息和包括自车行驶信息在内的感知信息,利用概率目标检测对图像信息进行处理,估计目标检测过程中的不确定性,构建环境状态信息集合,输出给决策子系统;决策子系统根据感知子系统给出的环境状态信息集合,基于混合决策框架,生成可选动作集合;进而根据感知给出的环境状态信息集合的分布,估计所有可选动作在不确定性的动作价值,从而选出用于车辆控制的动作。
40.图4为本发明应用示例的流程示意图,如图4所示,基于图2所示的装置组成,本发明应用示例进行的处理包括:步骤401、概率目标检测模块接收图像信息,通过概率目标检测获得概率目标检测结果集合;其中,代表第i次概率目标检测结果,为概率目标检测的前馈次数;本发明应用示例通过概率目标检测获得概率目标检测结果集合包括:从网络预训练的权重分布中随机采样概率目标检测的网络权重,基于随机采样的网络权重进行前馈次数的概率目标检测,获得包含t个概率目标检测结果的概率目标检测结果集合。
41.步骤402、状态构建模块根据概率目标检测结果集合与感知信息,生成环境状态信息集合;其中,代表根据概率目标检测结果和感知信息生成的环境状态信息;本发明应用示例环境状态信息可以参照相关技术根据目标检测结果和感知信息
生成环境状态信息的方法获得,在处理过程中将目标检测结果替换为本发明实施例中的概率目标检测结果;例如,通过生成环境状态信息;其中是相关技术中的一类基于目标检测结果和感知信息生成环境状态信息的方法;需要说明的是,本发明应用示例生成的环境状态中包含概率目标检测结果中携带的语义信息(包括物体的类别信息)。
42.步骤403、生成动作模块基于生成的环境状态信息集合生成可选动作集合;本发明应用示例基于生成的环境状态信息集合生成可选动作集合包括:通过预设的第一决策方法对环境状态信息集合进行处理,生成第一动作。其中,代表不考虑目标语义信息的第一决策方法;由于不考虑语义信息,则以环境状态信息集合中的环境状态信息作为输入,通过第一决策方法生成的动作相同均相同;对环境状态信息集合中的每一个环境状态信息,分别使用预设的第二决策方法生成相应的第二动作,获得集合;其中代表考虑目标语义信息的第二决策方法。
43.将第一决策方法生成的动作与第二决策方法生成的动作,组合为可选动作集合=。
44.步骤404、选择动作模块根据生成的可选动作集合和环境状态信息集合,选出用于车辆控制的动作。
45.本发明应用示例选出用于车辆控制的动作包括:计算可选动作集合中的每个动作的不确定性的动作价值;将不确定性的动作价值最大的动作,确定为用于车辆控制的动作。用于车辆控制的动作;本发明应用示例计算可选动作集合中的每个动作的不确定性的动作价值包括:对每个环境状态信息,计算环境状态信息的确定性的动作价值。;是相关技术中的一类基于确定性环境状态计算动作动作价值的方法;根据计算的环境状态信息的确定性的动作价值和动作价值的期望值,确定基于置信区间下界的不确定的动作价值;本发明应用示例确定基于置信区间下界的不确定的动作价值,包括:估计动作价值的期望值,根据估计的动作价值的期望值
计算动作价值标准差:计算考虑不确定性的动作价值;其中,为预设的反映不确定性权重的参数;t为概率目标检测的前馈次数。
46.本发明应用示例通过在决策中考虑感知过程的不确定性,不要求在任意条件下的准确感知,仅通过对感知不确定性过程的估计,即使决策层能够基于感知的不确定性信息,分析可选动作的期望价值的同时,对动作价值的分布进行估计,综合选择最优动作,提升了自动驾驶汽车在感知性能局限时的表现。通过设计混合决策框架和基于不确定性的动作价值估计方法,使得自动驾驶汽车能够在不同的感知不确定性水平下,自适应地调整策略倾向。在混合决策框架中,保守策略(第一决策方法)做出决策时未考虑高不确定性的语义信息,可以在目标检测性能受限时保障自动驾驶安全;最优化策略(第二决策方法)可以在目标检测结果正确时保障自动驾驶效率。通过合理设计价值估计方法,在高感知不确定性下,选择保守的策略;在低不确定性下,选择优化策略;因此在保持自动驾驶效率的前提下,提升了自动驾驶系统在面对高感知不确定性场景时的表现。
47.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于 ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。