1.本发明属于智能交互
技术领域:
:,特别涉及一种与老年人益智游戏智能交互的方法、系统和机器人。
背景技术:
::2.中国已经成为养老问题大国,老龄人口、高龄人口、失能人口呈现同步增长趋势,同时养老问题也是一个全球性问题,在很多发达国家同样存在。家庭保姆和护理机构从业人员的缺乏增加了养老工作的困难,一位护工对应一位老年人的监护模式在当前社会背景下显然是不可行的。老年人由于年龄增大导致记忆力衰退、身体灵活性下降、易敏感易孤独;自理能力的下降提高了外部监护的要求;日常生活的照料、心里辅助以及身体健康监护成为关注老年人必不可少的需求。时代和科技在快速发展,电子产品快速迭代变得越来越智能,但是老年人记不住复杂的操作步骤。切实符合老年人需求,关注老年人空虚寂寞的心理是需要切实解决的技术问题。3.研究表明,采用合理的方法可以延缓老年人智力衰退玩益智类游戏是一种行之有效的锻炼老年人思维,延缓智力退化的方法。现有的娱乐机器人以儿童为主要对象,开发了基于语音对话的各种早教游戏。而这些游戏不适合听力衰退、视力模糊的老年人。传统的益智游戏比如“九连环”“魔方”等缺乏趣味性、交互性,并且对于老年人来说挑战不轻松,他们很容易厌烦。养老问题激增与劳动力短缺的矛盾促生了机器人行业在养老服务方面的探索,用助老陪护机器人代替护工辅助进行老年陪护工作可以减轻社会劳动的压力。如何来将机器人与益智游戏结合起来,在与老年人进行益智游戏的过程中使机器人和人产生互动以解决老年心理健康方面的陪护问题是需要探索的新的技术问题。技术实现要素:4.为了解决上述技术问题,本发明提出了一种与老年人益智游戏智能交互的方法、系统和机器人。用于将机器人与益智游戏结合起来,在与老年人进行益智游戏的过程中,使机器人和老年人产生互动以解决老年心理健康方面的陪护问题。5.为实现上述目的,本发明采用以下技术方案:6.一种用于与老年人益智游戏智能交互的方法,包括以下步骤:7.实时识别游戏对象的位置和旋转角度;8.在老人操作完成后,根据所述游戏对象的位置和旋转角度,计算抓取下一游戏对象动作的即时回报值以及根据所述即时回报值执行游戏对象抓取;所述游戏对象动作的即时回报值用于表示在可选范围内最优且代价最小的动作,并更新强化学习中的状态动作值函数。9.进一步的,所述实时识别游戏对象的位置和旋转角度的方法为:通过采用旋转目标检测网络模型经过训练实时识别游戏对象的位置和旋转角度。10.进一步的,所述计算抓取下一游戏对象动作的即时回报值包括:11.计算游戏对象的抓取难度、计算选择游戏对象的创新度、计算机械臂抓取游戏动作对象的服从度和游戏的完成度;12.分别赋予游戏对象的抓取难度、选择游戏对象的创新度、机械臂抓取游戏动作对象的服从度和游戏的完成度相应的权重,计算抓取下一游戏对象动作的即时回报值rt+1。13.进一步的,所述游戏对象的抓取难度的评分计算方法为:[0014][0015]其中,xi是第i个对象在难度排序中的序列;n为总的对象数。[0016]进一步的,所述游戏对象的创新度的评分计算方法为:[0017]计算抓取某一对象的动作频率为:[0018]游戏对象的创新度的评分为newi=100*fi;[0019]其中,yi是第i个对象在序列抽到的次数。[0020]进一步的,所述机械臂抓取游戏动作对象的服从度的确定过程为:[0021]当机械臂接收到指令和自身学习结果的路径不同时,机械臂仍按照接收到的指令抓取指定的对象,则指令要求抓取的对象在服从度维度上的评分为100,其余对象为0。[0022]进一步的,所述游戏的完成度的确定过程为:[0023]从最开始选择动作,记为动作距离vi=1记为1;第n个动作的vi=n=n;[0024]在t时刻下,每次动作的动作距离归一化后[0025]完成度的评分wor=score*vi。[0026]进一步的,所述更新强化学习中的状态动作值函数的方法为:[0027]q(st+1,at+1)=q(st,at)+a(rt+1+λmaxq(st,a)-q(st,at));[0028]其中q(st+1,at+1)为时刻t+1的状态st+1与动作at+1组成的q_table值;[0029]q(st,at)为时刻t的状态st与动作at组成的q_table值;a是学习率;λ为分数衰减值;rt+1为时刻t+1的即时回报值。[0030]本发明还提出了一种用于与老年人益智游戏智能交互的系统,包括识别模块和计算模块;[0031]所述识别模块用于实时识别游戏对象的位置和旋转角度;[0032]所述计算模块用于在老人操作完成后,根据所述游戏对象的位置和旋转角度,计算抓取下一游戏对象动作的即时回报值以及根据所述即时回报值执行游戏对象抓取;所述游戏对象动作的即时回报值用于表示在可选范围内最优且代价最小的动作,并更新强化学习中的状态动作值函数。[0033]本发明还提出了一种机器人,包括处理器和机械臂;[0034]所述机械臂上安装图像采集模块,用于通过图像采集模块获取游戏对象的图像信息;机械臂接受处理器的控制信号,实时识别游戏对象的位置和旋转角度以及抓取下一游戏对象动作;[0035]所述处理器用于实时识别游戏对象的位置和旋转角度,以及在老人操作完成后,根据所述游戏对象的位置和旋转角度,计算抓取下一游戏对象动作的即时回报值。[0036]
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:[0037]本发明提出了一种与老年人益智游戏智能交互的方法、系统和机器人,该方法包括:实时识别游戏对象的位置和旋转角度;在老人操作完成后,根据所述游戏对象的位置和旋转角度,计算抓取下一游戏对象动作的即时回报值以及根据所述即时回报值执行游戏对象抓取;所述游戏对象动作的即时回报值用于表示在可选范围内最优且代价最小的动作,并更新强化学习中的状态动作值函数。基于一种与老年人益智游戏智能交互的方法,还提出了一种与老年人益智游戏智能交互的系统和机器人。本发明使用了改进的强化学习算法完成机器人系统游戏过程的自主操作,强化学习可以自监督的完成任务,一边执行动作改变环境的状态,一边进行学习,优化行动策略。本文在强化学习状态改变的基础上加入了人机交互的因素,人成为参与改变环境的第二个智能体,在与老年人进行益智游戏的过程中,强调机器人和人产生互动,有效的提高了老年人陪护的质量,更好的实现老年心理健康方面的陪护。[0038]本发明提供一种机器人,用于实现与老年人益智游戏的智能交互,将用于工业领域的设备应用于与老年人的智能交互,提高了交互的精确性。附图说明[0039]如图1为本发明实施例1一种用于与老年人益智游戏智能交互的方法流程图;[0040]如图2为本发明实施例1中即时回报值的实现示意图;[0041]如图3为本发明实施例1中积木抽取难度示意图;[0042]如图4为本发明实施例2一种用于与老年人益智游戏智能交互的系统示意图。具体实施方式[0043]为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。[0044]实施例1[0045]本发明实施例1提出了一种用于与老年人益智游戏智能交互的方法,使用了改进的强化学习算法完成机器人系统游戏过程的自主操作。[0046]如图1为本发明实施例1一种用于与老年人益智游戏智能交互的方法流程图;[0047]在步骤s101中,实时识别游戏对象的位置和旋转角度;[0048]通过采用旋转目标检测网络模型经过训练识别老年人操作完成后游戏对象的位置和旋转角度。[0049]老年人由于生理系统的老化带来视觉、听觉功能衰退,行动不方便,表达不清晰等问题。同时,还伴有记忆力衰退,反应迟钝,注意力难以集中的问题。复杂的交互系统反而给老年人带来负担,本文的交互过程减少老年人表达信息对意图理解的比重。机械臂主要通过一个kinect3d摄像头感知周围环境。[0050]本发明中通过jenga游戏进行说明,其中jenga是一款益智类游戏,在游戏中,玩家交替从积木塔中抽出一块积木并且使其平衡的放到塔顶,去创造一个不段增高,越来越失去根基的积木塔,直到积木塔倾倒。[0051]机械臂抓取jenga积木块使用了yolo-v5-obb网络框架,经过训练后该框架可以识别出积木的位置以及旋转角度。[0052]在步骤s102中,在老人操作完成后,根据所述游戏对象的位置和旋转角度,计算抓取下一游戏对象动作的即时回报值以及根据所述即时回报值执行游戏对象抓取;所述游戏对象动作的即时回报值用于表示在可选范围内最优且代价最小的动作,并更新强化学习中的状态动作值函数。[0053]积木之间的叠堆产生某些积木更易抓取,而某些积木抓取困难。比如,上下叠放的积木中,上面的积木方便抓;顶层的积木可以从上面抓取;左右的积木更容易从侧面抓取;处于下方承重的积木应该最后抓取。系统应该遵循一般的游戏规则,但游戏过程会出现千变万化的情况。强化学习尤其是当面对无定义的知识时,以目的为动作选项和指导。做到可选范围内最优、代价最小的动作即可。为了增加游戏的趣味性。[0054]如图2为本发明实施例1中即时回报值的实现示意图,本技术中计算抓取下一游戏对象动作的即时回报值包括:[0055]计算游戏对象的抓取难度、计算选择游戏对象的创新度、计算机械臂抓取游戏动作对象的服从度和游戏的完成度;[0056]分别赋予游戏对象的抓取难度、选择游戏对象的创新度、机械臂抓取游戏动作对象的服从度和游戏的完成度相应的权重,计算抓取下一游戏对象动作的即时回报值rt+1。[0057]游戏对象的抓取难度确定过程为:首先初始化积木摆放形状,遵循上层抓取易于下层,外层抓取易于内层的原则,可以得到每个积木的抓取难度,如图3为本发明实施例1中积木抽取难度示意图;我们设定其中,任务难度从难到易为:2》5=4》3=1》6[0058]从难到易,该积木块的抓取难度评分为:[0059]其中,xi是第i个对象在难度排序中的序列;n为总的对象数。为了完成游戏任务,机械臂需要抓取非最易的积木,使机械臂自身具有挑战精神。difi参数以ω1系数参与最终决策。[0060]计算选择游戏对象的创新度的过程为:强化学习为了完成任务,会出现趋向稳定的策略选择,产生在某个方向不断选择,该路径的权重偏重,错失了部分游戏解决的方法。根据学习的路径记录,当环境到达某一状态时,统计下一步的动作选择频率。[0061]抓取某一块积木的动作频率为游戏对象的创新度的评分为newi=100*fi;[0062]其中,yi是第i个对象在序列抽到的次数。最终newi参数以w2系数参与最终决策。[0063]机械臂抓取游戏动作对象的服从度的确定过程为:机械臂在完成游戏时,人可以加入并以下达指令的方式强制要求机械臂的决策。比如,当人要求机械臂抓取底层更难得积木时,机械臂应对此有产生回应。当服从度达到某一阈值后,即使人的指令和机械臂本身学习结果的路径冲突,机械臂仍按照指令执行动作。同时,将这次(动作,状态)作为一次学习的样本。指令要求抓取的积木在服从度维度上的评分为100,其余积木为0。最终,服从度obe以ω3系数参与最终决策。[0064]游戏的完成度确认的过程为:游戏有三种存在状态,即未完成、完成、失败。游戏的完成态是所有初始化的积木都被成功取走。游戏的失败是一个动作《a》影响了多个积木的状态,即不能到唯一的确定状态。当处于未完成态时,机械臂应继续配合老年人做游戏。[0065]由于要根据动作对环境实时监控,所以在此维度只能先执行后更新q_table的权重。这次的动作在后续得到评估,达到完成态时该动作评分为100,造成游戏失败的评分为-100,仍处于未完成态时评分为0。若某个动作使得游戏失败,此次到达的路径上每一个动作的权重都应该抑制。使用动量法更新q_table的权重,距离越远的动作被抑制程度越低。[0066]在一次学习中从最开始选择的动作,记为动作距离vi=1记为1;依次向后选择的动作,动作距离逐个加1,第n个动作的vi=n=n;[0067]在t时刻下,每次动作的动作距离归一化后完成度的评分wor=score*vi。最后,完成价值wor以ω4的系数参与决策。[0068]本发明中ω1、ω2、ω3、ω4的和为1,改变ω1、ω2、ω3和ω4的权重值,测试每次游戏的结果。[0069]机器人抓积木的游戏中,先抽取哪一块被认为机器人选择要执行的任务。本文更新了q-learning中的状态-动作值函数。[0070]现在的q值=原来的q值+学习率*(立即汇报+lambda*后继状态的最大q值-原来的q值。[0071]q(st+1,at+1)=q(st,at)+a(rt+1+λmaxq(st,a)-q(st,at));[0072]其中q(st+1,at+1)为时刻t+1的状态st+1与动作at+1组成的q_table值;[0073]q(st,at)为时刻t的状态st与动作at组成的q_table值;a是学习率;λ为分数衰减值;rt+1为时刻t+1的即时回报值。[0074]强化学习可以自监督的完成任务,一边执行动作改变环境的状态,一边进行学习,优化行动策略。本文在强化学习状态改变的基础上加入了人机交互的因素,人成为参与改变环境的第二个智能体。在与老年人进行益智游戏的过程中,强调机器人和人产生互动。[0075]本发明实施例1提出的一种用于与老年人益智游戏智能交互的方法,使用了改进的强化学习算法完成机器人系统游戏过程的自主操作,强化学习可以自监督的完成任务,一边执行动作改变环境的状态,一边进行学习,优化行动策略。本文在强化学习状态改变的基础上加入了人机交互的因素,人成为参与改变环境的第二个智能体,在与老年人进行益智游戏的过程中,强调机器人和人产生互动,有效的提高了老年人陪护的质量,更好的实现老年心理健康方面的陪护。[0076]实施例2[0077]基于本发明实施例1提出的一种用于与老年人益智游戏智能交互的方法,本发明实施例2提出了一种用于与老年人益智游戏智能交互的系统。如图4为本发明实施例2一种用于与老年人益智游戏智能交互的系统示意图,该系统包括包括识别模块和计算模块;[0078]识别模块用于实时识别游戏对象的位置和旋转角度;[0079]计算模块用于在老人操作完成后,根据所述游戏对象的位置和旋转角度,计算抓取下一游戏对象动作的即时回报值以及根据所述即时回报值执行游戏对象抓取;所述游戏对象动作的即时回报值用于表示在可选范围内最优且代价最小的动作,并更新强化学习中的状态动作值函数。[0080]识别模块实现的过程为:通过采用旋转目标检测网络模型经过训练实时识别游戏对象的位置和旋转角度。[0081]计算模块实现的过程为:计算抓取下一游戏对象动作的即时回报值包括:[0082]计算游戏对象的抓取难度、计算选择游戏对象的创新度、计算机械臂抓取游戏动作对象的服从度和游戏的完成度;[0083]分别赋予游戏对象的抓取难度、选择游戏对象的创新度、机械臂抓取游戏动作对象的服从度和游戏的完成度相应的权重,计算抓取下一游戏对象动作的即时回报值rt+1。[0084]游戏对象的抓取难度的评分计算方法为:[0085][0086]其中,xi是第i个对象在难度排序中的序列;n为总的对象数。[0087]游戏对象的创新度的评分计算方法为:[0088]计算抓取某一对象的动作频率为:[0089]游戏对象的创新度的评分为newi=100*fi;[0090]其中,yi是第i个对象在序列抽到的次数。[0091]机械臂抓取游戏动作对象的服从度的确定过程为:[0092]当机械臂接收到指令和自身学习结果的路径不同时,机械臂仍按照接收到的指令抓取指定的对象,则指令要求抓取的对象在服从度维度上的评分为100,其余对象为0。[0093]游戏的完成度的确定过程为:[0094]从最开始选择动作,记为动作距离vi=1记为1;第n个动作的vi=n=n;[0095]在t时刻下,每次动作的动作距离归一化后[0096]完成度的评分wor=score*vi。[0097]更新强化学习中的状态动作值函数的方法为:[0098]q(st+1,at+1)=q(st,at)+a(rt+1+λmaxq(st,a)-q(st,at));[0099]其中q(st+1,at+1)为时刻t+1的状态st+1与动作at+1组成的q_table值;[0100]q(st,at)为时刻t的状态st与动作at组成的q_table值;a是学习率;λ为分数衰减值;rt+1为时刻t+1的即时回报值。[0101]本发明实施例2提出的一种用于与老年人益智游戏智能交互的系统,使用了改进的强化学习算法完成机器人系统游戏过程的自主操作,强化学习可以自监督的完成任务,一边执行动作改变环境的状态,一边进行学习,优化行动策略。本文在强化学习状态改变的基础上加入了人机交互的因素,人成为参与改变环境的第二个智能体,在与老年人进行益智游戏的过程中,强调机器人和人产生互动,有效的提高了老年人陪护的质量,更好的实现老年心理健康方面的陪护。[0102]实施例3[0103]本发明实施例3还提出了一种机器人,处理器和机械臂;[0104]机械臂上安装图像采集模块,用于通过图像采集模块获取游戏对象的图像信息;机械臂接受处理器的控制信号,实时识别游戏对象的位置和旋转角度以及抓取下一游戏对象动作;[0105]处理器用于实时识别游戏对象的位置和旋转角度,以及在老人操作完成后,根据所述游戏对象的位置和旋转角度,计算抓取下一游戏对象动作的即时回报值。[0106]本发明实施例4提出的一种机器人用于执行与老年人益智游戏智能交互,使用了改进的强化学习算法完成机器人系统游戏过程的自主操作,强化学习可以自监督的完成任务,一边执行动作改变环境的状态,一边进行学习,优化行动策略。在与老年人进行益智游戏的过程中,一直和人产生互动,有效的提高了老年人陪护的质量,更好的实现老年心理健康方面的陪护。[0107]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本技术实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。[0108]上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。当前第1页12当前第1页12