← 返回列表
策略网络训练方法及人形双足机器人步态控制方法
摘要文本
本发明涉及机器人自动化技术领域,提供一种策略网络训练方法及人形双足机器人步态控制方法,该训练方法采用深度强化学习方法得到目标策略网络,无需构建复杂的步态库,不需要增加额外的数据收集成本和计算代价,在不借助任何步态先验知识引导的情况下,通过引入包含有周期步态奖励、膝关节位置跟踪奖励和上肢关节位置跟踪奖励中的至少一个的步态奖励,可以使目标策略网络具有控制人形双足机器人实现自然、平稳、对称、协调的行走步态的功能,提升了目标策略网络的鲁棒性和抗干扰性。。 (更多数据,详见马克数据网)
申请人信息
- 申请人:科大讯飞股份有限公司
- 申请人地址:230088 安徽省合肥市高新开发区望江西路666号
- 发明人: 科大讯飞股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 策略网络训练方法及人形双足机器人步态控制方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410040335.X |
| 申请日 | 2024/1/11 |
| 公告号 | CN117555339A |
| 公开日 | 2024/2/13 |
| IPC主分类号 | G05D1/43 |
| 权利人 | 科大讯飞股份有限公司 |
| 发明人 | 柴丽; 刘迪源; 潘嘉; 高建清 |
| 地址 | 安徽省合肥市高新开发区望江西路666号 |
专利主权项内容
1.一种策略网络训练方法,其特征在于,包括:获取人形双足机器人样本在当前时刻的样本信息,所述样本信息包括样本状态观测值以及样本速度命令;基于所述样本信息,应用价值网络,对策略网络进行深度强化学习,得到目标策略网络;其中,所述目标策略网络用于对行走过程中的人形双足机器人进行步态控制;所述深度强化学习中采用的奖励函数包括步态奖励,所述步态奖励包括周期步态奖励、膝关节位置跟踪奖励和上肢关节位置跟踪奖励中的至少一个。 来自:马 克 团 队