Extreme Parkour
四足机器人的极限跑酷
基于自我中心视觉、深度图像的神经网络学习跑酷策略
三个想法
- 使用scandots作为特权信息(first class citizen)
- 允许策略根据障碍物决定自己的部署方向
- 统一的通用reward原则
Method
目标:训练一个单一的神经网络,输入为原始深度信息,本体传感器信号;输出关节指令
采用两段 RL 的 teacher-student 架构
第一段RL的结果成为第二段RL的标签
第一段RL使用人类提供的适当的航路点指引方向,而在第二段RL则训练网络实现从深度信息预测航向
-
对于跑酷的reward的统一标准:
- 奖励取 期望速度 与 在期望方向上的实际速度 中的最小值 (使得尽可能达到预期速度
- 为了避免机器人倾向于在障碍物边缘,加入一项reward
- 一项通过操作者控制的利于生物美学的reward项
- 正则化项
Phase 1
以本体感觉,扫描点,目标航向,步行标志和指令速度作为输入,利用ROA训练自适应模块估计环境属性
Phase 2
phase 1 的学习依赖于 外感受性信息 和 航向指引方向点,而这些量在真实机器人中是 无法获得的,故在phase2 采用监督学习来获得一个可以自动估计这些量的可部署策略
使用第一阶段的副本初始化网络,以减少学生在 step 时的偏差
对于航向目标,不能直接用监督学习获得的预测的航向,会导致灾难性的漂移,而使用教师学生混合MTS方法得到的航向