Extreme Parkour

September 6, 2024 2 minute read

四足机器人的极限跑酷

基于自我中心视觉、深度图像的神经网络学习跑酷策略

目标：训练一个单一的神经网络，输入为原始深度信息，本体传感器信号；输出关节指令

采用两段 RL 的 teacher-student 架构

第一段RL的结果成为第二段RL的标签

第一段RL使用人类提供的适当的航路点指引方向，而在第二段RL则训练网络实现从深度信息预测航向

对于跑酷的reward的统一标准：
1. 奖励取期望速度与在期望方向上的实际速度中的最小值 (使得尽可能达到预期速度
2. 为了避免机器人倾向于在障碍物边缘，加入一项reward
3. 一项通过操作者控制的利于生物美学的reward项
4. 正则化项

以本体感觉，扫描点，目标航向，步行标志和指令速度作为输入，利用ROA训练自适应模块估计环境属性

phase 1 的学习依赖于外感受性信息和航向指引方向点，而这些量在真实机器人中是无法获得的，故在phase2 采用监督学习来获得一个可以自动估计这些量的可部署策略

使用第一阶段的副本初始化网络，以减少学生在 step 时的偏差

对于航向目标，不能直接用监督学习获得的预测的航向，会导致灾难性的漂移，而使用教师学生混合MTS方法得到的航向