Abs
Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion
motivation: 既保障安全,也能达到敏捷的运动;
task:高速运动中的避障;
method:策略鲁棒性 safe RL
端到端
- 敏捷策略:感知型避障策略
- 安全策略:恢复策略
- 由一个基于控制理论的 Reach-Avoid (RA) 值网络驱动:决定采用哪个策略,基于学习(RL)的、以策略为条件的 RA 值网络量化敏捷策略的风险等级,平滑的切换两个策略
- 一个外部感知表示网络:从深度信息中预测得到低维的机器人到障碍物的射线距离,作为敏捷策略和RA网络的输入
类似与分层安全 RL 方法,训练一个 safe critics ; 专注于 估计敏捷策略的 ra 值,然后闭环的指导恢复策略 达到动态和适应性的恢复过程
在 ra 值求解:学习策略相关的 RA 值网络,利用收缩性质推导出的时间折扣的 reach-avoid bellamn 方程
experiment:
- isaac gym 仿真:
- 真实机器人实验:在室内外环境中验证了 ABS 的安全性和敏捷性