而高度追踪奖励,跟训狗一个道理。让机器人下蹲或者站立到某个高度,完成任务就能获得奖励。对称性利用,说白了就是让机器人的左右两边的动作更协调、一致。 这要比其他同样是做远程控制方案的机器人,成本要低得多。比如斯坦福 Aloha 机器人的硬件成本,就要 3.2 万美元,在当时看来,已经算比较低了。