In-context 强化学习:当 Kanzi 在游戏中达到标记的里程碑时,他会得到水果或花生作为奖励,激励他遵循游戏内的指导。
人类反馈强化学习(RLHF):Kanzi 并不完全理解语言,但他能看到训练师为他加油,他偶尔也会回应加油!这为他提供了一个强烈的信号,表明他走在正确的道路上。
模仿学习:训练师向 Kanzi 展示了一个任务的示范做法,而且只展示了一次,它就理解了其中的概念。这比仅仅使用奖励更加高效。
课程学习:他们从非常简单的环境开始,逐渐教会 Kanzi 控制技能。最终,Kanzi 能够在复杂的洞穴、迷宫和下界之间前行。