没有「理解」,「创造」也就无从谈起。
1)给定一个生成任务,模型在多大程度上能在同一任务的判别版本中选择正确的回复; 2)给定一个正确的生成回复,模型在多大程度上能回答有关该回复的内容和问题。这就产生了两种实验设置,分别是选择性实验和询问性实验。
选择性评价。对于一个可以生成应答的给定任务,模型在多大程度上还能在同一任务的判别版本中从提供的候选集中选择出准确的答案?一个常见的例子是多选题回答,这是检验语言模型中人类理解和自然语言理解的最常见方法之一。(图 1,A、C 栏) 提问式评价。对于给定生成的模型输出,模型能在多大程度上准确回答有关该输出的内容和适当性的问题?这类似于教育中的口试。(图 1,B、D 栏 )。