这样的思维链演示有助于模型生成推理路径,将复杂的推理分解为多个更简单的步骤。特别是CoT,推理性能更好地满足缩放定律,并随着语言模型的大小而上升。例如,当与540B参数PaLM模型结合时[Chowdhery等人,2022],在几个基准推理任务(例如GSM8K)中,思维链提示显著提高了标准少样本提示的性能(17.9%→58.1%)。
虽然CoT提示的成功[Wei等人,2022],以及许多其他特定于任务的提示工作[Gao等人,2021年,Schick和Schütze, 2021年,Liu等人,2021b],通常归因于LLMs的少次学习能力[Brown等人,2020年],但我们通过添加一个简单的提示来证明LLMs是不错的零次推理者,让我们一步一步地思考,以促进在回答每个问题之前的一步一步地思考(见图1)。我们的零概率cot成功地以零概率的方式生成了一条合理的推理路径,并在标准零概率方法失败的问题上得到了正确答案。重要的是,我们的zero-shot - cot是通用的和任务不确定的,不像以前大多数以示例(少数样本)或模板(零样本)形式出现的特定于任务的提示工程[Liu等人,2021b]:它可以促进各种推理任务的逐步回答,包括算术(MultiArith [Roy和Roth, 2015], GSM8K [Cobbe等人,2021],AQUA-RA T [Ling等人,2017],和SV AMP [Patel等人,2021]),符号推理(最后一个字母和硬币投掷),常识推理(CommonSenseQA [Talmor等人,2019]和策略QA [Geva等人,2021]),以及其他逻辑推理任务(日期理解和跟踪大平台上的shuffle对象[Srivastava等人,2015],2022]),无需修改每个任务的提示符。
我们对表2中的其他提示基线进行了实证评估。虽然我们的zero-shot - cot在精心制作和任务特定的逐步示例中表现不如小样本,但与零样本基线相比,zero-shot-cot取得了巨大的分数增长,例如,使用大规模InstructGPTMultiArith从17.7%提高到78.7%,GSM8K从10.4%提高到40.7%。我们还使用另一种现成的大型模型540B参数PaLM对zero -shot cot进行了评估,结果显示MultiArith和GSM8K有类似的改进。
重要的是,在我们的单一固定提示下,零样本llm与小样本CoT基线相比具有更好的缩放曲线。我们还表明,除了Few-shot-CoT需要人工工程的多步推理提示外,如果提示示例问题类型和任务问题类型不匹配,它们的性能会下降,这表明对每个任务提示设计具有高度敏感性。相比之下,在不同的推理任务中,这一单一提示的多功能性暗示了llm尚未开发和未被充分研究的零概率基本能力,例如更高级别的广义认知能力,如通用逻辑推理[Chollet, 2019]。虽然充满活力的llm领域始于优秀的少数样本学习者的前提[Brown et al, 2020],但我们希望我们的工作鼓励更多的研究,以揭示隐藏在这些模型中的高级和多任务零样本能力。
主要介绍背景知识。
我们简要回顾了构成这项工作基础的两个核心初步概念:大型语言模型(LLMs)和提示的出现,以及用于多步推理的思维链(CoT)提示。
大语言模型和提示
语言模型(LM)是一种用于估计文本的概率分布的模型。最近,通过更大的模型规模(从几百万[Merity等人,2016]到数亿[Devlin等人,2019]到数千亿[Brown等人,2020]参数)和更大的数据(例如web文本语料库[Gao等人,2020])的缩放改进,使预训练的大型语言模型(LLMs)能够非常熟练地完成许多下游NLP任务。除了经典的"预训练和微调"范式[Liu等人,2021b]外,通过上下文学习,缩放到100B+参数的模型显示出有利于少次学习的属性[Brown等人,2020],在上下文学习中,人们可以使用被称为提示的文本或模板来强烈引导生成输出所需任务的答案,从而开启了"预训练和提示"的时代[Liu等人,2021a]。在实际工作中,我们将这种对少数任务示例具有显式条件反射的提示称为"少样本提示",将其他仅模板的提示称为"零样本提示"。
思维链提示
多步算术和逻辑推理基准测试特别挑战了大型语言模型的缩放定律[Rae等人,2021年]。思维链(CoT)提示[Wei等人,2022]是一个少次提示的实例,通过将少次示例中的答案修改为逐步回答,提出了一个简单的解决方案,并在这些困难的基准测试中实现了显著的性能提升,特别是在与PaLM等大型语言模型结合使用时[Chowdhery等人,2022]。图1的第一行显示了标准的少样本提示和(少样本)CoT提示。值得注意的是,少射学习被视为解决此类困难任务的既定条件,在原始工作中甚至没有报告零射基线性能[Wei et al, 2022]。为了区别于我们的方法,我们将Wei et al[2022]在这项工作中称为Few-shot-CoT。
虽然Zero-shot-CoT在概念上很简单,但它使用了两次提示来提取推理和答案,如图2所示。与此相反,零点基线(参见图1的左下角)已经使用了"答案是"形式的提示,以正确的格式提取答案。
少样本提示,标准或CoT,通过显式地设计少样本示例答案以这种格式结束来避免需要这种答案提取提示