零样本提示
如今的大型语言模型 (LLM),例如 GPT-3.5 Turbo、GPT-4 和 Claude 3,经过微调以遵循指令,并在大量数据上进行训练。大规模训练使这些模型能够以“零样本”方式执行某些任务。零样本提示意味着用于与模型交互的提示不包含示例或演示。零样本提示直接指示模型执行任务,而无需任何额外的示例来引导它。
我们在上一节中尝试了一些零样本示例。以下是我们使用的一个示例(即文本分类)
提示
Classify the text into neutral, negative or positive.
Text: I think the vacation is okay.
Sentiment:
输出
Neutral
请注意,在上面的提示中,我们没有为模型提供任何文本及其分类的示例,LLM 已经理解“情感”——这就是零样本能力的作用所在。
指令微调已被证明可以提高零样本学习能力 Wei 等人 (2022)(在新标签页中打开)。指令微调本质上是将模型在通过指令描述的数据集上进行微调的概念。此外,RLHF(在新标签页中打开)(基于人类反馈的强化学习)已被采用来扩展指令微调,其中模型与人类偏好更好地对齐。这一最新进展为 ChatGPT 等模型提供了动力。我们将在接下来的章节中讨论所有这些方法和途径。
当零样本提示效果不佳时,建议在提示中提供演示或示例,这就引入了少样本提示。在下一节中,我们将演示少样本提示。
🎓
在我们的新AI课程中学习更高级的提示方法。 立即加入!(在新标签页中打开) 使用代码 PROMPTING20 额外享受8折优惠。