扩展指令微调语言模型
最新动态?

本文探讨了扩展指令微调 (在新标签页中打开)的益处,以及它如何改进各种模型(PaLM, T5)、提示设置(零样本、少样本、思维链)和基准(MMLU, TyDiQA)的性能。这通过以下几个方面进行了探讨:扩展任务数量(1.8K 个任务)、扩展模型大小以及在思维链数据上进行微调(使用 9 个数据集)。
微调流程
- 1.8K 个任务被表述为指令并用于微调模型
- 使用包含和不包含示例、以及包含和不包含思维链(CoT)的方式
微调任务和保留任务如下所示

能力与关键结果
- 指令微调随任务数量和模型大小的扩展而表现良好;这表明需要进一步扩展任务数量和模型大小
- 在微调中添加思维链(CoT)数据集可在推理任务上实现良好性能
- Flan-PaLM 的多语言能力得到提升;在单样本 TyDiQA 上提高了 14.9%;在代表性不足的语言上提高了 8.1% 的算术推理能力
- Flan-PaLM 在开放式生成问题上也表现良好,这是可用性提升的良好指标
- 提高了在负责任 AI (RAI) 基准上的性能
- Flan-T5 指令微调模型展示了强大的少样本能力,并优于 T5 等公共检查点
扩展微调任务数量和模型大小的结果:扩展模型大小和微调任务数量预计将继续提升性能,尽管扩展任务数量的回报会递减。

使用非思维链和思维链数据进行微调的结果:联合使用非思维链和思维链数据进行微调,相比仅使用其中一种进行微调,提高了在两项评估上的性能。

此外,自洽性结合思维链(CoT)在多个基准上取得了 SoTA 结果。思维链(CoT)+自洽性也显著提高了涉及数学问题(例如,MGSM,GSM8K)的基准上的结果。

思维链(CoT)微调在 BIG-Bench 任务上解锁了零样本推理能力,通过短语“让我们一步一步思考”激活。总的来说,零样本思维链 Flan-PaLM 优于未微调的零样本思维链 PaLM。

下面是一些 PaLM 和 Flan-PaLM 在未见过任务上的零样本思维链(CoT)演示。

下面是更多零样本提示的示例。它展示了 PaLM 模型在零样本设置中如何努力避免重复和不回复指令,而 Flan-PaLM 在此设置下能够表现良好。少样本示例可以减轻这些错误。

下面是一些示例,展示了 Flan-PALM 模型在几种不同类型的具有挑战性的开放式问题上的更多零样本能力


