LM 引导的思维链

一篇由 Lee 等人（2024 年）（在新标签页中打开）发表的新论文提出利用小型语言模型改进 LLM 的推理能力。

它首先将大型语言模型生成的推理过程（rationale）应用于小型语言模型的知识蒸馏中，希望缩小两者在推理能力上的差距。

本质上，推理过程由轻量级语言模型生成，而答案预测则留给冻结的大型语言模型。这种资源高效的方法避免了对大型模型进行微调的需求，而是将推理过程生成任务转移给了小型语言模型。

知识蒸馏后的语言模型通过强化学习进一步优化，使用了几个面向推理过程和面向任务的奖励信号。

该框架在多跳抽取式问答任务上进行了测试，在答案预测准确性方面优于所有基线方法。强化学习有助于提高生成的推理过程质量，从而进一步提升问答性能。

本文提出的 LM 引导的思维链提示方法优于标准提示和思维链提示。自我一致性解码也提升了性能。

这种方法展示了巧妙地使用小型语言模型进行推理过程生成。考虑到通常更偏好大型语言模型来实现此能力，其结果令人瞩目。开发者应该深入思考这种任务分解方式。并非所有事情都需要由大型模型完成。在进行微调时，考虑清楚你想要优化哪个特定方面，并测试小型语言模型是否能为你完成是很有益的。