LM 引导的思维链
一篇由 Lee 等人(2024 年)(在新标签页中打开) 发表的新论文提出利用小型语言模型改进 LLM 的推理能力。
它首先将大型语言模型生成的推理过程(rationale)应用于小型语言模型的知识蒸馏中,希望缩小两者在推理能力上的差距。
本质上,推理过程由轻量级语言模型生成,而答案预测则留给冻结的大型语言模型。这种资源高效的方法避免了对大型模型进行微调的需求,而是将推理过程生成任务转移给了小型语言模型。
知识蒸馏后的语言模型通过强化学习进一步优化,使用了几个面向推理过程和面向任务的奖励信号。
来源:https://arxiv.org/pdf/2404.03414.pdf(在新标签页中打开)
该框架在多跳抽取式问答任务上进行了测试,在答案预测准确性方面优于所有基线方法。强化学习有助于提高生成的推理过程质量,从而进一步提升问答性能。
本文提出的 LM 引导的思维链提示方法优于标准提示和思维链提示。自我一致性解码也提升了性能。
这种方法展示了巧妙地使用小型语言模型进行推理过程生成。考虑到通常更偏好大型语言模型来实现此能力,其结果令人瞩目。开发者应该深入思考这种任务分解方式。并非所有事情都需要由大型模型完成。在进行微调时,考虑清楚你想要优化哪个特定方面,并测试小型语言模型是否能为你完成是很有益的。