多模态 CoT 提示
Zhang 等人 (2023) (在新标签页中打开) 最近提出了一种多模态思维链提示方法。传统的 CoT 侧重于语言模态。相比之下,多模态 CoT 将文本和视觉融入一个两阶段框架。第一步涉及基于多模态信息的原理生成。紧随其后的是第二阶段,答案推理,它利用了生成的富含信息的原理。
多模态 CoT 模型 (1B) 在 ScienceQA 基准测试中优于 GPT-3.5。

图片来源:Zhang 等人 (2023) (在新标签页中打开)
延伸阅读
- 语言不是你所需的一切:对齐感知与语言模型 (在新标签页中打开) (2023 年 2 月)
🎓
在我们的新 AI 课程中了解更多高级提示方法。立即加入! (在新标签页中打开) 使用代码 PROMPTING20 额外享受 8 折优惠。