LLM 上下文中的回忆能力取决于提示词

这篇由 Machlab 和 Battle (2024)撰写的新论文 (在新标签页中打开) 使用了几种“大海捞针”测试，分析了不同 LLM 的上下文回忆性能。

研究表明，不同的 LLM 在不同长度和放置深度下回忆事实的能力各不相同。研究发现，模型的召回性能受到提示词微小变化的影响很大。

此外，提示词内容和训练数据之间的相互作用可能会降低响应质量。

模型的召回能力可以通过增加规模、增强注意力机制、尝试不同的训练策略以及应用微调来提高。

论文中的重要实践建议：“持续评估将进一步指导针对特定用例选择合适的 LLM，随着技术的不断发展，从而在实际应用中最大限度地发挥其影响和效率。”

这篇论文的要点在于强调精心设计提示词的重要性，建立持续的评估协议，并测试不同的模型增强策略以提高召回能力和实用性。