RAG 模型有多可靠?
Wu 等人 (2024) 的这篇新论文旨在量化 RAG 与 LLM 内部先验知识之间的拉锯战。
该分析主要关注 GPT-4 和其他 LLM 在问答任务上的表现。
研究发现,提供正确的检索信息能够修正模型的大部分错误(准确率达 94%)。
来源: Wu et al. (2024) (opens in a new tab)
当文档包含更多错误信息且 LLM 的内部先验知识较弱时,LLM 更容易复述错误信息。然而,研究发现,当 LLM 拥有更强的先验知识时,其对错误信息的抵抗力更强。
论文还指出,“修改后的信息越偏离模型的先验知识,模型越不容易采信该信息。”
许多开发者和公司正在生产环境中使用 RAG 系统。这项工作强调了在使用 LLM 时,考虑到可能包含支持、矛盾或完全错误信息等不同类型上下文信息的风险评估的重要性。