LLM 的可信度
可信赖的 LLM 在健康、金融等高风险领域构建应用非常重要。虽然像 ChatGPT 这样的 LLM 能够生成人类可读的响应,但它们并不能保证在真实性、安全性、隐私性等维度上都具有可信赖的响应。
Sun 等人 (2024) (在新标签页中打开) 最近对 LLM 的可信度进行了全面研究,讨论了挑战、基准、评估、方法分析和未来方向。
将当前的 LLM 投入生产的最大挑战之一是可信度。他们的调查提出了可信赖 LLM 的一套原则,涵盖 8 个维度,包括一个涵盖 6 个维度(真实性、安全性、公平性、鲁棒性、隐私性和机器伦理)的基准。
作者提出了以下基准来评估 LLM 在六个方面的可信度

以下是已确定的可信赖 LLM 的八个维度的定义。

发现
这项工作还在 TrustLLM 中对 16 个主流 LLM 进行了一项评估研究,包括 30 多个数据集。以下是评估的主要发现
- 虽然专有 LLM 在可信度方面通常优于大多数开源同行,但有一些开源模型正在缩小差距。
- 像 GPT-4 和 Llama 2 这样的模型可以可靠地拒绝刻板印象陈述,并显示出对对抗性攻击的增强韧性。
- 像 Llama 2 这样的开源模型在可信度方面与专有模型表现接近,而无需使用任何特殊审核工具。论文中还指出,某些模型,例如 Llama 2,在可信度方面过度校准,这有时会损害它们在某些任务上的实用性,并将良性提示错误地视为模型的有害输入。
主要洞察
针对论文中调查的不同可信度维度,以下是报告的主要洞察
-
真实性:LLM 常常因训练数据噪声、错误信息或过时信息而在真实性方面遇到困难。可以访问外部知识源的 LLM 在真实性方面表现出改进。
-
安全性:开源 LLM 在越狱、毒性和滥用等安全性方面通常落后于专有模型。在平衡安全措施与避免过度谨慎之间存在挑战。
-
公平性:大多数 LLM 在识别刻板印象方面表现不佳。即使是像 GPT-4 这样的高级模型,在此领域的准确率也仅约 65%。
-
鲁棒性:LLM 的鲁棒性差异很大,特别是在开放式和分布外任务中。
-
隐私性:LLM 意识到隐私规范,但它们对私人信息的理解和处理差异很大。例如,一些模型在恩龙电子邮件数据集上测试时显示出信息泄露。
-
机器伦理:LLM 对道德原则表现出基本理解。然而,在复杂的伦理情境中,它们表现不足。
LLM 可信度排行榜
作者还在此处发布了一个排行榜here (在新标签页中打开)。例如,下表显示了不同模型在真实性维度上的测量结果。正如他们在网站上提到的:“更值得信赖的 LLM 预计在 ↑ 指标上具有更高的值,在 ↓ 指标上具有更低的值。”

代码
您还可以在 GitHub 仓库中找到一个完整的评估工具包,用于测试 LLM 在不同维度上的可信度。
代码:https://github.com/HowieHwong/TrustLLM (在新标签页中打开)
参考文献
图片来源 / 论文:TrustLLM:大型语言模型的可信度 (在新标签页中打开) (2024 年 1 月 10 日)