🚀 在我们的全新课程中掌握提示工程和构建 AI 智能体!使用 PROMPTING20 可享 8 折优惠 ➜ 立即报名
LLaMA

LLaMA:开放高效的基础语言模型

⚠️

本节正在积极开发中。

最新进展?

本文介绍了一系列基础语言模型,参数范围从 70 亿到 650 亿。

这些模型使用公开数据集在数万亿个 token 上进行了训练。

(Hoffman 等人 2022) (在新标签页中打开)表明,在给定的计算预算下,使用更多数据训练的小模型可以比大模型获得更好的性能。这项工作建议在 2000 亿个 token 上训练 100 亿参数的模型。然而,LLaMA 的论文发现,即使在训练了 1 万亿个 token 后,70 亿参数模型的性能仍在持续提升。

LLAMA1

这项工作着重于通过在更多 token 上进行训练,使模型 (LLaMA) 在各种推理预算下达到最佳性能。

能力与关键结果

总的来说,LLaMA-13B 在许多基准测试上都优于 GPT-3(1750 亿参数),尽管其规模小了 10 倍且可以在单个 GPU 上运行。LLaMA 650 亿参数模型与 Chinchilla-700 亿参数和 PaLM-5400 亿参数等模型具有竞争力。

论文: LLaMA:开放高效的基础语言模型 (在新标签页中打开)

代码: https://github.com/facebookresearch/llama (在新标签页中打开)

参考文献