LLaMA:开放高效的基础语言模型
⚠️
本节正在积极开发中。
最新进展?
本文介绍了一系列基础语言模型,参数范围从 70 亿到 650 亿。
这些模型使用公开数据集在数万亿个 token 上进行了训练。
(Hoffman 等人 2022) (在新标签页中打开)表明,在给定的计算预算下,使用更多数据训练的小模型可以比大模型获得更好的性能。这项工作建议在 2000 亿个 token 上训练 100 亿参数的模型。然而,LLaMA 的论文发现,即使在训练了 1 万亿个 token 后,70 亿参数模型的性能仍在持续提升。

这项工作着重于通过在更多 token 上进行训练,使模型 (LLaMA) 在各种推理预算下达到最佳性能。
能力与关键结果
总的来说,LLaMA-13B 在许多基准测试上都优于 GPT-3(1750 亿参数),尽管其规模小了 10 倍且可以在单个 GPU 上运行。LLaMA 650 亿参数模型与 Chinchilla-700 亿参数和 PaLM-5400 亿参数等模型具有竞争力。
论文: LLaMA:开放高效的基础语言模型 (在新标签页中打开)
代码: https://github.com/facebookresearch/llama (在新标签页中打开)
参考文献
- Koala:用于学术研究的对话模型 (在新标签页中打开) (2023 年 4 月)
- Baize:基于自对话数据进行参数高效微调的开源聊天模型 (在新标签页中打开) (2023 年 4 月)
- Vicuna:一个开源聊天机器人,以 90%* 的 ChatGPT 质量给 GPT-4 留下深刻印象 (在新标签页中打开) (2023 年 3 月)
- LLaMA-Adapter:使用 Zero-init Attention 进行语言模型高效微调 (在新标签页中打开) (2023 年 3 月)
- GPT4All (在新标签页中打开) (2023 年 3 月)
- ChatDoctor:使用医学领域知识在 LLaMA 模型上微调的医疗聊天模型 (在新标签页中打开) (2023 年 3 月)
- Stanford Alpaca (在新标签页中打开) (2023 年 3 月)