🚀 在我们的新课程中掌握提示工程和构建 AI 代理!使用 PROMPTING20 享受 8 折优惠 ➜ 立即报名
Llama 3

Llama 3

Meta 最近推出了(在新标签页中打开)他们的新一代大型语言模型(LLMs)系列,名为 Llama 3。本次发布包括 8B 和 70B 参数的预训练模型和指令微调模型。

Llama 3 架构详情

以下是 Llama 3 已公布的技术细节摘要:

  • 它使用标准的仅解码器 Transformer。
  • 词汇量为 128K tokens。
  • 它在 8K tokens 的序列上进行训练。
  • 它应用分组查询注意力 (GQA)。
  • 它在超过 15T tokens 的数据上进行了预训练。
  • 它的后训练包括 SFT、拒绝采样、PPO 和 DPO 的组合。

性能

值得注意的是,Llama 3 8B(指令微调版)在性能上优于Gemma 7B(在新标签页中打开)Mistral 7B Instruct(在新标签页中打开)。Llama 3 70B 总体上优于Gemini Pro 1.5(在新标签页中打开)Claude 3 Sonnet(在新标签页中打开),在 MATH 基准测试上与 Gemini Pro 1.5 相比略有落后。

Llama 3 性能 来源:Meta AI(在新标签页中打开)

这些预训练模型在 AGIEval (English)、MMLU 和 Big-Bench Hard 等多个基准测试上也优于其他模型。

Llama 3 性能 来源:Meta AI(在新标签页中打开)

Llama 3 400B

Meta 还报告称,他们将发布一个 400B 参数的模型,该模型仍在训练中,即将推出!此外,多模态支持、多语言能力和更长上下文窗口等方面的工作也在进行中。截至 2024 年 4 月 15 日,Llama 3 400B 的当前检查点在 MMLU 和 Big-Bench Hard 等常见基准测试上取得了以下结果:

Llama 3 400B 来源:Meta AI(在新标签页中打开)

Llama 3 模型的许可信息可在模型卡片(在新标签页中打开)上找到。

Llama 3 拓展回顾

以下是 Llama 3 的更详细回顾: