🚀 掌握提示工程并在我们的新课程中构建 AI 智能体!使用 PROMPTING20 可享 8 折优惠 ➜ 立即报名
Mixtral 8x22B

Mixtral 8x22B

Mixtral 8x22B 是 Mistral AI 发布的一款新的开源大型语言模型(LLM)。Mixtral 8x22B 的特点是一个稀疏混合专家模型,总共有 141B 个参数,其中活跃参数为 39B 个。

能力

Mixtral 8x22B 经过训练,是一款成本效益高的模型,其能力包括多语言理解、数学推理、代码生成、原生函数调用支持和约束输出支持。该模型支持 64K token 的上下文窗口大小,可在大型文档上实现高性能的信息召回。

Mistral AI 声称 Mixtral 8x22B 在社区模型中提供了最佳的性能成本比之一,并且由于其稀疏激活而显著快速。

"Mixtral 8x22B 性能" 来源: Mistral AI 博客(在新标签页中打开)

结果

根据官方报告结果(在新标签页中打开),Mixtral 8x22B(活跃参数 39B 个)在 MMLU、HellaS、TriQA、NaturalQA 等多个推理和知识基准测试中,其性能优于 Command R+ 和 Llama 2 70B 等最先进的开源模型。

"Mixtral 8x22B 推理和知识性能" 来源: Mistral AI 博客(在新标签页中打开)

在 GSM8K、HumanEval 和 Math 等基准测试中评估时,Mixtral 8x22B 在编码和数学任务上的表现优于所有开源模型。据报告,Mixtral 8x22B Instruct 在 GSM8K(maj@8)上取得了 90% 的分数。

"Mixtral 8x22B 推理和知识性能" 来源: Mistral AI 博客(在新标签页中打开)

有关 Mixtral 8x22B 及如何使用它的更多信息请参见此处: https://docs.mistral.org.cn/getting-started/open_weight_models/#operation/listModels(在新标签页中打开)

该模型根据 Apache 2.0 许可证发布。