Mixtral 8x22B

Mixtral 8x22B 是 Mistral AI 发布的一款新的开源大型语言模型（LLM）。Mixtral 8x22B 的特点是一个稀疏混合专家模型，总共有 141B 个参数，其中活跃参数为 39B 个。

能力

Mixtral 8x22B 经过训练，是一款成本效益高的模型，其能力包括多语言理解、数学推理、代码生成、原生函数调用支持和约束输出支持。该模型支持 64K token 的上下文窗口大小，可在大型文档上实现高性能的信息召回。

Mistral AI 声称 Mixtral 8x22B 在社区模型中提供了最佳的性能成本比之一，并且由于其稀疏激活而显著快速。

根据官方报告结果（在新标签页中打开），Mixtral 8x22B（活跃参数 39B 个）在 MMLU、HellaS、TriQA、NaturalQA 等多个推理和知识基准测试中，其性能优于 Command R+ 和 Llama 2 70B 等最先进的开源模型。

在 GSM8K、HumanEval 和 Math 等基准测试中评估时，Mixtral 8x22B 在编码和数学任务上的表现优于所有开源模型。据报告，Mixtral 8x22B Instruct 在 GSM8K（maj@8）上取得了 90% 的分数。

该模型根据 Apache 2.0 许可证发布。