Mixtral 8x22B
Mixtral 8x22B 是 Mistral AI 发布的一款新的开源大型语言模型(LLM)。Mixtral 8x22B 的特点是一个稀疏混合专家模型,总共有 141B 个参数,其中活跃参数为 39B 个。
能力
Mixtral 8x22B 经过训练,是一款成本效益高的模型,其能力包括多语言理解、数学推理、代码生成、原生函数调用支持和约束输出支持。该模型支持 64K token 的上下文窗口大小,可在大型文档上实现高性能的信息召回。
Mistral AI 声称 Mixtral 8x22B 在社区模型中提供了最佳的性能成本比之一,并且由于其稀疏激活而显著快速。
结果
根据官方报告结果(在新标签页中打开),Mixtral 8x22B(活跃参数 39B 个)在 MMLU、HellaS、TriQA、NaturalQA 等多个推理和知识基准测试中,其性能优于 Command R+ 和 Llama 2 70B 等最先进的开源模型。
在 GSM8K、HumanEval 和 Math 等基准测试中评估时,Mixtral 8x22B 在编码和数学任务上的表现优于所有开源模型。据报告,Mixtral 8x22B Instruct 在 GSM8K(maj@8)上取得了 90% 的分数。
有关 Mixtral 8x22B 及如何使用它的更多信息请参见此处: https://docs.mistral.org.cn/getting-started/open_weight_models/#operation/listModels(在新标签页中打开)
该模型根据 Apache 2.0 许可证发布。