LLM 模型集
本节包含对著名和基础 LLM 的集合和总结。
模型
模型 | 发布日期 | 规模 (B) | 检查点 | 描述 |
---|---|---|---|---|
Falcon LLM (在新标签页中打开) | 2023 年 9 月 | 7, 40, 180 | Falcon-7B (在新标签页中打开), Falcon-40B (在新标签页中打开), Falcon-180B (在新标签页中打开) | Falcon LLM 是一款基础大型语言模型 (LLM),拥有 1800 亿参数,训练数据量达 35000 亿 token。TII 现已发布 Falcon LLM——一款 180B 模型。 |
Mistral-7B-v0.1 (在新标签页中打开) | 2023 年 9 月 | 7 | Mistral-7B-v0.1 (在新标签页中打开) | Mistral-7B-v0.1 是一款预训练的生成式文本模型,拥有 70 亿参数。该模型基于 Transformer 架构,具有分组查询注意力 (Grouped-Query Attention)、字节回退 BPE tokenizer (Byte-fallback BPE tokenizer) 和滑动窗口注意力 (Sliding-Window Attention) 等特性。 |
CodeLlama (在新标签页中打开) | 2023 年 8 月 | 7, 13, 34 | CodeLlama-7B (在新标签页中打开), CodeLlama-13B (在新标签页中打开), CodeLlama-34B (在新标签页中打开) | Code Llama 系列模型专为通用代码合成和理解而设计。它们经过专门调优,以更好地遵循指令并实现更安全的部署。这些模型是自回归的,并使用优化的 Transformer 架构。它们适用于英语及相关编程语言的商业和研究用途。 |
Llama-2 (在新标签页中打开) | 2023 年 7 月 | 7, 13, 70 | Llama-2-7B (在新标签页中打开), Llama-2-13B (在新标签页中打开), Llama-2-70B (在新标签页中打开) | LLaMA-2 由 Meta AI 开发,于 2023 年 7 月发布,包含 70 亿、130 亿和 700 亿参数的模型。它与 LLaMA-1 保持相似的架构,但使用了多 40% 的训练数据。LLaMA-2 包括基础模型和对话微调模型(称为 LLaMA-2 Chat),可在许多商业用途下使用,但有一些限制。 |
XGen-7B-8K (在新标签页中打开) | 2023 年 7 月 | 7 | XGen-7B-8K (在新标签页中打开) | XGen-7B-8K 由 Salesforce AI Research 开发,是一款 70 亿参数的语言模型。 |
Claude-2 (在新标签页中打开) | 2023 年 7 月 | 130 | - | Claude 2 是 Anthropic 构建的基础 LLM,旨在比其前一版本更安全、更易于“引导”。它是对话式的,可用于客户支持、问答等多种任务。它可以处理大量文本,非常适合需要处理大量数据的应用,例如文档、电子邮件、常见问题解答和聊天记录。 |
Tulu (在新标签页中打开) | 2023 年 6 月 | 7, 13, 30, 65 | Tulu-7B (在新标签页中打开), Tulu-13B (在新标签页中打开) Tulu-30B (在新标签页中打开), Tulu-65B (在新标签页中打开) | Tulu 是 Allen Institute for AI 开发的模型系列。这些模型是 LLaMa 模型,经过混合指令数据集的微调,包括 FLAN V2、CoT、Dolly、Open Assistant 1、GPT4-Alpaca、Code-Alpaca 和 ShareGPT。它们旨在遵循各种 NLP 任务中的复杂指令。 |
ChatGLM2-6B (在新标签页中打开) | 2023 年 6 月 | 6 | ChatGLM2-6B (在新标签页中打开) | ChatGLM2-6B 是开源双语(中英)聊天模型 ChatGLM-6B 的第二代版本。它提升了性能,具有更长的上下文能力,更高效的推理,并提供了用于学术和商业用途的开放许可证。该模型使用混合目标函数,并已使用 1.4T 双语 token 进行训练。与第一代版本相比,它在各种数据集上的性能有显著提升。 |
Nous-Hermes-13B (在新标签页中打开) | 2023 年 6 月 | 13 | Nous-Hermes-13B (在新标签页中打开) | Nous-Hermes-13B 是 Nous Research 在超过 30 万条指令上微调的语言模型。 |
Baize-v2 (在新标签页中打开) | 2023 年 5 月 | 7, 13 | Baize-v2-13B (在新标签页中打开) | Baize-v2 是由 UCSD 和中山大学开发的开源聊天模型,使用 LoRA 进行微调,并采用监督微调 (SFT) 和带反馈的自蒸馏 (SDF) 进行训练。 |
RWKV-4-Raven (在新标签页中打开) | 2023 年 5 月 | 1.5, 3, 7, 14 | RWKV-4-Raven (在新标签页中打开) | RWKV-4-Raven 是一个系列模型。这些模型在 Alpaca、CodeAlpaca、Guanaco、GPT4All 和 ShareGPT 等各种数据集上进行了微调。它们采用 100% RNN 架构作为语言模型。 |
Guanaco (在新标签页中打开) | 2023 年 5 月 | 7, 13, 33, 65 | Guanaco-7B (在新标签页中打开), Guanaco-13B (在新标签页中打开), Guanaco-33B (在新标签页中打开) Guanaco-65B (在新标签页中打开) | Guanaco 模型是通过对 OASST1 数据集上的 LLaMA 基础模型进行 4-bit QLoRA 微调的开源聊天机器人。它们主要用于研究目的。这些模型允许以低成本进行本地实验,构建高质量的聊天机器人系统。 |
PaLM 2 (在新标签页中打开) | 2023 年 5 月 | - | - | 一种语言模型,比其前身 PaLM 具有更好的多语言和推理能力,并且计算效率更高。 |
Gorilla (在新标签页中打开) | 2023 年 5 月 | 7 | Gorilla (在新标签页中打开) | Gorilla:连接海量 API 的大型语言模型 |
RedPajama-INCITE (在新标签页中打开) | 2023 年 5 月 | 3, 7 | RedPajama-INCITE (在新标签页中打开) | 一个模型系列,包括基础模型、指令微调模型和聊天模型。 |
LIMA (在新标签页中打开) | 2023 年 5 月 | 65 | - | 一个 650 亿参数的 LLaMa 语言模型,仅在 1,000 个精心策划的提示和响应上使用标准监督损失进行微调,不使用任何强化学习或人类偏好建模。 |
Replit Code (在新标签页中打开) | 2023 年 5 月 | 3 | Replit Code (在新标签页中打开) | replit-code-v1-3b 模型是一个 27 亿参数的 LLM,使用 Stack Dedup v1.2 数据集中的 20 种语言进行训练。 |
h2oGPT (在新标签页中打开) | 2023 年 5 月 | 7, 12, 20, 40 | h2oGPT (在新标签页中打开) | h2oGPT 是一个 LLM 微调框架和聊天机器人 UI,具有文档问答能力。 |
CodeGen2 (在新标签页中打开) | 2023 年 5 月 | 1, 3, 7, 16 | CodeGen2 (在新标签页中打开) | 用于程序合成的代码模型。 |
CodeT5 and CodeT5+ (在新标签页中打开) | 2023 年 5 月 | 16 | CodeT5 (在新标签页中打开) | Salesforce Research 推出的用于代码理解和生成的 CodeT5 和 CodeT5+ 模型。 |
StarCoder (在新标签页中打开) | 2023 年 5 月 | 15 | StarCoder (在新标签页中打开) | StarCoder:最先进的代码 LLM |
MPT (在新标签页中打开) | 2023 年 5 月 | 7, 30 | MPT-7B (在新标签页中打开), MPT-30B (在新标签页中打开) | MosaicML 的 MPT 模型是开源的、具有商业许可的大型语言模型,提供针对各种 NLP 任务优化的可定制 AI 解决方案。 |
DLite (在新标签页中打开) | 2023 年 5 月 | 0.124 - 1.5 | DLite-v2-1.5B (在新标签页中打开) | 轻量级指令遵循模型,表现出类似 ChatGPT 的交互性。 |
WizardLM (在新标签页中打开) | 2023 年 4 月 | 70, 30, 13 | WizardLM-13B (在新标签页中打开), WizardLM-30B (在新标签页中打开), WizardLM-70B (在新标签页中打开) | WizardLM 是一个大型语言模型系列,旨在遵循复杂指令。这些模型在编码、数学推理和开放域对话方面表现出色。这些模型对许可证友好,并采用 Vicuna 的提示格式进行多轮对话。这些模型由 WizardLM 团队开发,适用于各种 NLP 任务。 |
FastChat-T5-3B (在新标签页中打开) | 2023 年 4 月 | 3 | FastChat-T5-3B (在新标签页中打开) | FastChat-T5 是一个开源聊天机器人,通过在从 ShareGPT 收集的用户共享对话数据上微调 Flan-t5-xl(30 亿参数)进行训练。它基于编码器-解码器 Transformer 架构,可以自回归地生成对用户输入的响应。 |
GPT4All-13B-Snoozy (在新标签页中打开) | 2023 年 4 月 | 13 | GPT4All-13B-Snoozy (在新标签页中打开) | GPT4All-13B-Snoozy 是一个 GPL 许可的聊天机器人,在一个庞大的精选助手交互语料库上进行训练,包括文字问题、多轮对话、代码、诗歌、歌曲和故事。它由 Nomic AI 开发,从 LLama 13B 微调而来。该模型专为助手风格的交互数据设计,主要使用英语。 |
Koala-13B (在新标签页中打开) | 2023 年 4 月 | 13 | Koala-13B (在新标签页中打开) | Koala-13B 是由 Berkeley AI Research (BAIR) 创建的聊天机器人。它基于 Meta 的 LLaMA 进行微调,主要关注从网络上抓取的对话数据。该模型旨在平衡性能和成本,为像 ChatGPT 这样的模型提供更轻量级、开源的替代方案。它已在包含与 ChatGPT 等高性能闭源模型对话的交互数据上进行训练。 |
OpenAssistant (Llama 系列) (在新标签页中打开) | 2023 年 4 月 | 30, 70 | Llama2-30b-oasst (在新标签页中打开), Llama2-70b-oasst (在新标签页中打开) | OpenAssistant-LLaMA 模型是 OpenAssistant 基于 Llama 模型开发的一系列语言模型。它支持使用 GGML 格式进行 CPU + GPU 推理,旨在为指令遵循任务提供开源替代方案。 |
Dolly (在新标签页中打开) | 2023 年 4 月 | 3, 7, 12 | Dolly-v2-3B (在新标签页中打开), Dolly-v2-7B (在新标签页中打开), Dolly-v2-12B (在新标签页中打开) | 一个指令遵循 LLM,在人类生成的、授权用于研究和商业用途的指令数据集上进行微调。 |
StableLM (在新标签页中打开) | 2023 年 4 月 | 3, 7 | StableLM-Alpha-3B (在新标签页中打开), StableLM-Alpha-7B (在新标签页中打开) | Stability AI 的 StableLM 系列语言模型 |
Pythia (在新标签页中打开) | 2023 年 4 月 | 0.070 - 12 | Pythia (在新标签页中打开) | 一组 16 个 LLM,全部按照完全相同的顺序在公共数据上进行训练,参数量从 70M 到 12B 不等。 |
Open Assistant (Pythia 系列) (在新标签页中打开) | 2023 年 3 月 | 12 | Open Assistant (在新标签页中打开) | OpenAssistant 是一款基于聊天的助手,能够理解任务、与第三方系统交互并动态检索信息来执行任务。 |
Med-PaLM 2 (在新标签页中打开) | 2023 年 3 月 | - | - | 利用大型语言模型实现专家级医疗问答 |
ChatGLM-6B (在新标签页中打开) | 2023 年 3 月 | 6 | ChatGLM-6B (在新标签页中打开) | ChatGLM-6B 是一个开源的、基于 General Language Model (GLM) 架构的双语(中英)对话模型,拥有 62 亿参数。尽管其规模较小可能导致一些事实性或数学逻辑问题,但由于在超过 1 万亿中英 token 上进行训练,它在中文问答、摘要和对话任务中表现出色。 |
GPT-3.5-turbo (在新标签页中打开) | 2023 年 3 月 | 175 | - | GPT-3.5-Turbo 是 OpenAI 的高级语言模型,针对聊天进行了优化,但也可用于传统的补全任务。与 GPT-3 相比,它在各个方面提供了更好的性能,并且每个 token 的成本便宜 10 倍。 |
Vicuna (在新标签页中打开) | 2023 年 3 月 | 7, 13, 33 | Vicuna-7B (在新标签页中打开), Vicuna-13B (在新标签页中打开) | Vicuna 是基于 Transformer 架构的自回归语言模型系列。它从 LLaMA 微调而来,主要用于大型语言模型和聊天机器人研究。它由 LMSYS 开发,具有非商业许可。 |
Alpaca-13B (在新标签页中打开) | 2023 年 3 月 | 13 | - | Alpaca 是一个指令遵循语言模型,从 Meta 的 LLaMA 7B 微调而来。它专为学术研究设计,以解决错误信息和毒性等问题。Alpaca 在 52K 条指令遵循演示上进行训练,旨在成为学术研究中更易于获取的选项。由于许可和安全问题,它不适用于商业用途。 |
Claude-1 (在新标签页中打开) | 2023 年 3 月 | 137 | - | Claude 是 Anthropic 构建的基础大型语言模型 (LLM)。它被设计成一个有帮助、诚实、无害的 AI 助手。它可以执行各种对话和文本处理任务,并通过聊天界面和 API 访问。 |
Cerebras-GPT (在新标签页中打开) | 2023 年 3 月 | 0.111 - 13 | Cerebras-GPT (在新标签页中打开) | Cerebras-GPT:在 Cerebras Wafer-Scale Cluster 上训练的开放计算最优语言模型 |
BloombergGPT (在新标签页中打开) | 2023 年 3 月 | 50 | - | BloombergGPT:面向金融的大型语言模型 |
PanGu-Σ (在新标签页中打开) | 2023 年 3 月 | 1085 | - | 盘古-Σ:走向万亿参数语言模型,结合稀疏异构计算 |
GPT-4 (在新标签页中打开) | 2023 年 3 月 | - | - | GPT-4 技术报告 |
LLaMA (在新标签页中打开) | 2023 年 2 月 | 7, 13, 33, 65 | LLaMA (在新标签页中打开) | LLaMA:开放高效的基础语言模型 |
ChatGPT (在新标签页中打开) | 2022 年 11 月 | - | - | 一款名为 ChatGPT 的模型,以对话方式进行交互。对话格式使 ChatGPT 能够回答后续问题、承认错误、质疑不正确的假设并拒绝不恰当的请求。 |
Galactica (在新标签页中打开) | 2022 年 11 月 | 0.125 - 120 | Galactica (在新标签页中打开) | Galactica:面向科学的大型语言模型 |
mT0 (在新标签页中打开) | 2022 年 11 月 | 13 | mT0-xxl (在新标签页中打开) | 通过多任务微调实现跨语言泛化 |
BLOOM (在新标签页中打开) | 2022 年 11 月 | 176 | BLOOM (在新标签页中打开) | BLOOM:一个 1760 亿参数的开放获取多语言语言模型 |
U-PaLM (在新标签页中打开) | 2022 年 10 月 | 540 | - | 用 0.1% 的额外计算超越缩放定律 |
UL2 (在新标签页中打开) | 2022 年 10 月 | 20 | UL2, Flan-UL2 (在新标签页中打开) | UL2:统一语言学习范式 |
Sparrow (在新标签页中打开) | 2022 年 9 月 | 70 | - | 通过有针对性的人类判断改进对话 Agent 的对齐 |
Flan-T5 (在新标签页中打开) | 2022 年 10 月 | 11 | Flan-T5-xxl (在新标签页中打开) | 扩展指令微调语言模型 |
AlexaTM (在新标签页中打开) | 2022 年 8 月 | 20 | - | AlexaTM 20B:使用大规模多语言 Seq2Seq 模型进行少样本学习 |
GLM-130B (在新标签页中打开) | 2022 年 10 月 | 130 | GLM-130B (在新标签页中打开) | GLM-130B:一个开放双语预训练模型 |
OPT-IML (在新标签页中打开) | 2022 年 12 月 | 30, 175 | OPT-IML (在新标签页中打开) | OPT-IML:通过泛化视角扩展语言模型指令元学习 |
OPT (在新标签页中打开) | 2022 年 5 月 | 175 | OPT-13B (在新标签页中打开), OPT-66B (在新标签页中打开) | OPT:开放预训练 Transformer 语言模型 |
PaLM (在新标签页中打开) | 2022 年 4 月 | 540 | - | PaLM:利用 Pathways 扩展语言建模 |
Tk-Instruct (在新标签页中打开) | 2022 年 4 月 | 11 | Tk-Instruct-11B (在新标签页中打开) | Super-NaturalInstructions:通过声明性指令在 1600 多个 NLP 任务上实现泛化 |
GPT-NeoX-20B (在新标签页中打开) | 2022 年 4 月 | 20 | GPT-NeoX-20B (在新标签页中打开) | GPT-NeoX-20B:一个开源的自回归语言模型 |
Chinchilla (在新标签页中打开) | 2022 年 3 月 | 70 | - | 表明对于给定的计算预算,最佳性能不是由最大的模型实现,而是由在更多数据上训练的较小模型实现。 |
InstructGPT (在新标签页中打开) | 2022 年 3 月 | 175 | - | 通过人类反馈训练语言模型遵循指令 |
CodeGen (在新标签页中打开) | 2022 年 3 月 | 0.350 - 16 | CodeGen (在新标签页中打开) | CodeGen:一个用于代码的开源大型语言模型,支持多轮程序合成 |
AlphaCode (在新标签页中打开) | 2022 年 2 月 | 41 | - | 使用 AlphaCode 进行竞赛级代码生成 |
MT-NLG (在新标签页中打开) | 2022 年 1 月 | 530 | - | 使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B,一个大规模生成语言模型 |
LaMDA (在新标签页中打开) | 2022 年 1 月 | 137 | - | LaMDA:用于对话应用的语言模型 |
GLaM (在新标签页中打开) | 2021 年 12 月 | 1200 | - | GLaM:使用专家混合模型有效扩展语言模型 |
Gopher (在新标签页中打开) | 2021 年 12 月 | 280 | - | 扩展语言模型:Gopher 训练中的方法、分析与见解 |
WebGPT (在新标签页中打开) | 2021 年 12 月 | 175 | - | WebGPT:基于浏览器辅助的问答,结合人类反馈 |
源 1.0 (在新标签页中打开) | 2021 年 10 月 | 245 | - | 源 1.0:零样本和少样本学习中的大规模预训练语言模型 |
T0 (在新标签页中打开) | 2021 年 10 月 | 11 | T0 (在新标签页中打开) | 多任务提示训练实现零样本任务泛化 |
FLAN (在新标签页中打开) | 2021 年 9 月 | 137 | - | 微调语言模型是零样本学习者 |
HyperCLOVA (在新标签页中打开) | 2021 年 9 月 | 82 | - | 大规模语言模型能带来哪些改变?HyperCLOVA 深入研究:十亿规模韩语生成预训练 Transformer |
ERNIE 3.0 Titan (在新标签页中打开) | 2021 年 7 月 | 10 | - | ERNIE 3.0 Titan:探索更大规模的知识增强预训练用于语言理解和生成 |
Jurassic-1 (在新标签页中打开) | 2021 年 8 月 | 178 | - | Jurassic-1:技术细节和评估 |
ERNIE 3.0 (在新标签页中打开) | 2021 年 7 月 | 10 | - | ERNIE 3.0:用于语言理解和生成的大规模知识增强预训练 |
Codex (在新标签页中打开) | 2021 年 7 月 | 12 | - | 评估在代码上训练的大型语言模型 |
GPT-J-6B (在新标签页中打开) | 2021 年 6 月 | 6 | GPT-J-6B (在新标签页中打开) | 一个 60 亿参数的自回归文本生成模型,在 The Pile 数据集上训练。 |
CPM-2 (在新标签页中打开) | 2021 年 6 月 | 198 | CPM (在新标签页中打开) | CPM-2:大规模成本效益预训练语言模型 |
盘古-α (在新标签页中打开) | 2021 年 4 月 | 13 | 盘古-α (在新标签页中打开) | 盘古-α:基于自动并行计算的大规模自回归中文预训练语言模型 |
mT5 (在新标签页中打开) | 2020 年 10 月 | 13 | mT5 (在新标签页中打开) | mT5:一个大规模多语言预训练文本到文本 Transformer |
BART (在新标签页中打开) | 2020 年 7 月 | - | BART (在新标签页中打开) | 用于自然语言生成、翻译和理解的去噪序列到序列预训练 |
GShard (在新标签页中打开) | 2020 年 6 月 | 600 | - | GShard:利用条件计算和自动分片扩展巨型模型 |
GPT-3 (在新标签页中打开) | 2020 年 5 月 | 175 | - | 语言模型是少样本学习者 |
CTRL (在新标签页中打开) | 2019 年 9 月 | 1.63 | CTRL (在新标签页中打开) | CTRL:用于可控生成的条件 Transformer 语言模型 |
ALBERT (在新标签页中打开) | 2019 年 9 月 | 0.235 | ALBERT (在新标签页中打开) | 一个用于语言表示自监督学习的轻量级 BERT |
XLNet (在新标签页中打开) | 2019 年 6 月 | - | XLNet (在新标签页中打开) | 用于语言理解和生成的广义自回归预训练 |
T5 (在新标签页中打开) | 2019 年 10 月 | 0.06 - 11 | Flan-T5 (在新标签页中打开) | 使用统一的文本到文本 Transformer 探索迁移学习的极限 |
GPT-2 (在新标签页中打开) | 2019 年 11 月 | 1.5 | GPT-2 (在新标签页中打开) | 语言模型是无监督多任务学习者 |
RoBERTa (在新标签页中打开) | 2019 年 7 月 | 0.125 - 0.355 | RoBERTa (在新标签页中打开) | 一种鲁棒优化的 BERT 预训练方法 |
BERT (在新标签页中打开) | 2018 年 10 月 | - | BERT (在新标签页中打开) | 基于 Transformer 的双向编码器表示 |
GPT (在新标签页中打开) | 2018 年 6 月 | - | GPT (在新标签页中打开) | 通过生成预训练改进语言理解 |
⚠️
本节正在开发中。
数据采用自 Papers with Code (在新标签页中打开) 以及 Zhao 等人 (2023) 的近期工作 Zhao et al. (2023) (在新标签页中打开)。