OLMo
在本指南中,我们概述了开放语言模型(OLMo),包括提示和使用示例。本指南还包括与OLMo相关的技巧、应用、局限性、论文和延伸阅读材料。
OLMo介绍
艾伦人工智能研究所(Allen Institute of AI)发布了 (在新标签页打开)一个名为OLMo的全新开放语言模型和框架。这项工作旨在提供对数据、训练代码、模型和评估代码的完全访问,从而共同加速对语言模型的研究。
他们的首次发布包括四种7B参数规模的变体和一个1B规模的模型,所有模型都在至少2万亿token上进行了训练。这是众多发布中的第一次,后续还将包括一个即将发布的65B规模的OLMo模型。
此次发布包括:
- 完整训练数据,包括生成数据的代码 (在新标签页打开)
- 完整模型权重、训练代码 (在新标签页打开)、日志、指标和推理代码
- 每个模型的多个检查点
- 评估代码 (在新标签页打开)
- 微调代码
所有代码、权重和中间检查点均根据Apache 2.0许可证 (在新标签页打开)发布。
OLMo-7B
OLMo-7B和OLMo-1B模型均采用仅解码器Transformer架构。它沿袭了PaLM和Llama等其他模型的改进:
- 无偏置
- 非参数层归一化
- SwiGLU激活函数
- 旋转位置嵌入(RoPE)
- 包含50,280个词汇
Dolma数据集
本次发布还包括预训练数据集Dolma (在新标签页打开),这是一个多样化的多源语料库,包含来自7个不同数据源的50亿文档,总计3万亿token。Dolma的创建涉及语言过滤、质量过滤、内容过滤、去重、多源混合和分词等步骤。
训练数据集包含来自Dolma的2万亿token样本。在每个文档末尾附加一个特殊的EOS
标记后,token被连接在一起。训练实例包含连续的2048 token块组,这些块也被打乱。
更多训练细节和训练模型的硬件规格可在论文中找到。
结果
使用Catwalk (在新标签页打开)对模型进行下游任务评估。OLMo模型与Falcon和Llama 2等其他几个公开可用模型进行了比较。具体来说,该模型在一组旨在衡量模型常识推理能力的任务上进行了评估。下游评估套件包括piqa
和hellaswag
等数据集。作者使用排序分类(即根据可能性对完成结果进行排序)进行零样本评估并报告准确性。OLMo-7B在2个最终任务上优于所有其他模型,并在8/9个最终任务上保持前3名。结果总结见下表。
OLMo提示指南
即将推出...