Phi-2
本指南概述了 Phi-2 模型(一个拥有 27 亿参数的语言模型),介绍了如何对 Phi-2 进行提示以及其能力。本指南还包括与 Phi-2 LLM 相关的技巧、应用、局限性、重要参考文献和扩展阅读材料。
Phi-2 引言
Phi-2 是微软研究院发布的最新小型语言模型 (SLM)。Phi-2 沿袭了之前的 Phi-1 模型和 Phi-1.5 模型。
Phi-1 是一个拥有 13 亿参数的模型,使用来自网络的“教科书质量”数据(60 亿 tokens)以及使用 GPT-3.5 合成生成的教科书和练习(10 亿 tokens)进行训练(Gunasekar 等人,2023(在新标签页中打开))。它在 Python 代码生成任务上表现良好。
Phi-1.5(在新标签页中打开)基于之前的模型构建,专注于常识推理和语言理解能力。Phi-1.5 能够执行复杂的推理任务,例如小学数学和基本编码任务,其性能可与大 5 倍的模型媲美。
Phi-2 是一个拥有 27 亿参数的模型,提升了推理和语言理解能力。Phi-2 表现优于大 25 倍的模型,并且现在拥有 MIT 许可证,使其可用于商业环境。
Phi-2 见解与评估
LLM 研究人员热衷于探索小型语言模型是否与其大型对应模型具有相似的涌现能力,以及是否存在有助于实现这一目标的训练技术。
该模型使用“教科书质量”数据(1.4 万亿 tokens,多次遍历)进行训练,其中包括有助于教授模型常识推理和通用知识的合成数据集。数据通过教育性和高质量的网络内容进行了增强。Phi-2 在 96 个 A100 GPU 上训练了 14 天。没有应用额外的 RLHF 或指令微调。
Phi-1.5 的知识被迁移到 Phi-2,这有助于模型的收敛并在多个基准测试中提升性能。下图展示了 Phi-2 (2.7B) 和 Phi-1.5 (1.3B) 在常识推理、数学推理、代码生成和其他语言理解基准上的性能比较。需要注意的是,除 BBH 和 MMLU(分别使用 3-shot CoT 和 5-shot)外,所有任务均使用 0-shot 进行评估。

虽然该模型未使用 RLHF 等特殊技术进行对齐,但据报道,与对齐的开源 Llama2-7b 相比,它在毒性和偏见方面更安全。作者将这归因于数据整理工作。

如下图所示,Phi-2 在各种基准测试中均优于 Mistral 7B 和 Llama 2 (13B)。Phi-2 在多步推理方面甚至优于 Llama-2-70B 模型。Phi-2 也优于 Google 的 Gemini Nano 2(在新标签页中打开)。

下面,我们提供了几个提示示例,展示了 Phi-2 模型在多项任务上的能力。
物理问题解决
下面的示例展示了 Phi-2 解决物理文字问题的能力

错误识别
下面的示例展示了 Phi-2 识别学生在物理文字问题计算中错误的能力

Phi-2 用法
根据模型页面(在新标签页中打开),Phi-2 可以使用问答格式、聊天格式和代码格式进行提示。下面我们演示了如何在不同场景下有效使用这些提示模板。
问答格式
问答格式适用于您向模型提问并希望获得简洁回答的场景。
您可以使用以下提示模板
Instruct: {{prompt}}
Output:
这里有一个示例
提示
Instruct: What is the difference between data and information?
Output:
输出
Great question! Data refers to raw facts, statistics, or numbers that have not been analyzed or processed into any meaningful context. On the other hand, information is data that has been organized, analyzed, and interpreted in a way that it can be used by humans to make informed decisions or take actions. In other words, data is raw material, while information is processed and useful knowledge.
聊天格式
Phi-2 使用的聊天格式是一种标准格式,这里是一个简单示例
提示
Human: Hello, who are you?
AI: Greetings! I am an AI research assistant. How can I help you today?
Human: Can you tell me about the creation of black holes?
AI:
输出
Black holes form when a massive star runs out of fuel and collapses under its own gravitational pull. The resulting object is so dense that it distorts space-time around it, causing anything that comes too close to be pulled in by the immense gravity. This includes light, which cannot...
代码格式
下面是一个代码生成提示模板,它向模型提供了函数名称
提示
def multiply(a,b):\n
请注意,该模型仅在有限的 Python 代码示例和库上进行过训练,因此其代码生成能力和语言支持范围相当有限。
Phi-2 局限性
以下是作者报告的 Phi-2 局限性总结
- 与其他模型类似,Phi-2 可能会生成不准确的代码和语句。
- Phi-2 未像其他模型一样进行指令微调,因此可能难以遵循指令。
- 训练数据集是标准英语;因此,模型可能难以理解俚语,也无法理解其他语言的指令。
- Phi-2 也可能产生社会偏见和有害内容。
- Phi-2 未经调优,倾向于生成冗长的回复,有时甚至会产生不相关的额外文本。作者认为这可能是由于训练数据集的性质,该数据集主要由教科书组成。