Claude 3

Anthropic 发布了 Claude 3，这是一个新的模型家族，包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

据报道，Claude 3 Opus（最强大的模型）在 MMLU 和 HumanEval 等常见基准测试中表现优于 GPT-4 和所有其他模型。

结果与能力

Claude 3 的能力包括高级推理、基础数学、分析、数据提取、预测、内容创作、代码生成以及在西班牙语、日语、法语等非英语语言中的转换。下表展示了 Claude 3 在多个基准测试中与其他模型的比较，其中 Claude 3 Opus 的表现优于所有提及的模型。

"Claude 3 Benchmarks"

Claude 3 Haiku 是该系列中最快、最具成本效益的模型。Claude 3 Sonnet 比之前的 Claude 版本快 2 倍，而 Opus 的速度与 Claude 2.1 相当，但功能更强。

Claude 3 模型支持 200K 的上下文窗口，但可为特定客户扩展到 1M token。Claude 3 Opus 在“大海捞针”（NIAH）评估中实现了接近完美的召回率，该评估衡量了模型在大语料库中召回信息并有效处理长上下文提示的能力。

这些模型还具有强大的视觉能力，可处理照片、图表等格式。

"Claude 3 Vision Capabilities"

Anthropic 还声称这些模型对请求有更细致的理解，并减少了拒绝。Opus 在开放式问题的真实性问答方面也显示出显著改进，同时减少了错误答案或幻觉。Claude 3 模型在生成结构化输出（如 JSON 对象）方面也优于 Claude 2 模型。