🚀 在我们的新课程中掌握提示工程和构建 AI Agent!使用 PROMPTING20 享受 8 折优惠 ➜ 立即报名
什么是 Groq?

什么是 Groq?

最近,Groq (在新标签页中打开) 作为目前最快的 LLM 推理解决方案之一,备受瞩目。LLM 从业者对降低 LLM 响应的延迟表现出极大兴趣。延迟是一个重要的优化指标,可以支持实时 AI 应用。目前,有许多公司正在围绕 LLM 推理展开竞争。

Groq 是众多 LLM 推理公司之一,在撰写本文时,他们声称在 Anyscale 的 LLMPerf 排行榜 (在新标签页中打开) 上的推理性能比其他顶级云服务提供商快 18 倍。Groq 目前通过其 API 提供 Meta AI 的 Llama 2 70B 和 Mixtral 8x7B 等模型。这些模型由 Groq LPU™ 推理引擎提供支持,该引擎采用其专有的、专为运行 LLM 设计的定制硬件构建,称为语言处理单元(LPUs)。

根据 Groq 的常见问题解答,LPU 有助于减少每字计算时间,从而实现更快的文本序列生成。您可以在其荣获 ISCA 奖项的 2020 年 (在新标签页中打开)2022 年 (在新标签页中打开) 论文中阅读更多关于 LPU 的技术细节及其优势。

以下是其模型速度和定价的图表

"Groq pricing"

下表比较了输出 token 吞吐量(tokens/s),即每秒返回的平均输出 token 数。图表中的数字对应于 LLM 推理提供商在 Llama 2 70B 模型上的平均输出 token 吞吐量(基于 150 个请求)。

"LLMPerf Leaderboard"

LLM 推理的另一个重要因素,特别是对于流式应用,称为首个 token 生成时间(TTFT),它表示 LLM 返回第一个 token 所需的时间。下表显示了不同 LLM 推理提供商的表现

"time to first token (seconds)"

您可以在 此处 (在新标签页中打开) 阅读更多关于 Groq 在 Anyscale 的 LLMPerf 排行榜上的 LLM 推理性能信息。