🚀 在我们的新课程中掌握 Prompt Engineering 和构建 AI Agents!使用 PROMPTING20 享受 8 折优惠 ➜ 立即报名
LLM 的上下文缓存

使用 Gemini 1.5 Flash 进行上下文缓存

Google 最近发布了一项名为上下文缓存 (opens in a new tab)的新功能,可通过 Gemini API 在 Gemini 1.5 Pro 和 Gemini 1.5 Flash 模型中使用。本指南提供了一个使用 Gemini 1.5 Flash 进行上下文缓存的基本示例。

https://youtu.be/987Pd89EDPs?si=j43isgNb0uwH5AeI (opens in a new tab)

用例:分析一年的 ML 论文

本指南演示了如何使用上下文缓存来分析我们过去一年记录的所有 ML 论文 (opens in a new tab)的摘要。我们将这些摘要存储在一个文本文件中,现在可以将其输入到 Gemini 1.5 Flash 模型中并高效地进行查询。

流程:上传、缓存和查询

  1. 数据准备: 首先将 readme 文件(包含摘要)转换为纯文本文件。
  2. 利用 Gemini API: 您可以使用 Google 的 generativeai 库上传文本文件。
  3. 实现上下文缓存: 使用 caching.CachedContent.create() 函数创建缓存。这包括:
    • 指定 Gemini Flash 1.5 模型。
    • 为缓存提供一个名称。
    • 为模型定义一个指令(例如,“您是一位专业的 AI 研究员……”)。
    • 设置缓存的生存时间(TTL)(例如,15 分钟)。
  4. 创建模型: 然后使用缓存的内容创建生成模型实例。
  5. 查询: 我们可以开始使用自然语言问题查询模型,例如:
    • “请告诉我本周最新的 AI 论文?”
    • “你能列出提到 Mamba 的论文吗?列出论文标题和摘要。”
    • “关于长上下文 LLM 有哪些创新?列出论文标题和摘要。”

结果令人满意。模型准确地从文本文件中检索并总结了信息。上下文缓存被证明高效,无需在每次查询时重复发送整个文本文件。

这种工作流程有可能成为研究人员的宝贵工具,使他们能够:

  • 快速分析和查询大量的研究数据。
  • 无需手动搜索文档即可检索特定发现。
  • 进行交互式研究会话而不会浪费 Prompt Token。

我们很高兴探索上下文缓存的进一步应用,特别是在更复杂的场景中,例如 Agentic 工作流程。

笔记本可在下方找到

🎓

在我们的新 AI 课程中了解更多关于缓存方法的信息。立即加入! (opens in a new tab)使用代码 PROMPTING20 可额外获得 8 折优惠。