高效的无限上下文 Transformer
谷歌的一篇新论文将压缩记忆整合到普通的点积注意力层中。(在新标签页中打开)
目标是使 Transformer LLM 能够以有限的内存占用和计算有效地处理无限长的输入。
他们提出了一种名为 Infini-attention 的新注意力技术,该技术将压缩记忆模块整合到普通的注意力机制中。
它将掩码局部注意力和长期线性注意力都构建到单个 Transformer 块中。这使得 Infini-Transformer 模型能够有效地处理长程和短程上下文依赖。
这种方法在长上下文语言建模方面优于基线模型,内存压缩比高达 114 倍!
他们还展示了 1B LLM 可以自然地扩展到 1M 序列长度,而 8B 模型在 500K 长度的书籍摘要任务上取得了新的 SoTA 结果。
考虑到长上下文 LLM 变得越来越重要,拥有有效的记忆系统可以释放强大的推理、规划、持续适应以及 LLM 中前所未有的能力。