💃 Lii's Blog

Search

Recent Writing

2026-05-29记录
May 29, 2026
2026-05-28记录
May 28, 2026
2026-05-27记录
May 27, 2026
2026-05-26记录
May 26, 2026
2026-05-25记录
May 25, 2026

❯

❯

❯

大模型厂商如何节约token

大模型厂商如何节约token

May 11, 20265 min read

在 AI 工程化中，“Token 即金钱”。无论是像 Google、Anthropic 这样的模型厂商，还是像你一样开发 Agent 的开发者，都在想方设法压缩 Token 消耗。

目前的节约手段主要集中在 “推理层（厂家干的事）” 和 “应用层（开发者干的事）” 两个维度。

1. 厂家层面的“黑科技”：减少计算量

模型厂商为了降低推理成本（推理加速和显存优化），主要采用了以下技术：

投机采样 (Speculative Decoding)

这是目前最主流的提速省钱方案。

原理： 用一个极小的模型（小弟）先快速预演生成一段文字，然后交给大模型（大哥）一次性并行验证。
效果： 如果小弟猜对了，大哥只需确认一下，不需要重新计算。这大大降低了昂贵算力的占用时间。

Prompt 缓存 (Prompt Caching)

这是对开发者最直观的省钱方案。

原理： 如果你的 System Prompt 或上下文（比如长达 100k 的文档）在短时间内被多次调用，厂商会缓存这部分内容的计算结果（KV Cache）。
效果： 下一次请求时，命中缓存的部分费用通常会大幅折扣（有的甚至打 1 折），且响应速度飞快。

长文本优化：KV Cache 量化与压缩

原理： 模型在处理长文本时，显存消耗最高的是“KV Cache”。厂家会通过量化技术（将 FP16 精度压缩到 INT4 或更低）或者 Context Pruning（上下文裁剪），剔除掉那些对预测结果贡献度极低的 Token 权重。

2. 应用层面的“精细化运营”：减少输入量

作为开发者，在构建 Agent 或 Workflow 时，通常会用以下手段省钱：

语义缓存 (Semantic Caching)

手段： 不直接把问题扔给模型。先将用户的问题转化成向量（Embedding），去向量数据库里搜。
逻辑： 如果发现 10 分钟前有人问过几乎一样的问题，直接返回之前的答案，Token 消耗为 0。

提示词压缩 (Prompt Compression)

手段： 移除 Prompt 中的废话。
技术： 利用一些算法（如 LLMLingua）来识别哪些单词对模型理解语义是冗余的。它可以把 1000 个 Token 的背景资料压缩到 200 个，而模型表现几乎不下降。

模型级联 (Model Cascading)

这是你研究的“路由逻辑”的核心：

策略： 简单的任务（分类、格式转换）交给最便宜的小模型（如 Gemini Flash）；只有复杂的逻辑推理、代码生成才交给大模型（如 Pro 或 Ultra）。
逻辑： 这种“按劳分配”能让整体成本下降 80% 以上。

3. 针对 Agent 系统的高阶节约（你关注的方向）

在你研究的 Recursive Cognitive Systems（递归认知系统） 中，有几种特殊的省钱策略：

动态 Context 管理 (Sliding Window & Summarization)

做法： 随着对话进行，系统会自动将“旧的、琐碎的”对话历史，通过一个小模型总结成几句精炼的“记忆（Memory）”。
收益： 始终保持 Context Window 处于一个健康、低成本的状态，而不是无限制地堆积原始 Token。

MCP 协议下的精准检索

做法： 以前我们把整个代码文件塞给模型（太费 Token）。
进化： 现在的 Agent 通过 MCP 协议，只读取函数签名或特定的文件片段。“只读模型需要的部分”是目前 Agent 架构中最大的资源节约点。

总结：省 Token 的本质

省 Token 的本质其实是 “增加信息的熵”。

过去： 我们暴力地输入所有信息。
现在： 我们通过预处理（总结、压缩、路由、缓存），确保喂给大模型的每一个 Token 都是极其关键的“纯干货”。

Graph View

1. 厂家层面的“黑科技”：减少计算量
投机采样 (Speculative Decoding)
Prompt 缓存 (Prompt Caching)
长文本优化：KV Cache 量化与压缩
2. 应用层面的“精细化运营”：减少输入量
语义缓存 (Semantic Caching)
提示词压缩 (Prompt Compression)
模型级联 (Model Cascading)
3. 针对 Agent 系统的高阶节约（你关注的方向）
动态 Context 管理 (Sliding Window & Summarization)
MCP 协议下的精准检索
总结：省 Token 的本质

Backlinks

No backlinks found

Created withCreated with Quartz v1.0.1 and Lii, © 2026

GitHub
RAG-ChatBot