当前位置：嘻哈小屋 > 学习 > AI > 正文

语言模型性能笔记（一）

嘻哈发布于 2025-07-17
分类：AI
阅读(295)
评论(0)

百度已收录

语言模型的成本越来越低了，但速度似乎反而没有本质的提升？在vibe coding的时候每次都得等待个3-10分钟，等AI交作业，自己刷个短视频的今天，为什么AI不能更快一点呢？

这时候就有小聪明说了，肯定是用的人多了！就如鲁迅曾经说过的，世界上本没有慢的GPT，用的人多了便慢了。 gen_01k0dbwpwte9sae0nk6mrtrp20

为什么大家用AI的时候会觉得速度变慢？

大语言模型跑在 GPU/TPU 上，而这些资源是有限的。
用户越来越多，大家挤在一起用同一批算力，峰值时资源被瓜分，平均速度自然下降（牛顿听了都觉得合理）。

那如果我有8张独享GPU，是不是“Vibe Coding”就能飞起？

恐怕也没那么快。

原因藏在自回归模型的本质里。

自回归模型是怎么玩的？

大模型的思考方式其实很简单：

预测下一个词 → 把它加到之前的词 → 再预测下一个。
每生成一个词，都要重新把整个上下文再跑一遍。
这么一看，每次都得“重算”，速度能起飞吗？

不能！

工程师的妙招：记笔记

既然重复计算太浪费，怎么办？

工程师们就想：能不能把一些已经算过的东西记下来，下次接着用？

于是就有了 KV Cache（Key-Value 缓存）。
这就像给模型准备一个“小本本”，记录之前的结果，下次不用全算，直接接着走。

Prefill & Decode 是啥？

Prefill：相当于“预热”，第一次计算输入上下文的时候，得从头算，没法偷懒，所以慢。
Decode：生成后续词的时候，就能用“小本本”加速，每次只补一点点，所以明显快了。

✅ 这就是为什么你问AI问题时，第一个词通常慢，后面就“哒哒哒”快起来的原因。

俗话说：好记性不如烂笔头，模型也是一样。

下次聊啥？

有了小本本的加持，我们能不能彻底解决速度问题？

嘿嘿，下次聊。

欢迎转载：注明转载出处就好:)：嘻哈小屋 » 语言模型性能笔记（一）

标签：GPT LLM

用心 OR 支付宝扫描二维码

为嘻哈打个赏

金额随意快来“打”我呀～

相关推荐

吐槽 0