碎碎念: OpenAI / LLM 竞争 / 未来

Jul 26, 2024
LLM chinese

今天跟 LLM 前沿的研究员聊了一下午，收获了很多有趣的 insights，先分享一个，后续慢慢整理

在 OpenAI 之前，大家只知道 transformer 是很好的架构，但 OpenAI 用现实证明了放大 transformer 中 QKV 矩阵、增加更多的层、更多的维度和 attention heads，就能提取和学习到数据中高质量的 feature，从而产生高质量的模型

但这其中没有 magic，OpenAI 更没有断层领先其他公司的聪明大脑。当这个思路出来后，其他公司可以非常快的尝试这个路线。注意，增大模型并不是没有人想过，也不是有极高的技术含量，只是没人敢尝试。你不能跟老板说，你给我几千万美元，我试试这条路走不走得通。但 OpenAI 试出来了，并且用事实证明走得通、效果好，其他家就可以沿着这条路迅速跟进

OpenAI 之前领先其他公司大概 2 年，因为在 LLM 这条路整个链路，包括训练、模型架构、推理整个实现路线上，有无数的坑，OpenAI 一步步趟出来。而其他公司需要从头一步步踩坑，但因为有资本的关注，其他公司可以迅速雇到足够的人足够的资源去趟，并且有了先行人，投入会更加高，差距也会极速收缩

如果大家都限制模型在 7b 的大小，模型的架构和细节非常重要。但因为有 scaling law，细节变得没那么重要，如果把模型比喻成人的话， “努力更重要，还没到拼天赋的时候”。暴力提升大小就能取得更好的效果

换句话说，因为深度学习的黑盒特殊性，科研处于先射击后瞄准的风格。即先实验验证某种模型架构具有领先的效果，然后尝试去解读为什么有这么好的效果。 transformer 效果很棒，但是为什么棒？你可以有很多理论去解释 QKV 三个矩阵的意义和效果，但你不能根据从多种优秀的模型架构中总结出的设计原则，去迭代出一种更优秀的架构，所以从更高维度看，大家就是在尝试各种不同的可能效果更好的架构。因为架构迭代的不可控性，而提升参数量对效果提升的可预期性，未来主流公司还是会走在想尽办法提升参数量的这条路上。

在现在这个时间点，llama 3.1 已经达到了 gpt4o 的水平，大家基本来到跟 openAI 同一水平线上。未来可能就是

继续卷模型参数量，等待 scaling law 达到瓶颈，进入价格战，开始优胜劣汰，剩下几个头部选手
在卷的过程中出现了比 transformer 更优秀的架构。可能是终结 scaling law 的新架构，那 AI 的竞争走向另一条路。这就不是你我能预测的了

当然这只是对基础模型的分析和想法，应用层更加有趣和难以预测。或者，更让我们期待的是人类在应用层的创新