碎碎念：关于小模型或者端侧大模型

Jul 29, 2024
LLM chinese

碎碎念：关于小模型或者端侧大模型

今年有个有趣的现象，大厂分别推出能够在端侧运行的小模型
Microsoft：Phi-3 Vision 4.2b，支持文本、图像输入，可以运行在 surface 上
Google：Gemini Nano 1.8b/3.2b，支持文本，可以运行在手机上
Apple：Apple Intelligence 3b，支持文本图像，可以运行在手机上

意味着，大厂们都想通过大模型来强化自家系统的竞争力，端侧的大模型可以更快的响应用户，体验上更加丝滑，也可以结合云端大模型来提供更加准确和高质量的回答。
且，端侧大模型不仅仅可以用于 chat 场景，也可以用于端侧推理和决策，作为其他功能的基石，因为端侧没有隐私和 token 费用问题，可以更加放开手脚去做
例如 windows recall 功能，其通过定期的截图和系统级的一些 meta 信息，来理解、存储、分析用户行为，可以解决用户 “我上周看到的手机是在哪个网站” 这种跨时间和涉及隐私的问题。

我的观点一直是，一个有足够用户数据和算力的算法/模型，一定是比用户更懂自己的。
一个简单的例子，单词记忆，在 qwerty learner 中用户是通过键盘输入来记忆单词的，那算法就可以拿到用户输入的速度、字母间的延迟等信息，来了解用户对每个单词的记忆程度，来更加合理的安排后续的复习甚至是学习计划，这一定比用户自己安排的复习计划质量更高
这个过程中，会有大量的模型调用和隐私信息，而端侧模型都没有这个问题，可以更加深入的去做。

另一个问题，既然说越大的模型成本越高，为什么是大模型风风火火一年多后，才有高质量的小模型？以及为什么创业公司不能从小模型做起？

这两个其实是一个问题。
目前绝大多数小模型都是在大模型的基础上，通过知识蒸馏等类似技术训练而来，小模型的能力依赖于大模型能力的发展。但该训练速度非常快，微软的 phi-3 Vision 仅训练了 1.5 天，即小模型可以很快的跟上大模型的发展。

当大模型成为用户的刚需和生态的基石，端侧硬件发展也会跟上，我们未来肯定会看到更快更强更大的模型在端侧运行

最后，让我们抛开一切限制想象一下，未来我们会有一个终端，它可以不间断采集我们的屏幕、生活、声音等信息，我们也可以主动去加载不同的知识库，并在端侧进行储存和索引。其也拥有调用系统和互联网服务进行行动的能力，也能通过多层调用进行逻辑长考的能力。

那么，“还有贾维斯什么事？”，那么，“还有人类什么事”，那么…