2025年大语言模型架构深度解析:从DeepSeek到Kimi 2的技术演进之路

本文基于Sebastian Raschka博士的权威技术博客,深入剖析2025年主流大语言模型的架构创新,了解AI领域最前沿的技术发展。

大语言模型架构对比图

在过去的七年里,大语言模型(LLM)经历了从GPT原始架构到如今的DeepSeek-V3、Llama 4等先进模型的巨大飞跃。虽然表面上看起来这些模型仍然保持着相似的基本结构,但实际上在细节优化方面已经发生了深刻的变革。本文将带你深入了解2025年最具代表性的几个大语言模型架构,剖析它们背后的技术创新和工程智慧。

一、DeepSeek V3/R1:推理模型的架构革命

2025年1月,DeepSeek R1的发布在AI社区引起了巨大轰动。这个基于DeepSeek V3架构构建的推理模型,通过两项关键技术实现了计算效率的质的飞跃:多头潜在注意力(MLA)和混合专家系统(MoE)。

1.1 多头潜在注意力(MLA):内存优化的艺术

想象一下,传统的多头注意力机制就像是一家大型图书馆,每个读者(注意力头)都需要一份完整的图书目录(键值对)。而分组查询注意力(GQA)则像是让多个读者共享同一份目录,这样可以减少目录的印刷数量。但DeepSeek的MLA技术更进一步,它就像是将图书目录压缩成一个精简版,读者需要时再解压还原。

MHA vs MLA对比

具体来说,MLA在训练时将键(Key)和值(Value)张量压缩到低维空间存储,推理时再投影回原始维度。这种方法不仅显著减少了KV缓存的内存占用,还意外地提升了模型性能。根据DeepSeek-V2的研究,MLA在减少内存使用的同时,建模性能甚至优于传统的多头注意力。

1.2 混合专家系统(MoE):智慧的模块化分工

DeepSeek V3采用了6710亿总参数的庞大体量,但每次推理只激活其中的370亿参数。这就像是拥有一支由256位专家组成的智囊团,但针对每个问题只邀请其中9位最相关的专家参与讨论。

MoE架构示意图

这种设计的巧妙之处在于:

  • 知识容量巨大:256位专家各自掌握不同领域的专业知识
  • 计算成本可控:每次只激活9位专家,大幅降低实际计算量
  • 共享专家机制:设置1个始终活跃的共享专家,处理通用模式,让其他专家专注于更专业化的任务

二、OLMo 2:稳定训练的工程智慧

由艾伦AI研究所开发的OLMo 2系列模型虽然在性能排行榜上并不突出,但其架构设计体现了深刻的工程思考。主要创新集中在归一化层的布局上。

2.1 归一化层的重新定位

传统Transformer采用预归一化(Pre-Norm)结构,即在注意力机制和前馈网络之前进行归一化。而OLMo 2则回归到后归一化(Post-Norm)的变体,将归一化层放置在注意力机制和前馈网络之后,但仍保留在残差连接内部。

这种设计选择并非随意,而是基于训练稳定性的考虑。实验表明,这种布局能够有效稳定训练过程,减少梯度爆炸的风险。

2.2 QK-归一化:细节中的魔鬼

OLMo 2在注意力机制内部引入了QK-归一化,即在应用旋转位置编码(RoPE)之前,对查询(Query)和键(Key)向量进行额外的RMSNorm归一化。这一看似微小的调整,与后归一化布局相结合,显著提升了训练的稳定性。

三、Gemma 3:滑动窗口注意力的效率革命

Google的Gemma 3系列模型采用了一种截然不同的效率优化策略:滑动窗口注意力机制。

3.1 滑动窗口注意力:局部视野的智慧

传统的自注意力机制是"全局"的,每个token都能访问序列中的所有其他token。而滑动窗口注意力则引入了"局部"视野,每个token只能访问其周围固定窗口内的token。

滑动窗口注意力对比

Gemma 3的巧妙之处在于:

  • 5:1的混合比例:每5层滑动窗口注意力搭配1层全局注意力
  • 1024的窗口大小:相比Gemma 2的4096大幅缩小,进一步减少内存占用
  • 性能几乎无损:实验表明这种设计对模型性能影响微乎其微

3.2 双重归一化策略

Gemma 3在归一化层布局上也独具匠心,采用了预归一化和后归一化相结合的策略。在注意力模块前后都放置RMSNorm层,这种"双重保险"的设计既保证了训练的稳定性,又不会对计算效率造成显著影响。

四、Mistral Small 3.1:速度优化的极致追求

Mistral Small 3.1 24B虽然在多数基准测试中超越了Gemma 3 27B,但其真正的亮点在于推理速度的提升。通过优化分词器、缩小KV缓存和减少层数,Mistral实现了更快的推理延迟。

值得注意的是,Mistral放弃了之前使用的滑动窗口注意力,回归标准的分组查询注意力。这一选择可能是为了利用更优化的计算库(如FlashAttention),在内存优化和计算效率之间找到了新的平衡点。

五、Llama 4:Meta的MoE探索

Llama 4系列也加入了MoE架构的行列,其400亿参数的Maverick版本与DeepSeek V3在架构上高度相似,但在专家配置上有所不同:

  • 专家规模:Llama 4使用更少但更大的专家(2个活跃专家,每个8192隐藏维度)
  • 激活参数:170亿活跃参数,约为DeepSeek V3的一半
  • 混合策略:交替使用MoE和密集模块,而非全部采用MoE

六、Qwen3:全尺寸覆盖的模型家族

Qwen3系列提供了从0.6B到235B的全尺寸模型覆盖,既有密集模型也有MoE变体,体现了对不同应用场景的深入理解。

6.1 小模型的精巧设计

Qwen3 0.6B可能是目前最小的当代开源模型,但其性能表现令人印象深刻。通过更深的网络结构(更多层数)和更窄的隐藏维度,实现了比Llama 3 1B更小的内存占用和不错的性能表现。

6.2 MoE模型的灵活选择

Qwen3的MoE版本提供了30B-A3B和235B-A22B两种规格,其中A22B表示220亿活跃参数。有趣的是,Qwen3移除了共享专家,可能是考虑到专家数量从2个增加到8个后,共享专家的必要性降低。

七、SmolLM3:无位置编码的大胆尝试

SmolLM3 3B模型采用了一个颇具争议的设计:无位置编码(NoPE)。这一理念源于2023年的研究,认为在因果注意力掩码的存在下,模型可以通过训练隐式地学习位置信息,无需显式的位置编码。

NoPE架构对比

实验表明,NoPE不仅减少了模型参数,还改善了长度泛化能力,即模型在更长序列上的表现下降更少。SmolLM3团队采用了折中方案,仅在每4层中使用NoPE,平衡了创新性和稳定性。

八、Kimi 2:万亿参数的巅峰之作

Kimi 2无疑是2025年最引人注目的开源模型,1万亿参数的规模使其成为当前最大的开源大语言模型。其架构基本沿用了DeepSeek V3的设计,但在规模上更进一步:

  • 专家数量增加:相比DeepSeek V3使用了更多的专家
  • 注意力头减少:在MLA模块中使用了更少的注意力头
  • Muon优化器:首次在如此大规模的模型中使用Muon优化器替代AdamW,实现了更优的训练效果

技术演进趋势总结

纵观2025年的大语言模型架构发展,我们可以清晰地看到几个重要趋势:

  1. 效率优化成为主旋律:无论是MLA、MoE还是滑动窗口注意力,所有创新都围绕着在保持性能的前提下降低计算成本
  2. 混合架构成为标准:纯粹的密集模型越来越少,MoE、混合注意力等组合策略成为主流
  3. 工程细节决定成败:归一化层的位置、注意力机制的选择、专家配置等看似微小的调整,往往决定了模型的最终表现
  4. 全尺寸覆盖成为趋势:从0.6B到1T参数,不同规模的模型满足了从边缘设备到云端服务的全场景需求

这些技术演进不仅推动了AI能力的边界,也为未来的应用创新奠定了坚实基础。随着技术的不断成熟,我们有理由期待更加高效、智能的大语言模型出现。


技术术语解释

多头注意力(MHA):Transformer模型的核心机制,让模型能够同时关注序列中不同位置的信息,类似于人类阅读时同时关注多个关键词。

分组查询注意力(GQA):MHA的优化版本,通过让多个注意力头共享键值对来减少内存使用,就像多个学生共用一份参考资料。

多头潜在注意力(MLA):DeepSeek提出的创新注意力机制,通过压缩键值张量来减少内存占用,类似于将大文件压缩后再存储。

混合专家系统(MoE):将大模型分解为多个专家子网络,每次只激活最相关的几个专家,就像医院里的专科会诊制度。

滑动窗口注意力:限制每个token只能关注附近固定范围内的其他token,减少计算量的同时保持局部相关性。

RMSNorm:一种归一化技术,通过标准化输入数据的分布来稳定训练过程,类似于将不同尺度的数据调整到同一标准。

旋转位置编码(RoPE):通过旋转向量来注入位置信息的技术,让模型能够理解词语在句子中的相对位置。

无位置编码(NoPE):移除显式位置编码,依靠注意力掩码让模型隐式学习位置信息的大胆设计。

Muon优化器:一种新型优化算法,相比传统的AdamW在某些场景下能实现更好的训练效果。


本文基于Sebastian Raschka博士的技术博客整理,原文链接:https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html