Transformer 模型架构学习笔记

Transformer模型架构是一种深度学习模型，由谷歌大脑团队Ashish Vaswani等人于2017年在论文《Attention is All You Need》中提出。该架构采用自注意力机制替代循环神经网络和卷积神经网络，由编码器和解码器组成。编码器通过多层自注意力机制提取特征，解码器关联输入与目标序列，并引入位置编码补充序列位置信息。该架构的统一框架推动了模型设计和底层芯片技术的发展。

Transformer架构的提出被认为是该领域的分水岭，现在广泛用于训练大语言模型（LLM）等应用。其应用由自然语言处理扩展至计算机视觉、智能驾驶以及多模态生理信号处理等多个领域。有芯片集群支持训练万亿参数多模态模型，在智能体（Agent）中的应用也取得进展。但该架构在处理物理世界因果推理时，仍依赖统计相关性而非深度逻辑抽象，这限制了其在需要精确物理建模场景中的应用。斯坦福大学教授李飞飞在2025年11月的访谈中指出，现有Transformer架构在物理因果推理层面存在结构性局限。

2020年，其应用由自然语言处理扩展至计算机视觉领域。2025年，涌现出以Titans、MIRAS、Nemotron 3等为代表的新架构与技术，并催生了NEO、HOPE等新范式。

终端化架构革新

2025年12月，商汤科技与南洋理工大学联合发布全球首个开源原生多模态架构NEO。该架构采用Native Patch Embedding、三维旋转位置编码(Native-RoPE)和原生多头注意力的核心技术，使2B/8B参数规模的中小模型在MMMU等多项评测中达到旗舰模型精度，同时将端侧推理成本降低至同类模型的1/5。通过开源策略，NEO首次实现了多模态能力在移动终端和工业边缘设备的规模化落地，为AR/VR眼镜、智能汽车等终端场景提供了高性价比的视觉理解解决方案。

下一代架构突破

2025年12月，在斯坦福大学工程学院百年庆典上，谷歌联合创始人谢尔盖・布林指出，新架构和新训练方法比单纯扩展算力和数据更重要。他引用N-body问题历史案例，强调算法改进幅度可超越算力增长。

2025年12月，谷歌在NeurIPS大会上发布Titans架构与MIRAS理论框架的协同解决方案，包含基于多层感知机的神经长期记忆模块，通过引入「惊奇度」指标实现自适应记忆管理，在200万token长上下文处理中保持高召回率。

该体系通过动态参数更新机制实现运行时知识整合，结合MIRAS框架的四个设计维度（记忆架构/注意偏置/保留门/记忆算法），使模型获得持续学习能力。

根据BABILong基准测试结果，参数量更少的Titans架构在超长文档推理任务中准确率超越GPT-4，其线性推理速度相较传统Transformer提升3倍以上。

该架构已被证实可有效整合进多模态系统，谷歌DeepMind团队预测其可能成为实现AGI的关键构件，预计将应用于下一代Gemini系列产品。

与此同时，谷歌于2025年12月发布题为《嵌套学习：深度学习架构的幻象》的论文，提出嵌套学习范式，强调智能学习需要深度和频率两个正交维度。该研究将优化器重新审视为关联记忆系统，存储梯度历史，并基于此构建HOPE架构，实现连续记忆光谱，包含不同频率的MLP模块以解决持续学习问题，新知识可渐进消化。该范式被视为可能引发AI范式转移，为学习过程构建统一模型。

与此同时，英伟达于2025年12月发布Nemotron 3开源模型家族，采用混合Mamba-Transformer-MoE架构，旨在解决Transformer在处理长序列时内存消耗随序列长度平方级增长的问题。其中，Nemotron 3 Nano实现100万token上下文窗口和4倍推理速度提升，通过融合状态空间模型（Mamba）和混合专家模型（MoE）技术，为边缘计算和智能体任务提供高效解决方案。

在NeurIPS 2025的炉边谈话中，谷歌首席科学家Jeff Dean展望了未来方向，包括扩展注意力机制触达范围从百万token到数万亿token，实现模型直接访问所有科学论文和视频数据；他指出当前模型缺乏持续学习能力，训练后固定不变，未来需探索动态、脑启发的架构；同时强调硬件创新需求，如更节能、性价比高的推理芯片。同时，AI教父Geoffrey Hinton预测大模型能压缩巨量知识，发现人类未见的共通性，具备创造力，例如连接希腊文学与量子力学的类比。

2026年1月2日，DeepSeek在arXiv上发布论文《mHC: Manifold-Constrained Hyper-Connections》，提出了名为mHC（流形约束超连接）的宏观架构创新，是对Transformer最底层组件残差连接的重要改进，旨在解决Hyper-Connections架构引入的训练不稳定问题。其核心创新是将连接权重矩阵约束在双随机矩阵空间，利用Sinkhorn-Knopp算法实现可微分的约束，实验显示在7B规模模型上无Loss尖峰，MoE模型收敛速度提升约1.8倍。

Scaling Law（规模定律）的讨论

2025年12月，摩尔线程天使投资人王捷在观察中提出Transformer架构的Scaling Law（规模定律）在何处收敛的问题。Scaling Law启动了当前AI大模型发展的大浪潮，并作为AI大模型行业发展的基石，其收敛条件与时间点受到关注。

Transformer模型最早是在2017年由谷歌大脑团队Ashish Vaswani发表的一篇名为"Attention is All You Need"的论文中描述的。根据2025年12月NeurIPS访谈中Jeff Dean的回忆，Transformer的灵感来源于Ilya Sutskever、Oriol Vinyals和Quoc Le的序列到序列工作，通过注意力机制解决了LSTM的顺序依赖和状态压缩问题。谷歌内部当时对该架构的潜力评估不足，算力投入有限，且因担心聊天机器人表现不佳而推迟了相关产品发布。Jeff Dean在访谈中表示，谷歌不后悔发表Transformer论文；同时，Hinton坦言最初未重视该架构，但后来认可其效率。2025年12月，谷歌联合创始人谢尔盖・布林在斯坦福大学工程学院百年庆典对谈中指出，在2017年发布Transformer论文后，公司未能充分重视其潜力，导致投资不足和计算规模未扩展，同时因担心聊天机器人可能生成不恰当内容而推迟产品发布。这导致OpenAI在2022年推出ChatGPT。2022年底，谷歌联合创始人谢尔盖·布林回归公司，参与Gemini的研发。这篇论文的发布被认为是该领域的一个关键节点，Transformer架构后来被广泛用于训练大语言模型等应用。随着Transformer架构的广泛应用，其统一输入输出的Token处理范式影响了芯片设计对Token处理效率的优化。但该架构在处理物理世界因果推理时，仍依赖统计相关性而非深度逻辑抽象，这限制了其在需要精确物理建模场景中的应用。

2025年11月，斯坦福大学教授李飞飞在公开访谈中提出，现有Transformer架构在物理因果推理层面存在结构性局限。其团队认为深度学习架构的突破可能在未来五年内出现。随后，Google发布论文《Nested Learning: The Illusion of Deep Learning Architectures》，提出HOPE框架，该论文被类比为‘Attention is All You Need’的后续版本。2025年12月6日，商汤科技与南洋理工大学联合团队发布开源原生多模态架构NEO，其通过统一视觉语言处理层实现原生多模态建模，使用3.9亿图像文本对进行训练。2025年12月7日，谷歌在NeurIPS 2025大会上发布Titans架构及MIRAS框架，该架构融合了RNN与Transformer的特性，在BABILong基准测试中以200万token上下文窗口取得领先的性能指标。根据谷歌官方技术报告，该架构通过动态记忆更新机制实现了运行时参数迭代更新。

2026年1月，DeepSeek团队在arXiv上发布论文《mHC: Manifold-Constrained Hyper-Connections》，提出了名为mHC（流形约束超连接）的新架构。该架构是对Transformer底层组件残差连接的一种改进，旨在解决传统超连接在大规模模型训练中可能导致的数值不稳定问题。其核心创新是将连接权重矩阵约束在双随机矩阵空间，利用Sinkhorn-Knopp算法实现可微分的约束。

残差连接的演进

初始的ResNet式残差连接在深度模型训练中，因信息逐层累积可能导致信号噪音过大，引发训练不稳定甚至崩溃。演进阶段的超连接通过将单一残差流扩展为多条并行路径来提升性能，但扩大模型容量时更容易出现梯度爆炸和不稳定，且显存消耗增加。

2026年，DeepSeek提出的流形约束超连接将传统Transformer的单一残差流扩展为多流并行架构。其利用Sinkhorn-Knopp算法将连接矩阵约束在双随机矩阵（Birkhoff多胞形）流形上，使信号传播变为特征的凸组合，从数学上严格保证了信号范数的稳定性，从根本上解决了HC的不稳定问题。

为高效落地，DeepSeek团队进行了底层优化，包括使用算子融合技术编写定制CUDA内核、采用选择性重计算策略以及提出DualPipe并行策略来重叠计算与通信，从而在保持性能提升的同时控制了显存开销和训练周期。mHC在保留加宽残差流性能优势的同时，显著提升了大规模模型训练的稳定性、可扩展性和效率。

OpenAI的ChatGPT文本生成工具采用Transformer架构进行预测、摘要、问答等任务，该架构允许模型专注于输入文本中的相关部分。该工具各版本名称中的“GPT”代表“生成预训练Transformer”。该架构支持模型基于大型数据集预测文本序列中的下一个单词。

Transformers正在取代曾经主流的卷积和循环神经网络（CNN和RNN）。

Transformer架构的统一框架推动了模型设计和底层芯片技术的发展。有研究机构提出了支持在工业边缘设备部署的原生多模态架构，其开源特性对多模态模型的开发有推动作用。有芯片集群支持训练万亿参数多模态模型，并在金融和能源等行业应用。有研究强调了硬件与模型协同设计对研发效率的影响。该架构的轻量化版本（2B-9B参数）在机器人操作控制领域已进入初步商业化应用阶段。

基于Transformer架构的框架被应用于多模态生理信号处理，如心血管监测，实现信号去噪、插补与跨模态生成。

在智能驾驶领域，有城区导航辅助驾驶解决方案采用Transformer算法架构，结合动态与静态融合的BEV技术，以降低对高精地图的依赖为目标。

英伟达发布的DLSS 4.5超分辨率技术采用了第二代Transformer超级分辨率模型。基于该技术的测试显示，在某些场景下其渲染表现存在优化空间。

与上述依赖专用硬件的优化不同，有技术通过结构化注意力掩码将输入分为功能分区，使单个模型同时执行验证和起草任务。

此外，Transformer架构在智能体（Agent）中的应用取得进展，例如有智能体具备记忆功能，可实现跨会话的个性化回答；也有研究通过强化学习优化智能体的记忆机制，使记忆参与决策过程。

Transformer模型架构使用 Self-Attention 结构取代了在 NLP 任务中常用的RNN网络结构。相比 RNN 网络结构，其最大的优点是可以并行计算。Transformer模型是一个神经网络，它通过跟踪序列数据（如本句中的单词）中的关系来学习上下文，从而学习含义。