从零开始：揭秘Tied Embeddings如何重塑Transformer的权重共享机制

最新推荐文章于 2026-06-25 14:21:12 发布

原创

最新推荐文章于 2026-06-25 14:21:12 发布 · 957 阅读

标签

#Tied Embeddings #Transformer #权重共享技术 #深度学习

收录于

从零开始：揭秘Tied Embeddings如何重塑Transformer的权重共享机制

1. 权重共享技术的本质与价值

在深度学习领域，参数效率一直是模型优化的核心议题。当我们观察现代Transformer架构时，会发现一个精妙的设计：输入Embedding层与输出Softmax层之间的权重共享机制，这种技术被称为Tied Embeddings。

权重共享的本质是通过让模型的不同部分复用相同的参数矩阵，实现以下目标：

参数精简：直接减少模型总参数量约50%
训练稳定性：强制输入输出空间对齐，避免分布偏移
计算效率：降低内存占用和矩阵运算开销

以典型的Transformer语言模型为例，当词汇表大小V=50,000，嵌入维度d=4096时：

配置	参数量	内存占用(FP32)
独立权重	2Vd=409.6M	1.6GB
Tied Embeddings	Vd=204.8M	0.8GB

这种优化对于部署十亿级参数的大模型尤为关键。在实际工程中，权重共享已成为GPT、BERT等主流架构的标准配置。

2. 技术实现原理深度解析

2.1 传统Transformer的权重结构

标准Transformer包含两个关键权重矩阵：

# 输入Embedding层
E = nn.Embedding(vocab_size, hidden_

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

git9versioner

关注关注

25
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

#从零到一搭建微博情感分类系统：基于BiLSTM的PyTorch完整实战教程【3W字保姆级详解】

2401_88566519的博客

06-24

347

项目使用的是0 → 喜悦1 → 愤怒2 → 厌恶3 → 低落每条数据由两部分组成：第一列为标签（0-3的数字），第二列为微博文本内容。数据集为字符级处理，无需分词，直接按汉字拆分即可。为什么使用字符级而非词语级？对于中文短文本（如微博），字符级处理可以规避分词错误带来的误差，且词表规模更小，模型训练更快，非常适合入门级情感分类任务。函数定义与文档字符串函数接收三个参数：语料文件路径、词表最大尺寸、最低词频。文档字符串清晰说明了函数功能和参数含义，这是工程化代码的好习惯。

参与评论您还未登录，请先登录后发表或查看评论

深度学习知识点

06-23

297

但一个“全连接网络”如果不包含隐藏层（比如只有输入直接映射到输出的单层感知机），或者结构上不满足多层非线性变换的条件，那它。这 m 个数据必须要有 m 个输入神经元来“接住”它们，然后分别通过 m 条独立的连接线（权重），传递给下一层（第一个隐藏层）的每一个神经元。假设你的数据集是一个表格，有 m 列（比如：年龄、工资、身高），那么你的输入特征维度就是 m。这种层与层之间的“两两相连”就是“全连接”名称的由来。3.多层感知机的第一层的神经元的数目等于输入特征向量的维度。1.全连接网络是指神经网络中的。

LSTM预判+速度门控双保险自愈

2301_77211362的博客

06-21

304

模块功能LSTM 预判预警分析历史通量/应力序列，预测未来失稳风险（如裂纹萌生）Speed-Gated 自愈实时监测通量变化率（速度），当超过阈值时自动增强修复强度双重触发机制满足任一条件（预判高风险或实际失稳）即启动自愈动态调节自愈强度随风险等级与速度同步变化。

Intelligent Tomato Ripeness Detection System Based on YOLOv8 Deep Learning

ZSW1218的博客

06-21

233

Abstract: With the intelligent development of modern agriculture, traditional manual tomato ripeness detection methods suffer from low efficiency, strong subjectivity, and high labor costs. To improve the accuracy and efficiency of tomato ripeness detectio

深度学习稀疏编码与 PCA 的流形解释 —— 线性因子模型收官（八十一）

hello.reader

06-21

237

本文总结了线性因子模型的两个重要主题：稀疏编码和PCA的流形解释。稀疏编码通过L1范数约束实现因子稀疏性，其编码器是非参数的优化过程，虽能获得更优重构但计算效率较低。PCA可视为学习数据所在的低维线性流形（"薄饼"几何），通过保留方差最大的主成分实现降维，并可从线性自编码器角度理解其编码-解码过程。这些线性模型为后续自编码器等深度表示学习模型奠定了基础，同时也揭示了线性方法的局限性，如稀疏编码生成样本质量不佳的问题。文章通过几何动画和对比表格直观展示了关键概念的技术原理与优劣。

深度学习自编码器基础与欠完备自编码器 —— 复制的艺术（八十二）

hello.reader

06-21

645

自编码器不需要标签（用数据自身作监督信号，目标是重构 x），产出有用表示 h，能利用无标注的海量数据。非线性自编码器能找弯曲的流形（曲面），是 PCA 的强大推广，能捕捉更复杂的数据结构。上图展示自编码器的两个组件：编码器 f（x→h）和解码器 g（h→r），目标是 r 近似 x。上图展示欠完备自编码器的沙漏结构：编码维度（瓶颈，如 2 维）小于输入维度（如 8 维）。也有更具生物学意义的**再循环（recirculation）**算法（比较原始输入与重构输入的激活），但很少用于实际。

吴恩达《深度学习》之看懂注意力机制的“精准一瞥”

m0_74435839的博客

06-24

280

多头注意力机制。语言是极其复杂的。当我们看到一句话里的某个词时，我们往往需要同时关注很多不同的维度。比如看这句话：“那只巨大的猫懒洋洋地躺在垫子上，它刚刚吃了鱼。当我们盯着“猫”我们的左眼可能需要关注它的修饰语（什么猫？——巨大的猫）；我们的右眼可能需要追踪它的代词指代（谁吃了鱼？——“它”指的是猫）。如果我们只有“一双眼睛”（单头注意力机制），网络在同一时间只能计算出一组α\alphaα。它如果去看了“巨大的”，就没办法同时去死死盯着“它”。

理解RNN：Learning long-term dependencies with gradient descent is difficult

weixin_45209433的博客

06-24

261

为什么说记住了h1，因为即使到后面100个时刻，a100仍然大于0，说明输入h1>0，a100>0，当然h1<0，a100<0，这个可以自行计算，这就是过去的信息仍然存在于当前状态。之后如果没有输入，RNN持续输出0.957左右，根据上的计算可可以知道，隐藏值a一直在1.9左右，处于tanh的饱和区，所以输出经过tanh后，输出在0.957左右。这是只有1个神经元的RNN，我们通过举例子，来说明下RNN的内部具体是怎么操作的，以及其特点，假设w =2, a0 = 0，给予的输入是正值。

深度学习自编码器的概率视角与流形学习 —— 编码器即分布（八十四）

hello.reader

06-21

154

上图总结自编码器的概率视角三层次：确定函数（h=f(x), r=g(h)，传统自编码器）→ 概率分布（p(h|x), p(x|h)，随机自编码器）→ 生成模型（近似后验+似然+先验，VAE）。上图展示流形的经典例子：把一张 MNIST 图像垂直平移，所有平移版本在 784 维空间中构成一条 1 维流形（弯曲路径），平移量就是沿流形的坐标。把编码器/解码器从函数推广为分布，再加上对隐变量先验的建模和变分下界，就得到了 VAE——一个真正的深度生成模型。前两篇讲了自编码器的结构（82）和正则化（83）。

深度学习迁移学习与域适应 —— 知识的搬运术（八十七）

hello.reader

06-24

115

迁移学习和域适应指的是利用一个情景（如分布P1P_1P1）中已经学到的内容，去改善另一个情景（如分布P2P_2P2）中的泛化情况。在迁移学习中，学习器必须执行两个或更多个不同的任务，但我们假设能够解释P1P_1P1变化的许多因素和学习P2P_2P2需要抓住的变化相关。在域适应的相关情况下，每个情景之间任务（和最优的输入到输出映射）都是相同的，但输入分布稍有不同。迁移学习：任务不同域适应：任务相同，输入分布不同。

【训练与微调篇07】训练监控与模型评估：从实验管理到Benchmark实战

weixin_54908067的博客

06-22

447

本文系统介绍了2026年大模型评估体系的最新发展与实践方法，主要内容包括：系统化评估的必要性指出仅监控训练Loss的局限性提出三层评估架构：实时训练监控、定期基准测试、最终全面评估训练监控系统搭建详细演示Weights & Biases(W&B)的实战应用提供完整的Python实现代码介绍MLflow自托管方案作为替代选择评估体系创新强调多维度标准化评估的重要性涵盖16+核心Benchmark指标提出Multi-Score综合评分框架文章通过具体代码示例和系统架构图，展示了如何构建完

通用表格识别技术通过深度学习与计算机视觉，实现了复杂表格的高精度数字化解析

智能图像识别

06-22

404

摘要：通用表格识别技术通过深度学习与计算机视觉，实现了复杂表格的高精度数字化解析。该技术采用CNN+Transformer融合架构，支持有线/无线表格检测、结构还原与文字识别同步处理，具备多级表头识别、跨页续接等能力，在金融、政务、医疗等领域广泛应用。相比传统OCR，其突破性在于保留表格行列关系与合并单元格结构，将静态图像转化为可计算数据，解决了低质量文档识别难题，显著提升了企业数据自动化处理效率，成为数字化转型的关键基础设施。

LeNet-5 详解：从一只猫的图片看懂卷积神经网络的经典架构

最新发布

qq_879829564的博客

06-25

234

98 年 Yann LeCun 团队提出的 LeNet-5 是首个完整的卷积神经网络架构，奠定了现代 CNN 的基本范式（卷积-池化-全连接）。本文通过 PyTorch 复现该网络，以一张 32×32 的猫咪灰度图为例，逐步展示数据在各层的变换过程。实验从输入预处理开始，详细记录了卷积层 C1（6个5×5卷积核）的特征图生成过程，包括手动验证卷积计算、可视化6个28×28特征图，并分析 tanh 激活后的数值分布。随后数据经过 S2 池化层下采样为 6 个14×14特征图，展示了 2×2 最大池化的压缩效

深入浅出 RNN 反向传播与梯度消失

weixin_48609829的博客

06-21

424

title: 深入浅出 RNN 反向传播与梯度消失tags: Agent开发, 深度学习, 算法基础excerpt: 详细解析 RNN 的随时间反向传播（BPTT）过程。从底层的前向信息流，到严谨的微积分链式法则，直击全导数展开与连乘导致梯度消失的数学本质。循环神经网络（RNN）的核心优势在于处理带有序列依赖的数据。在训练阶段，这种处理时间序列的“记忆”特性，使得其反向传播算法（Backpropagation Through Time, BPTT）比传统的前馈神经网络多了一个关键的时间维度。

开源计算机视觉项目easy12306深度剖析：基于深度学习的12306验证码识别算法原理与本地部署实战指南

wulechun的博客

06-21

263

easy12306不仅是一个实用的验证码识别工具，更是一个优秀的深度学习入门教材。它展示了如何将复杂的现实问题（验证码识别）转化为计算机可以理解的数学模型。对于开发者而言，掌握该项目不仅能解决具体的抢票难题，更能深入理解卷积神经网络在图像分类领域的强大威力。随着AI技术的对抗升级，虽然12306的验证码机制在不断变化，但easy12306所代表的技术思路依然具有极高的参考价值。

深度学习结构化概率模型——有向与无向图模型 —— 用图描述概率（八十九）

hello.reader

06-24

结构化概率模型通过图结构描述高维数据变量间的直接相互作用，解决维度灾难问题。有向图模型（贝叶斯网络）适用于明确因果关系的场景（如接力赛），通过局部条件分布分解联合概率。无向图模型（马尔可夫随机场）适用于双向交互场景（如感冒传染），通过团因子乘积表示未归一化概率。两者均显著减少参数规模，但无向模型需额外计算配分函数进行归一化。选择模型类型取决于变量间作用是否具有方向性，图结构编码的条件独立性是概率分解的数学基础。** （字数：150）核心要点：维度灾难：朴素查表法不可行，需结构化建模图模型价值：边

基于深度学习的交通标志识别系统

wyh293的博客

06-25

266

随着智能交通系统（ITS）和自动驾驶技术的快速发展，实时、准确、鲁棒的交通标志识别（Traffic Sign Recognition, TSR）已成为保障行车安全与提升道路智能化水平的关键环节。本研究针对传统图像处理方法在复杂光照、遮挡、尺度变化及类间相似性高等场景下识别精度低、泛化能力弱的问题，设计并实现了一套端到端的基于深度学习的交通标志识别系统。系统以德国交通标志识别基准数据集GTSRB为基础，采用改进型ResNet-34作为主干网络，引入SE注意力机制增强关键特征表达能力，并结合L...

理解LSTM：Long Short-Term Memory

weixin_45209433的博客

06-23

216

htfWxxtWhht−1，f可以是tanh函数，也可以是sigmoid函数，这个公式是LSTM中最基本的结果，如果没有Whht−1，就是一层MLP，RNN把历史状态添加到当前输入中，作为当前的状态。问题：这个结构也是最经典的Simple RNN结构，你会发现h隐藏数据是一个级联结构，反向传播中的多层梯度相乘，必然会导致隐层层h的梯度消失，例如100个0.9相乘等于0.000026。

无人机河湖库区水域智能巡检数据集｜水边垂钓溺水风险船只AI识别、水利安全预警YOLO深度学习标注资源10436期

2403_88545703的博客

06-21

561

无人机河湖库区水域智能巡检数据集｜水边垂钓溺水风险船只AI识别、水利安全预警YOLO深度学习标注资源10436期

神经网络 | ① 从人工智能到深度学习的概念地图

鷾

06-23

388

神经网络在人工智能框架中的定位与演变本文系统梳理了人工智能技术体系，重点阐述了神经网络在机器学习框架中的位置及其发展脉络。