Transformer Decoder 详解

news/2025/2/23 5:40:10

Transformer Decoder 详解

1. 模型结构图解

Transformer Decoder 由 N 个相同的层堆叠而成,每个层包含以下组件(与 Encoder 不同,Decoder 包含两种注意力机制):

Input (Shifted Output)
│
├─> Masked Multi-Head Self-Attention → Add & LayerNorm → Encoder-Decoder Attention → Add & LayerNorm → Feed Forward → Add & LayerNorm
│        │                                  │                              │
│        └───────────────────────┘          └───────────────┘              └───────────────┘
│                  残差连接                               残差连接                       残差连接
│
└─> Output (与输入维度相同)

在这里插入图片描述


2. 核心公式与原理

(1) 带掩码的自注意力(Masked Self-Attention)

  • 输入矩阵:Decoder 输入 X dec ∈ R m × d model X_{\text{dec}} \in \mathbb{R}^{m \times d_{\text{model}}} XdecRm×dmodel(m 是目标序列长度)
  • 注意力掩码:防止当前位置关注未来信息(训练时用于自回归生成)
    Mask i j = { 0 if  i ≥ j − ∞ if  i < j \text{Mask}_{ij} = \begin{cases} 0 & \text{if } i \geq j \\ -\infty & \text{if } i < j \end{cases} Maskij={ 0if ijif i<j
  • 掩码注意力计算
    Attention ( Q , K , V ) = softmax ( Q K T d k + Mask ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}} + \text{Mask}\right) V Attention

http://www.niftyadmin.cn/n/5861296.html

相关文章

23种设计模式 - 组合模式

模式定义 组合模式&#xff08;Composite Pattern&#xff09;是一种结构型设计模式&#xff0c;通过将对象组织成树形结构&#xff0c;使客户端能够以统一的方式处理单个对象和组合对象。该模式特别适用于需要表示“部分-整体”层次结构的场景&#xff0c;例如数控系统中的多…

Python装饰器根本写法

将上述流程进行了包装&#xff0c;就是装饰器 def outer(origin):def inner():# add coderes origin()# add codereturn resreturn innerouter def func():# code hereprint("func")return被包装的函数的没有参数&#xff0c;可以轻松完成代码&#xff0c;如果有参…

SeaTunnel社区「Demo方舟计划」首期活动上线—— MySQL CDC实时同步至PostgreSQL实战

引言 凌晨2点&#xff0c;某电商公司的数据工程师小李正对着屏幕抓狂——业务部门临时要求将MySQL的订单表实时同步到PostgreSQL进行分析&#xff0c;众所周知&#xff0c;在数据驱动的业务场景中&#xff0c;异构数据源同步是高频刚需。 以MySQL到PostgreSQL的CDC同步为例&a…

Kubernetes的Ingress 资源是什么?

在Kubernetes中&#xff0c;Ingress资源是一种用于管理集群外部对内部服务访问的API对象&#xff0c;主要用于将不同的外部请求路由到集群内的不同服务&#xff0c;以下是关于它的详细介绍&#xff1a; 定义与作用 Ingress资源定义了从集群外部到内部服务的HTTP和HTTPS路由规…

基于STM32与IFX007T的电机驱动全解析(无人机/机器人实战)

系列文章目录 1.元件基础 2.电路设计 3.PCB设计 4.元件焊接 5.板子调试 6.程序设计 7.算法学习 8.编写exe 9.检测标准 10.项目举例 11.职业规划 文章目录 一、硬件系统架构1.1 核心部件简介 二、核心原理详解2.1 PWM调速技术2.2 H桥驱动原理 三、硬件连接详解3.1 典型接线图…

Three.js 快速入门教程【一】开启你的 3D Web 开发之旅

系列文章目录 Three.js 快速入门教程【一】开启你的 3D Web 开发之旅 Three.js 快速入门教程【二】透视投影相机 Three.js 快速入门教程【三】渲染器 Three.js 快速入门教程【四】三维坐标系 Three.js 快速入门教程【五】动画渲染循环 Three.js 快速入门教程【六】相机控件 Or…

vue 识别 <think></think>

在 Vue.js 中处理自定义标签或者在 HTML 中嵌入特定标记&#xff08;例如 &#xff09;通常涉及到两个方面&#xff1a;模板语法和组件化。 模板语法 Vue 使用基于 HTML 的模板语法来声明式地将 DOM 绑定至底层数据。默认情况下&#xff0c;Vue 会忽略未知元素&#xff0c;除非…

js截图,截全图

如果内容过多&#xff0c;上下隐藏了也能截全图的方法 组件&#xff1a;html2canvas 中文官网 关于 html2canvas | html2canvas中文文档 <template><el-dialog :visible.sync"dialogVisiblePre" modal-append-to-body><div style"height: 400…