AI摘要:Seq2Seq(Sequence-Transformer 架构则完全基于自注意力(Self-Attention)和交叉注意力(Cross-Attention)实现 Seq2Seq。2. 解码策略 由于每一步都依赖前一步的输出,存在多种解码策略来平衡生成质量与计算效率: 表格
策略描述优缺点贪心搜索(Greedy Search)每步选择概率最高的 token快,但容易陷入局部最优,生成结果可能不连贯束搜索(Beam Search)维护 top-k 个候选序列,每步扩展并保留得分最高的 k 个质量优于贪心,但计算开销大;k 越大越接近 总结
训练:编码器读入源序列 → 生成上下文向量
Seq2Seq(Sequence-to-Sequence)是一种用于将一个序列映射到另一个序列的深度学习架构,广泛应用于机器翻译、语音识别、文本摘要、对话系统等任务。其核心思想是使用两个神经网络:编码器(Encoder) 和解码器(Decoder) 。
下面分别介绍 Seq2Seq 的训练机制和推理机制:
推理阶段没有真实目标序列可用,因此不能使用 Teacher Forcing。解码器必须自回归地(autoregressively) 生成输出:
<sos>
<eos>
由于每一步都依赖前一步的输出,存在多种解码策略来平衡生成质量与计算效率:
表格
点击阅读原文
策略描述优缺点贪心搜索(Greedy Search)每步选择概率最高的 token快,但容易陷入局部最优,生成结果可能不连贯束搜索(Beam Search)维护 top-k 个候选序列,每步扩展并保留得分最高的 k 个质量优于贪心,但计算开销大;k 越大越接近 总结
训练:编码器读入源序列 → 生成上下文向量
Seq2Seq(Sequence-to-Sequence)是一种用于将一个序列映射到另一个序列的深度学习架构,广泛应用于机器翻译、语音识别、文本摘要、对话系统等任务。其核心思想是使用两个神经网络:编码器(Encoder) 和解码器(Decoder) 。
下面分别介绍 Seq2Seq 的训练机制和推理机制:
一、训练机制(Training)
1. 基本结构
2. 训练方式:Teacher Forcing
3. 注意力机制(可选但常用)
二、推理机制(Inference / Decoding)
推理阶段没有真实目标序列可用,因此不能使用 Teacher Forcing。解码器必须自回归地(autoregressively) 生成输出:
1. 自回归生成
<sos>)。<eos>)或达到最大长度。2. 解码策略
由于每一步都依赖前一步的输出,存在多种解码策略来平衡生成质量与计算效率:
表格
总结
点击阅读原文