Transformer2022-01-30

总体架构

模型分为Encoder和Decoder两个部分，下图为模型的架构图：

TransformerArchitecture

下面，以翻译为例，介绍Transformer的工作过程：

翻译架构

输入

$\operatorname{X}$ 。

输入表示

Encoder

$\operatorname{X}$ $\operatorname{C}$ $\operatorname{X}$ 完全一致。

Encoder翻译

Decoder

$\operatorname{C}$ $\operatorname{K、V}$ 。Decoder会根据前i个单词翻译第i+1个单词，翻译时为了防止信息泄漏，需要进行mask操作。

Decoder翻译

模型须知

模型参数

batch_size
批量大小
src_len
Encoder端句子的最大长度
tgt_len
Decoder端句子的最大长度
d_model
词的Embedding Size
d_k (d_q)
矩阵Q、K的列数
d_v
矩阵V的列数
d_ff
Feed Forward的隐藏层个数
src_vocab_size
源端单词个数
tgt_vocab_size
目标端单词个数

输入与输出


1
enc_input          dec_input            dec_output
2
['我 是 中国人 P',  'S i am chinese P',   'i am chinese P E'],
3
['我 有 一只 猫' ,  'S i have a cat',     'i have a cat E']

enc_input
encoder input
dec_input
decoder input
dec_output
decoder output，相当于y_true

注意

$\operatorname{Q}$ 符号。因此，变量符号需要根据所在章节判断。

Encoder

输入

Input Embedding

$\operatorname{X}$ $\operatorname{X}_{word\_emb}$ 。

$\operatorname{X}_{word\_emb}$ 的shape为[batch_size, src_len, d_model]。

Positional Encoding

\begin{matrix} (1) & \begin{matrix} P E (p o s, 2 i) = \sin (p o s / 10000^{2 i / d_{modal}}) \\ P E (p o s, 2 i + 1) = \cos (p o s / 10000^{2 i / d_{model}}) \\ 其 中 ， p o s 为 一 句 话 中 某 词 的 位 置 ， 取 值 范 围 为 [0, s e q u e n c e_l e n g t h) \\ i 指 词 向 量 的 维 度 序 号 ， 取 值 范 围 为 [0, e m b e d d i n g_d i m e n s i o n / 2) \end{matrix} \end{matrix}

因此，Positional Encoding结果的shape为[batch_size, src_len, d_model]。

$\operatorname{X}_{pos\_encoding}$ ，下图为Positional Encoding的示例图：

位置编码

输入整合

$\operatorname{X} = \operatorname{X}_{embedding} = \operatorname{X}_{word\_emb} + \operatorname{X}_{pos\_encoding}$

shape为[batch_size, src_len, d_model]。

Attention

Encoder的Multi-Head Attention由多个Self-Attention组成，Self-Attention接收的是输入(单词的表示向量x组成的矩阵X)或者上一个Encoder block的输出，下面将对Self-Attention进行介绍。

Self-Attention

$\operatorname{X}$ $\operatorname{X}$ $\operatorname{Q}、\operatorname{K}、\operatorname{V}$ 。计算方式如下所示：

\begin{matrix} (2) & \begin{matrix} Q = X W^{Q} \\ K = X W^{K} \\ V = X W^{V} \\ 其 中 ， W^{Q} 、 W^{K} 、 W^{V} 为 可 学 习 的 参 数 矩 阵 \\ Q 的 s h a p e 为 [b a t c h_s i z e, s r c_l e n, d_k] \\ K 的 s h a p e 为 [b a t c h_s i z e, s r c_l e n, d_k] \\ V 的 s h a p e 为 [b a t c h_s i z e, s r c_l e n, d_v] \end{matrix} \end{matrix}

整体计算流程如下：

self_attention

$\operatorname{X}$ $\operatorname{W}^Q、\operatorname{W}^K、\operatorname{W}^V$ $\operatorname{Q}、\operatorname{K}、\operatorname{V}$ $\operatorname{Q}、\operatorname{K}、\operatorname{V}$ $\operatorname{softmax}$ $\operatorname{Z}$ 。

$\operatorname{Q}、\operatorname{K}、\operatorname{V}$ 生成过程：

QKV

$\operatorname{Q}、\operatorname{K}、\operatorname{V}$ 之后，就可以计算出Self-Attention的输出了。计算公式如下：

\begin{matrix} (3) & \begin{matrix} Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V \\ 其 中 ， d_{k} 是 矩 阵 Q, K 的 列 数 ， 即 向 量 维 度 \end{matrix} \end{matrix}

最终结果生成过程：

softmax

$d_k$ $\operatorname{Q}、\operatorname{K}$ $\sqrt{d_k}$ 可以起到一定的归一化作用。

需要注意的是，在上述Self-Attention的计算过程中，通常基于mini-batch来进行计算，也就是一次计算多个句子。而一个mini-batch是由多个不等长的句子组成的，我们需要按照mini-batch中最大的句长对剩余的句子进行补齐，比如使用P作为填充字符，这个过程叫做padding。

$\operatorname{Q} \operatorname{K^T}$ 的结果进行mask，即将padding位置的结果置为-inf，那么，再进行softmax计算时便不受影响。

Multi-head Attention

$\operatorname{Q}、\operatorname{K}、\operatorname{V}$ ，每个Self-Attention生成一个输出，将多个输出进行Concat操作后，通过一次Linear变换，得到最终输出。

Multi-Head Attention架构图如下：

Multi-Head Attention

$\operatorname{X}$ $\operatorname{Q}、\operatorname{K}、\operatorname{V}$ $\operatorname{Z}$ $\operatorname{Z}$ 。

多个Self-Attention

$\operatorname{Z}$ 进行Concat后得到一个矩阵，再将该矩阵进行线性变换后，得到最终输出。如下图所示：

concat

$\operatorname{Z}$ $\operatorname{X}$ 的维度是一样的。

add

残差连接。

$\operatorname{X} = \operatorname{X} + \operatorname{Multi-head Attention(Q,K,V)}$

norm

$\operatorname{X}$ $\operatorname{X} = \operatorname{Layer \; Normalization(X)}$ 。

$N$ $C$ 相当于词的个数，Merged Spatial Dimensions相当于词向量。

layer-norm

线性层

Feed Forward

两层的线性变换，第一层使用ReLU作为激活函数，第二层不使用激活函数。对应公式如下：

\begin{matrix} (4) & X = L i n e a r (R e L U (L i n e a r (X))) \end{matrix}

$\operatorname{X}$ 的维度一致。

add

对线性变化的结果进行残差连接。

$\operatorname{X} = \operatorname{X}+ \operatorname{Linear(ReLU(Linear(X)))}$

norm

$\operatorname{X}$ 进行Layer Normlization处理。

$\operatorname{X} = \operatorname{Layer \; Normalization(X)}$

Encoder block总结

$\operatorname{X}_{batch\_size \times src\_len \times d\_model}$ $\operatorname{O}_{batch\_size \times src\_len \times d\_model}$ 。通过多个 Encoder block 叠加就可以组成 Encoder。

第一个 Encoder block 的输入为句子单词的表示向量矩阵，后续 Encoder block 的输入是前一个 Encoder block 的输出，最后一个 Encoder block 输出的矩阵就是 $\operatorname{C}$ ，这一矩阵后续会用到 Decoder 中。

Decoder

该结构的主要功能点如下：

包含两个Multi-Head Attention
1. Masked Multi-Head Attention
2. $\operatorname{K、V}$ $\operatorname{C}$ $\operatorname{Q}$ 使用Masked Multi-Head Attention的输出进行计算。
最后的softmax层计算预测概率

输入

目标序列的前序序列，后续简称dec input。

Output Embedding

$\operatorname{X\_dec}_{word\_emb}$ 。

Positional Encoding

$\operatorname{X\_dec}_{pos\_encoding}$ 。

输入整合

$\operatorname{X\_dec} = \operatorname{X\_dec}_{embedding} = \operatorname{X\_dec}_{word\_emb} + \operatorname{X\_dec}_{pos\_encoding}$

shape为[batch_size, tgt_len, d_model]。

Masked Attention

Masked Multi-Head Attention

$\operatorname{X\_dec}$ $\operatorname{Q}、\operatorname{K}、\operatorname{V}$ $\frac{\operatorname{Q \times K^T}}{\operatorname{\sqrt{d_k}}}$ 得到Scaled Scores，Scaled Scores是[tgt_len, tgt_len]的矩阵，接下来，在softmax之前，要对Scaled Scores进行sequence mask以及padding mask，前者防止信息泄漏，后者消除padding字符的影响。

Masked Multi-Head Attention整体流程图如下：

masked_attention

mask过程如下，在final mask中，数值为1的将被替换为-inf：

decoder_final_mask

使用final mask矩阵，对scaled scores矩阵进行mask：

decoder_mask_scores

基于masked scores进行softmax计算，可以将-inf变为0，得到的矩阵即为每个词之间的权重：

decoder_mask_attn_scores

$\operatorname{V}$ 相乘得到输出结果。

将输出结果做残差连接及Layer Normlization后，输入到下一步的Multi-Head Attention。

$\operatorname{X\_dec\_output}$

Multi-Head Attention

$\operatorname{C}$ $\operatorname{K}、\operatorname{V}$ $\operatorname{Q}$ ，再次进行Self-Attention操作。

Multi-Head Attention2

$\operatorname{Q}$ $\operatorname{K}$ $\operatorname{Q \times K^T}$ $\operatorname{K}$ 进行padding mask，如下图所示：

enc_dec_padding

最后一行蓝色部分未进行padding mask，但是对最后一列必须进行padding mask。

线性层

Feed Forward、add、norm与前文类似，不再赘述。

$\operatorname{X\_dec}$ 的shape一致。

结果输出

Linear

将Decoder的输出，通过Linear操作映射为[batch_size, tgt_len, tgt_vocab_size]的矩阵。

Softmax

通过Softmax计算出概率，然后

Loss

使用交叉熵损失函数计算loss。

预测

dec_input的第一个字符为S，然后逐字预测，将概率最大的词加入到dec_input，如果该词是E，则结束。


xxxxxxxxxx
17
1
def greedy_decoder(model, enc_input, start_symbol):
2
    # 根据enc_input获取enc_outputs
3
    enc_outputs, enc_self_attns = model.encoder(enc_input)
4
    dec_input = torch.zeros(1, 0).type_as(enc_input.data)
5
    terminal = False
6
    next_symbol = start_symbol
7
    while not terminal:         
8
        # 将上一步预测的最大概率的词，作为dec_input
9
        dec_input=torch.cat([dec_input,torch.tensor([[next_symbol]],dtype=enc_input.dtype)],-1)
10
        dec_outputs, _, _ = model.decoder(dec_input, enc_input, enc_outputs)
11
        projected = model.projection(dec_outputs)
12
        prob = projected.squeeze(0).max(dim=-1, keepdim=False)[1]
13
        next_word = prob.data[-1]
14
        next_symbol = next_word
15
        if next_symbol == word2idx["E"]:
16
            terminal = True
17
    return dec_input

总体架构

输入

Encoder

Decoder

模型须知

模型参数

输入与输出

注意

Encoder

输入

Input Embedding

Positional Encoding

输入整合

Attention

Self-Attention

Multi-head Attention

add

norm

线性层

Feed Forward

add

norm

Encoder block总结

Decoder

输入

Output Embedding

Positional Encoding

输入整合

Masked Attention

Masked Multi-Head Attention

Multi-Head Attention

线性层

结果输出

Linear

Softmax

Loss

预测

参考文档