BERT Model


x
1
BertModel(
2
    # token个数
3
    vocab_size=30522, 
4
    # 词向量维度 
5
    d_model=768
6
    # 隐藏层维度
7
    hidden_size=768,
8
    # 文本输入最长大小
9
    max_position_embeddings=512,
10
    # 句子个数
11
    token_type_embeddings=2
12
)

BERT参数计算

Embedding

Token Embedding
token个数 * 词向量维度 = 30522 * 768
Segment Embedding
只有0和1区分上下句子 = 2 * 768
Position Embedding
文本输入最长大小 * 词向量维度 = 512 * 768

所以，embedding参数 = （30522 + 2 + 512）* 768 = 23835648

Multi-Heads Attention

\begin{matrix} (1) & \begin{matrix} Q_{i} = X W_{i}^{Q} \\ K_{i} = X W_{i}^{K} \\ V_{i} = X W_{i}^{V} \\ {head}_{i} = Attention (Q_{i}, K_{i}, V_{i}) = softmax (\frac{Q_{i} K_{i}^{T}}{\sqrt{d_{k}}}) V_{i} \\ MultiHead (Q, K, V) = Concat ({head}_{1}, {head}_{2}, \dots, {head}_{h}) W^{O} \end{matrix} \end{matrix}

$X$ 维度：[30522,768]

$d_{model}$ 大小：768

$d_k = d_v = d_{model/h}$ 大小：768/12=64

$W^Q \; W^K \; W^V$ 的维度：[768, 64]

$Q \; K \; V$ 的维度：[30522, 64]

$head_i$ 的维度：[30522, 64]

$W^O$ 的维度：[768, 768]

BERT中head个数：12

BERT中Encoder（或看认为一次Multi Head Attention）个数：12

$W^Q \; W^K \; W^V$ )的参数维度为：768 * 64 * 3
$W^O$ )参数为：768 * 768
对1个Encoder(即包含12个head)，权重矩阵参数维度：768 * 64 * 3 * 12+768*768 = 2359296
对12个Encoder，参数为：2,359,296 * 12 = 28,311,552 = 27MB

FeedForward

\begin{matrix} (2) & FFX (x) = \max (0, x W_{1} + b_{1}) W_{2} + b_{2} \end{matrix}

$W_1$ $W_2$ $d_{model}$ =4*768=3072。

$W_1$ $W_2$ 的维度为： (768, 3072) 和 (3072, 768)

12层全连接层的参数为：12 * (768 * 3072 * 2) = 54MB （未考虑bias）

LayerNormalization

layer normalization有两个参数，分别是gamma和beta。有三个地方用到了layer normalization，分别是embedding层后、multi-head attention后、feed forward后，这三部分的参数为768*2+12*(768*2+768*2)=38400

NSP和MLM

参数量较小，忽略。

参数合计

Embedding: (30522 + 2 + 512)* 768 = 23835648

Multi-head Attention：(768*64 * 12 * 3 + 768 * 768)* 12 = 28311552

FeedForward：12 * (2 * 768 * 3072) = 56623104

LayerNorm：768 * 2 + (768 * 2)*12 + (768 * 2)*12 = 38400

Total = 23835648 + 28311552 + 56623104 + 38400 = 108808704