RealFormer: Transformer Likes Residual Attention

ACL Findings 2021,在Transformer中引入残差Attention。

image-20220223125711993

Overview

image-20220223125622056

Background

Transformer按Layer Normalization的位置可以分为Post-LN和Pre-LN,BERT、XLNET、RoBERTa和ALBERT等都属于前者,GPT-2和Megatron属于后者。本文兼顾二者,引入残差注意力模块提升了Transformer的性能。

Method

原始注意力 \[ \text{Attention}(Q',K',V') = \text{Softmax}(\frac{Q'K'^T}{\sqrt{d_k}})V' \] 残差注意力 \[ \text{ResidualAttention}(Q',K',V', Prev') = \text{Softmax}(\frac{Q'K'^T}{\sqrt{d_k}}+Prev')V' \]

Experiment

在预训练和下游任务上都取得了更好的结果。

image-20220223130401730

image-20220223130504167

image-20220223130518912