Lattice-BERT
将词汇信息融入BERT(NAACL 2021)
Overview
- arxiv: https://arxiv.org/pdf/2104.07204v1.pdf
- code: 暂无
Background
中文预训练模型将文本作为字符序列处理,忽略了粗粒度的语义特征。对于中文来说,词义并不完全是字义的组合,如”老板“并不等于“老的板”。将词级别的特征加入模型,可以有效补充字级别的不足。
本文设计了word lattice的结构来利用多粒度的输入,让预训练模型在下游任务中学会利用这些特征。
让Bert学会单词主要有两个难点:
- Bert原本的输入是字符序列,加入lattice后怎样描述位置信息。
- 对于Masked Languaged Model,怎样针对lattice结构设计mask任务。
本文设计了lattice position attention(LPA),以帮助transformer利用lattice中文本单元的位置和距离信息。此外,还提出了masked segment prediction(MSP)任务。 \[ \rm{Lattice-BERT} = \rm{BERT} + \rm{word\ lattice} + LPA + MSP \]
Methodology
Word Lattice
Lattice就是一个有向无环图,和Lattice-LSTM的思想类似。难点在于如何在编码层保持lattice的结构,以及如何避免冗余信息带来的潜在影响。
Lattice Position Attention
在BERT的attention基础上,加了三个位置相关项。 \[ \tilde{\alpha}_{ij} = \alpha_{ij} + \rm{att}_{ij} + b_{ij} + r_{ij} \]
其中,\(\alpha_{ij}\)表示原来的attention,\(\rm{att}_{ij}\)计算了绝对位置的attention权重,\(b_{ij}\)则是对相对距离的计算,\(r_{ij}\)是对相对位置的缩放项。
\[ \rm{att}_{ij} = \frac {1} {\sqrt{2d_k}}([P_{s_i}^S;P_{e_i}^E]W^q)([P_{s_i}^S;P_{e_i}^E]W^k)^T \]
\[ b_{ij} = b_{s_j-s_i}^{ss} + b_{s_j-e_i}^{se} + b_{e_j-s_i}^{es} + b_{e_j-e_i}^{ee} \]
感觉和FLAT类似,也是计算四个距离。
Masked Segment Prediction
BERT对单字掩码,Lattice-BERT则是对Segment掩码。
Segment定义为:lattice的一个连通子图,且Segment之间彼此token不重叠,如下图。具体来说,为了句子分段,需要逐字遍历,判断当前的字是否是之前所有单词的结尾(真拗口)。
Experiment
本文在11个中文NLU任务上进行实验,包括文本分类、阅读理解、序列标注等,在MSRA-NER和CLUE数据集上进行了实验,并与RoBERTa等预训练模型进行了比较。