Transformer-XL

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

https://arxiv.org/pdf/1901.02860.pdf

相较于传统transformer decoder,引入两个新模块

  • segment-level recurrence mechanism

img

  • a novel positional encoding scheme

  • 考虑我们在attention机制中如何使用positional encoding

(E_{x_i}^T+U_i^T)W_q^TW_kE_{x_j}U_j

img

  • R他们采用的是transformer当中的positional encoding

  • u和v是需要训练的模型参数

最终Transformer XL模型

img

代码

https://github.com/kimiyoung/transformer-xl

XLNet: Generalized Autoregressive Pretraining for Language Understanding

https://arxiv.org/pdf/1906.08237.pdf

背景知识

  • 自回归语言模型(Autoregressive Language Model):采用从左往右或从右往左的语言模型,根据上文预测下文。

  • 缺点:只利用了预测单词左边或右边的信息,无法同时利用两边的信息。ELMo在一定程度上解决了这个问题。

  • img

  • 自编码模型(Denoising Auto Encoder, DAE):在输入中随机mask一些单词,利用上下文来预测被mask掉的单词。BERT采用了这一思路。

  • img

两个模型的问题

img

XLNet的目标是融合以上两种模型的优点,解决它们各自存在的问题。

XLNet模型:Permutation Language Modeling

img

Two-Stream Self-Attention

img

img

参考资料

https://zhuanlan.zhihu.com/p/70257427

代码

https://github.com/zihangdai/xlnet

文章目录
  1. 1. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
  2. 2. XLNet: Generalized Autoregressive Pretraining for Language Understanding
|