第12次课-xlnet - Guoziren`s World

2019年6月19日，google brain和CMU大学一起，提出了模型XLNet,分析了BERT的缺点并提出了改进方法.

XLNet引入了自回归语言模型以及自编码语言模型的提法。

在ELMO／BERT出来之前，大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词，就是常说的自左向右的语言模型任务，或者反过来也行，就是根据下文预测前面的单词，这种类型的LM被称为自回归语言模型。

GPT，ELMO是自回归语言模型。ELMO是两个自回归语言模型的拼接，本质上仍然是自回归语言模型

优点：生成类NLP任务，比如文本摘要，机器翻译等，在实际生成内容的时候，就是从左向右的，自回归语言模型天然匹配这个过程。而Bert这种DAE模式，在生成类NLP任务中，就面临训练过程和应用过程不一致的问题，导致生成类的NLP任务到目前为止都做不太好。

缺点：只能利用上文或者下文的信息，不能同时利用上文和下文的信息

Bert通过在输入X中随机Mask掉一部分单词，然后预训练过程的主要任务之一是根据上下文单词来预测这些被Mask掉的单词。那些被Mask掉的单词就是在输入侧加入的所谓噪音。类似Bert这种预训练模式，被称为DAE LM （Denoising Autoencoding）。

它能比较自然地融入双向语言模型，同时看到被预测单词的上文和下文

在输入侧引入[Mask]标记，导致预训练阶段和Fine-tuning阶段不一致的问题

自然语言处理

ustc 自然语言处理

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！