对于没有目标位置信息的问题,XLNet 引入了Two-Stream Self-Attention:
- Query 流就为了预测当前词,只包含位置信息,不包含词的内容信息;
- Content 流主要为 Query 流提供其它词的内容向量,包含位置信息和内容信息;
Transformer-XL中使用了很多有效的trick,使得Transformer-XL做到了AR模型中的state-of-the-art。本文中也借鉴使用了相对位置编码和片段复发机制分别解决绝对位置编码无法处理的2个以上文本对应输入的task和算法效率问题,详见下一篇Transformer-XL文章。
实验
具体实验结果见论文
讨论与总结
- 与BERT及GPT的区别是什么?
- XLNET和Bert的区别:与AR语言模型不同,BERT被分类为自动编码器(AE)语言模型。AE语言模型旨在从损坏的输入中重建原始数据。像BERT,原始文本中的一定比例token会被mask掉,然后训练模型从被mask掉的文本中重现原来的文本。XLNet本质上是用自回归语言模型来同时编码双向语义信息的思路,可以克服BERT存在的依赖缺失和训练/微调不一致的问题。
- XLNET和GPT的区别:虽然都属于AE语言模型,但XLNET同时考虑双向的文本输入,GPT只考虑了单向的文本输入,即只能利用前面的数据预测后面的数据或通过后面的数据预测前面的数据。
- XLNet的创新点和不足是什么?
- 创新点:
- XLNET是基于自回模型上的,但是它不只是向前或向后,而是双方的排列来获取依赖信息,避免单向信息流。
- 作为一种广义的AR语言模型,XLNet不依赖于数据破坏。避免mask丢失信息。避免与训练与微调的差异弊端。
- 融合了transformerXL的方法。
- 不足:
- XLNet在Transformer XL的基础上引入了随机排列和双流注意力机制,因此使得整个模型变得非常复杂
- XLNet训练总共使用了126GB纯文本数据,而BERT训练只使用了13GB的数据。所以虽说最终成绩XLNet超过了BERT,但究竟是因为数据的帮助,还是模型好不得而知。
2022-2023, ironartisan Revision
dcd9b5e