BERT 家族大全解——RoBERTa, DeBERTa

2022年11月12日 · 阅读需 2 分钟

本文将对 BERT 及其变种模型进行全面的介绍和分析，包括 RoBERTa、DeBERTa、BART 等，希望能够为读者提供一个清晰的概览和参考。

BERT

改进点：

BERT 在预训练时对数据进行 mask，一旦处理好便不会再变，这便是静态掩码。RoBERTa 所谓的动态掩码就是每次输入时都随机进行 mask，这样，在大量数据不断输入的过程中，模型会逐渐适应不同的掩码策略，学习不同的语言表征。

作者对比了四种输入模式：

SEGMENT-PAIR+NSP：BERT 使用的方法，每个输入有一对段落，段落之间用 [SEP] 分割，并且计算 NSP 损失
SENTENCE-PAIR+NSP：将 segment 替换为 sentence
FULL-SENTENCES：如果输入的最大长度为512，那么就是尽量选择 512 长度的连续句子。如果跨 document了，就在中间加上一个特殊分隔符，不使用 NSP 损失
DOC-SENTENCES：和 FULL-SENTENCES 一样，只是不能跨文档

实验结果：