3 篇博文含有标签「deep learning」

BERT 家族大全解——RoBERTa, DeBERTa

2022年11月12日 · 阅读需 2 分钟

2022年9月1日 · 阅读需 7 分钟

Beam Search 是一个思想很简单，但在实际应用中代码实现技巧性很强的算法，不同实现方式的性能可能千差万别。

在 Stanford CS 224N | Natural Language Processing with Deep Learning 课程作业 A4-NMT with RNNs 中就用到了 Beam Search，它的beam_search函数实现得非常妙，当然，技巧性也很强，读懂它并不容易。

本文就具体讲解其中的实现思路与细节。

2022年8月4日 · 阅读需 3 分钟

模型由输入层（Embedding），编码层（Transformer-Encoder）和输出层三部分组成。

Token Embedding：词向量，第一个 Token 是 [CLS]，作为整个句子的表征，可以用来做分类任务
Segment Embedding：用来区分两种句子
Position Embedding：与 transformer 的 position encoding 不同，这里的 Position Embedding 是自己学习的