跳到主要内容

3 篇博文 含有标签「deep learning」

查看所有标签

· 阅读需 7 分钟

Beam Search 是一个思想很简单,但在实际应用中代码实现技巧性很强的算法,不同实现方式的性能可能千差万别。

Stanford CS 224N | Natural Language Processing with Deep Learning 课程作业 A4-NMT with RNNs 中就用到了 Beam Search,它的beam_search函数实现得非常妙,当然,技巧性也很强,读懂它并不容易。

本文就具体讲解其中的实现思路与细节。

· 阅读需 3 分钟

论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

模型由输入层(Embedding),编码层(Transformer-Encoder)和输出层三部分组成。

模型结构

输入层

  • Token Embedding:词向量,第一个 Token 是 [CLS],作为整个句子的表征,可以用来做分类任务
  • Segment Embedding:用来区分两种句子
  • Position Embedding:与 transformer 的 position encoding 不同,这里的 Position Embedding 是自己学习的