跳到主要内容

8 篇博文 含有标签「NLP」

查看所有标签

· 阅读需 5 分钟

昨天参加了哈工大 SCIR 实验室的 2024 研究生招生笔试。试题很基础,但题量很大,一个半小时要完成一道逻辑题,一道文献翻译题,两道数学题,两道神经网络相关知识的题,两道编程题。反正我没做完。

本文给出两道数学题和两道编程题的题解,权当复习巩固基础。

· 阅读需 5 分钟

本文仍在持续更新中!

最近有个奇奇怪怪的想法:如果用我的所有社交软件的聊天记录来训练像 ChatGPT 这样的大语言模型,那么它能不能学会我的说话风格,甚至拥有我的记忆呢?

说干就干,我从我的 QQ 导出所有聊天记录,并构造出了两万条对话数据,使用 P-Tune v2 微调清华大学开源的 ChatGLM-6B 模型,创造了我的数字生命!

项目已开源:kcxain/CloneLLM: Clone Yourself by Fine-tuning a Large Language Model | 用大语言模型创造你的数字生命! (github.com)

· 阅读需 5 分钟

Paper: Condenser: a Pre-training Architecture for Dense Retrieval

Code: https://github.com/luyug/Condenser

Publication: EMNLP 2021

最近在忙的项目需要一个好的方法来表征句子,于是就读到了这篇论文。这篇论文的 idea 和代码都不复杂,基本上就是对 Bert 的一个简单改造。我写本文的目的是记录学习一下它改造 bert 的代码技巧。

· 阅读需 28 分钟

本文最初投稿在哈工大 SCIR 公众号上

作者:柯昌鑫、孙楚芮、马龙轩

1 引言

对话系统技术挑战赛 DSTC(The Dialog System Technology Challenge)是对话技术领域的顶级赛事,到 2023 年已举办至第 11 届。

DSTC11 共设有 5 个赛道,其中刚刚结束的 track5 的主题是基于主观知识的任务型对话建模。本赛道包括三个子任务:

  • Turn Detection:判断当前的对话是否需要外部知识

  • Knowledge Selection:在非结构化主观知识文档中选出相关的知识候选

  • Response Generation:根据第二步的知识候选生成回复

我们参加了 DSTC11-track5 并在所有 14 个参赛队伍中排名第三(客观指标),其中 Turn Detection 子任务排名第一。本文将介绍 track 5 相关内容以及我们在竞赛中尝试的方法。

· 阅读需 7 分钟

Beam Search 是一个思想很简单,但在实际应用中代码实现技巧性很强的算法,不同实现方式的性能可能千差万别。

Stanford CS 224N | Natural Language Processing with Deep Learning 课程作业 A4-NMT with RNNs 中就用到了 Beam Search,它的beam_search函数实现得非常妙,当然,技巧性也很强,读懂它并不容易。

本文就具体讲解其中的实现思路与细节。

· 阅读需 3 分钟

论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

模型由输入层(Embedding),编码层(Transformer-Encoder)和输出层三部分组成。

模型结构

输入层

  • Token Embedding:词向量,第一个 Token 是 [CLS],作为整个句子的表征,可以用来做分类任务
  • Segment Embedding:用来区分两种句子
  • Position Embedding:与 transformer 的 position encoding 不同,这里的 Position Embedding 是自己学习的