8 篇博文 含有标签「NLP」
查看所有标签哈工大 SCIR 实验室笔试小记
昨天参加了哈工大 SCIR 实验室的 2024 研究生招生笔试。试题很基础,但题量很大,一个半小时要完成一道逻辑题,一道文献翻译题,两道数学题,两道神经网络相关知识的题,两道编程题。反正我没做完。
本文给出两道数学题和两道编程题的题解,权当复习巩固基础。
我用 2 万条聊天记录,创造了我的数字生命
本文仍在持续更新中!
最近有个奇奇怪怪的想法:如果用我的所有社交软件的聊天记录来训练像 ChatGPT 这样的大语言模型,那么它能不能学会我的说话风格,甚至拥有我的记忆呢?
说干就干,我从我的 QQ 导出所有聊天记录,并构造出了两万条对话数据,使用 P-Tune v2 微调清华大学开源的 ChatGLM-6B 模型,创造了我的数字生命!
项目已开源:kcxain/CloneLLM: Clone Yourself by Fine-tuning a Large Language Model | 用大语言模型创造你的数字生命! (github.com)
[代码解读] BERT句子表征能力的改进:Condenser
Paper: Condenser: a Pre-training Architecture for Dense Retrieval
Code: https://github.com/luyug/Condenser
Publication: EMNLP 2021
最近在忙的项目需要一个好的方法来表征句子,于是就读到了这篇论文。这篇论文的 idea 和代码都不复杂,基本上就是对 Bert 的一个简单改造。我写本文的目的是记录学习一下它改造 bert 的代码技巧。
赛尔笔记 | 基于主观知识的任务型对话建模
本文最初投稿在哈工大 SCIR 公众号上
作者:柯昌鑫、孙楚芮、马龙轩
1 引言
对话系统技术挑战赛 DSTC(The Dialog System Technology Challenge)是对话技术领域的顶级赛事,到 2023 年已举办至第 11 届。
DSTC11 共设有 5 个赛道,其中刚刚结束的 track5 的主题是基于主观知识的任务型对话建模。本赛道包括三个子任务:
Turn Detection:判断当前的对话是否需要外部知识
Knowledge Selection:在非结构化主观知识文档中选出相关的知识候选
Response Generation:根据第二步的知识候选生成回复
我们参加了 DSTC11-track5 并在所有 14 个参赛队伍中排名第三(客观指标),其中 Turn Detection 子任务排名第一。本文将介绍 track 5 相关内容以及我们在竞赛中尝试的方法。
BERT 家族大全解——RoBERTa, DeBERTa
详解 Beam Search 代码实现
Beam Search 是一个思想很简单,但在实际应用中代码实现技巧性很强的算法,不同实现方式的性能可能千差万别。
在 Stanford CS 224N | Natural Language Processing with Deep Learning 课程作业 A4-NMT with RNNs 中就用到了 Beam Search,它的beam_search
函数实现得非常妙,当然,技巧性也很强,读懂它并不容易。
本文就具体讲解其中的实现思路与细节。
BERT 原理与代码解析
论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
模型由输入层(Embedding),编码层(Transformer-Encoder)和输出层三部分组成。
模型结构
输入层
- Token Embedding:词向量,第一个 Token 是 [CLS],作为整个句子的表征,可以用来做分类任务
- Segment Embedding:用来区分两种句子
- Position Embedding:与 transformer 的 position encoding 不同,这里的 Position Embedding 是自己学习的