跳到主要内容

8 篇博文含有标签「NLP」

查看所有标签

LLaMA代码解读

2024年1月26日 · 阅读需 1 分钟

代码地址：transformers/src/transformers/models/llama/modeling_llama.py at main · huggingface/transformers (github.com)

哈工大 SCIR 实验室笔试小记

2023年6月26日 · 阅读需 5 分钟

昨天参加了哈工大 SCIR 实验室的 2024 研究生招生笔试。试题很基础，但题量很大，一个半小时要完成一道逻辑题，一道文献翻译题，两道数学题，两道神经网络相关知识的题，两道编程题。反正我没做完。

本文给出两道数学题和两道编程题的题解，权当复习巩固基础。

我用 2 万条聊天记录，创造了我的数字生命

2023年5月24日 · 阅读需 5 分钟

本文仍在持续更新中！

最近有个奇奇怪怪的想法：如果用我的所有社交软件的聊天记录来训练像 ChatGPT 这样的大语言模型，那么它能不能学会我的说话风格，甚至拥有我的记忆呢？

说干就干，我从我的 QQ 导出所有聊天记录，并构造出了两万条对话数据，使用 P-Tune v2 微调清华大学开源的 ChatGLM-6B 模型，创造了我的数字生命！

项目已开源：kcxain/CloneLLM: Clone Yourself by Fine-tuning a Large Language Model | 用大语言模型创造你的数字生命！ (github.com)

[代码解读] BERT句子表征能力的改进：Condenser

2023年5月18日 · 阅读需 5 分钟

Paper: Condenser: a Pre-training Architecture for Dense Retrieval
Code: https://github.com/luyug/Condenser
Publication: EMNLP 2021

最近在忙的项目需要一个好的方法来表征句子，于是就读到了这篇论文。这篇论文的 idea 和代码都不复杂，基本上就是对 Bert 的一个简单改造。我写本文的目的是记录学习一下它改造 bert 的代码技巧。

赛尔笔记 | 基于主观知识的任务型对话建模

2023年4月26日 · 阅读需 28 分钟

本文最初投稿在哈工大 SCIR 公众号上
作者：柯昌鑫、孙楚芮、马龙轩

1 引言

对话系统技术挑战赛 DSTC（The Dialog System Technology Challenge）是对话技术领域的顶级赛事，到 2023 年已举办至第 11 届。

DSTC11 共设有 5 个赛道，其中刚刚结束的 track5 的主题是基于主观知识的任务型对话建模。本赛道包括三个子任务：

Turn Detection：判断当前的对话是否需要外部知识
Knowledge Selection：在非结构化主观知识文档中选出相关的知识候选
Response Generation：根据第二步的知识候选生成回复

我们参加了 DSTC11-track5 并在所有 14 个参赛队伍中排名第三（客观指标），其中 Turn Detection 子任务排名第一。本文将介绍 track 5 相关内容以及我们在竞赛中尝试的方法。

BERT 家族大全解——RoBERTa, DeBERTa

2022年11月12日 · 阅读需 2 分钟

详解 Beam Search 代码实现

2022年9月1日 · 阅读需 7 分钟

Beam Search 是一个思想很简单，但在实际应用中代码实现技巧性很强的算法，不同实现方式的性能可能千差万别。

在 Stanford CS 224N | Natural Language Processing with Deep Learning 课程作业 A4-NMT with RNNs 中就用到了 Beam Search，它的beam_search函数实现得非常妙，当然，技巧性也很强，读懂它并不容易。

本文就具体讲解其中的实现思路与细节。

BERT 原理与代码解析

2022年8月4日 · 阅读需 3 分钟

论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

模型由输入层（Embedding），编码层（Transformer-Encoder）和输出层三部分组成。

模型结构

输入层

Token Embedding：词向量，第一个 Token 是 [CLS]，作为整个句子的表征，可以用来做分类任务
Segment Embedding：用来区分两种句子
Position Embedding：与 transformer 的 position encoding 不同，这里的 Position Embedding 是自己学习的