NLP-2020期末真题 - Guoziren`s World

一、判断(10 * 2`)

LSTM相对RNN不易梯度消失.
感知机不能处理异或是没有合适的激活函数.
sigmoid,网络参数初始值较大有利于避免梯度消失.
attention的记忆力好过LSTM
Transformer位置编码可体现词的相对位置和距离
N-gram中，N越大，效果越好，因此应尽可能用较大的N值
残差网络层次越深，在训练集上的效果越好.
在注意力机制中，Q,K,V三矩阵维度必须都一样，才能进行计算
数据进入激活函数之前进行Normalization，可以有效减轻梯度消失
BERT仅预测被屏蔽的词，因此收敛速度较慢

二、填空(5 * 4`)

I love deep learning 可以分__个根据3-gram
Many likes apple best. today is very hot tfidf(‘apple’)=
transforme使用多头注意力机制的作用
padding mask的作用
xlnet content 和query stream mask区别

三、简答题

哈利波特和(分词)(10`)
a)word2vec为何使用huffman?(12`)

b)skip-gram在小的数据集上迅雷结果也比较好，但是训练速度比cbow慢，对吗？为什么
RNN为何有记忆功能？LSTM中各个门，激活函数为何用sigmoid?能换成Reln吗？(10`)
a)描述注意力机制的工作过程，分析为何注意力机制可以处理长句子(10`)

b)分析sequence mask的作用及实现方法
a)解释双向模型(如Bi-LSTM)中的“自己看自己”的问题(12`)

b)分析BERT中，随机MASK一部分单词的做法的优缺点
搜索引起中，搜”The box is in the pen”，会给出笔在笔盒的结果，分析这个现象的原因(6`)

自然语言处理

ustc 自然语言处理

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

分词上一篇

nlp-期末背诵版下一篇

目录