NLP-2020期末真题
一、判断(10 * 2`)
- LSTM相对RNN不易梯度消失.
- 感知机不能处理异或是没有合适的激活函数.
- sigmoid,网络参数初始值较大有利于避免梯度消失.
- attention的记忆力好过LSTM
- Transformer位置编码可体现词的相对位置和距离
- N-gram中,N越大,效果越好,因此应尽可能用较大的N值
- 残差网络层次越深,在训练集上的效果越好.
- 在注意力机制中,Q,K,V三矩阵维度必须都一样,才能进行计算
- 数据进入激活函数之前进行Normalization,可以有效减轻梯度消失
- BERT仅预测被屏蔽的词,因此收敛速度较慢
二、填空(5 * 4`)
- I love deep learning 可以分__个 根据3-gram
- Many likes apple best. today is very hot tfidf(‘apple’)=
- transforme使用多头注意力机制的作用
- padding mask的作用
- xlnet content 和query stream mask区别
三、简答题
哈利波特和(分词)(10`)
a)word2vec为何使用huffman?(12`)
b)skip-gram在小的数据集上迅雷结果也比较好,但是训练速度比cbow慢,对吗?为什么
RNN为何有记忆功能?LSTM中各个门,激活函数为何用sigmoid?能换成Reln吗?(10`)
a)描述注意力机制的工作过程,分析为何注意力机制可以处理长句子(10`)
b)分析sequence mask的作用及实现方法
a)解释双向模型(如Bi-LSTM)中的“自己看自己”的问题(12`)
b)分析BERT中,随机MASK一部分单词的做法的优缺点
搜索引起中,搜”The box is in the pen”,会给出笔在笔盒的结果,分析这个现象的原因(6`)
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!