NLP-2020期末真题

一、判断(10 * 2`)

  1. LSTM相对RNN不易梯度消失.
  2. 感知机不能处理异或是没有合适的激活函数.
  3. sigmoid,网络参数初始值较大有利于避免梯度消失.
  4. attention的记忆力好过LSTM
  5. Transformer位置编码可体现词的相对位置和距离
  6. N-gram中,N越大,效果越好,因此应尽可能用较大的N值
  7. 残差网络层次越深,在训练集上的效果越好.
  8. 在注意力机制中,Q,K,V三矩阵维度必须都一样,才能进行计算
  9. 数据进入激活函数之前进行Normalization,可以有效减轻梯度消失
  10. BERT仅预测被屏蔽的词,因此收敛速度较慢

二、填空(5 * 4`)

  1. I love deep learning 可以分__个 根据3-gram
  2. Many likes apple best. today is very hot tfidf(‘apple’)=
  3. transforme使用多头注意力机制的作用
  4. padding mask的作用
  5. xlnet content 和query stream mask区别

三、简答题

  1. 哈利波特和(分词)(10`)

  2. a)word2vec为何使用huffman?(12`)

    b)skip-gram在小的数据集上迅雷结果也比较好,但是训练速度比cbow慢,对吗?为什么

  3. RNN为何有记忆功能?LSTM中各个门,激活函数为何用sigmoid?能换成Reln吗?(10`)

  4. a)描述注意力机制的工作过程,分析为何注意力机制可以处理长句子(10`)

    b)分析sequence mask的作用及实现方法

  5. a)解释双向模型(如Bi-LSTM)中的“自己看自己”的问题(12`)

    b)分析BERT中,随机MASK一部分单词的做法的优缺点

  6. 搜索引起中,搜”The box is in the pen”,会给出笔在笔盒的结果,分析这个现象的原因(6`)


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!