单项选择题
A.将Attention机制发挥到了机制,完全摒弃了CNN/RNNB.更加深层的使用了RNN系列的模型C.使用了LSTM作为了特征提取D.模型中的encoder层和decoder层的结构完全一样
A.将decoder端的信息压缩到了一个固定向量中B.将encoder端的信息压缩到了一个固定的向量中C.没有用到神经网络D.没有任何缺点
A.增加模型的复杂度B.增加模型的运行时间C.保证了Transformer可以注意到不同的子空间,捕捉更丰富的信息D.无实际性的意义