单项选择题
A.源文本嵌入层及其位置编码器B.多头注意力子层C.前馈全连接子层D.线性层和softmax层
A.捕捉序列的位置信息B.学习非线性关系C.进行序列的降维D.进行序列的上采样
A.减少计算复杂度B.避免梯度消失或梯度爆炸C.增加模型的深度D.减少模型的参数