单项选择题
A.引入了单向的Transformer效果得到提升B.使用双向的TransformerC.抛开了下文只用了上文信息D.使用了双向的LSTM做特征提取
A.随机失活单元,防止过拟合B.代价函数C.动态优化器D.交叉熵函数
A.前馈神经网络B.AttentionC.Self-Attention