单项选择题
A.输入层之前的层B.输出层之前的层C.输入层和输出层之间的层D.输出层之后的层
A.通过跳跃连接缓解梯度消失问题B.通过增加深度提高性能C.通过减少参数数量防止过拟合D.通过改变激活函数提高性能
A.BERT 考虑了单词之间的顺序关系。B.ERT 是一个静态的词嵌入模型。C.BERT 不能用于下游任务。D.BERT 不依赖于预训练阶段。