单项选择题
A.通过跳跃连接缓解梯度消失问题B.通过增加深度提高性能C.通过减少参数数量防止过拟合D.通过改变激活函数提高性能
A.BERT 考虑了单词之间的顺序关系。B.ERT 是一个静态的词嵌入模型。C.BERT 不能用于下游任务。D.BERT 不依赖于预训练阶段。
A.减少学习过程中的方差B.加速模型的收敛速度C.优化策略的稳定性D.提高策略的探索能力