单项选择题
A.效果越差B.训练时间越短C.复杂度越低D.效果越好但是训练时间更长
A.N-GramB.Seq2seqC.TransformerD.Bert
A.交叉熵函数B.信息熵函数C.加和求平均D.极大似然估计