判断题

seq2seq和Transformer的模型结构是完全不相同。

【参考答案】

错误

<上一题目录下一题>

热门试题

判断题

BERT可以处理的最长序列是768。

判断题

Transformer的encoder中先进行前馈神经网络，然后将处理后的数据输入到Self-Attention中。

相关试题