判断题

seq2seq和Transformer的模型结构是完全不相同。

【参考答案】

错误
<上一题 目录 下一题>
热门 试题

判断题
BERT可以处理的最长序列是768。
判断题
Transformer的encoder中先进行前馈神经网络,然后将处理后的数据输入到Self-Attention中。
相关试题
  • NLP中做多分类任务可以使用()激活函数。
  • 相比机器学习,深度学习在处理数据的时,在...
  • 自然语言处理(NLP)中为什么要进行文本表...
  • NLP中常用的语言模型是为了求得什么()
  • 深度学习模型在训练的时候需要达到哪些基本...