单项选择题
A.强化学习算法的组合B.强化学习算法与监督学习算法的集成C.强化学习算法与无监督学习算法的集成D.强化学习算法与半监督学习算法的集成
A.一种用于优化策略的方法B.一种用于计算状态值的方法C.一种用于选择动作的规则D.一种用于表示环境模型的数据结构
A.智能体可以随时选择任何动作B.环境的动态会随时间改变C.下一个状态只取决于当前状态和采取的动作D.智能体可以看到完整的状态空间