单项选择题
A.一种用于优化策略的方法B.一种用于计算状态值的方法C.一种用于选择动作的规则D.一种用于表示环境模型的数据结构
A.智能体可以随时选择任何动作B.环境的动态会随时间改变C.下一个状态只取决于当前状态和采取的动作D.智能体可以看到完整的状态空间
A.图像与图像叠加B.样本与样本叠加C.特征与特征叠加D.标签与标签叠加