通过与环境交互,接受奖惩信号不断学习提高的机器学习算法是( )。

admin2021-12-03  27

问题 通过与环境交互,接受奖惩信号不断学习提高的机器学习算法是(    )。

选项 A、动态学习
B、强化学习
C、深度学习
D、迁移学习

答案B

解析 动态学习是在动态环境下,学生以动态的思维方式去发现、组合、交流、创造动态信息,从而理解知识发现规律,构建自身动态知识体系,形成动态思维结构的学习方式。A项错误。强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。B项正确。深度学习的概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。C项错误。迁移学习是指一种学习对另一种学习的影响,或习得的经验对完成其他活动的影响,广泛存在于各种知识、技能与社会规范的学习中。D项错误。故本题选B。
转载请注明原文地址:https://kaotiyun.com/show/o2Sc777K
0

相关试题推荐
最新回复(0)