关于强化学习需要了解的知识

2020/09/28 06:47

自从人工智能这一事物流行以后，也开始流行了很多的新兴技术，比如机器学习、深度学习、强化学习、增强学习等等，这些技术都在人工智能中占据着很大的地位。我们在这篇文章中重点给大家介绍一下关于强化学习需要了解的知识，希望这篇文章能够更好地帮助大家理解强化学习。

为什么强化学习是一个热门的研究课题呢？是因为在人机大战中强化学习在阿尔法狗中大放光彩，也正是这个原因，强化学习越来越受到科研人员的喜爱。那么强化学习是什么呢？强化学习与其它机器学习方法有什么关系呢？

首先，强化学习是一种机器学习方法，强化学习能够使Agent能够在交互式环境中年通过试验并根据自己的行动和经验反馈的错误来进行学习。虽然监督学习和强化学习都使用输入和输出之间的映射关系，但强化学习与监督学习不同，监督学习提供给Agent的反馈是执行任务的正确行为，而强化学习使用奖励和惩罚作为积极和消极行为的信号。

那么强化学习和无监督学习有什么不同呢？如果和无监督学习相比，强化学习在目标方面有所不同。虽然无监督学习的目标是找出数据点之间的相似性和不同性，但是在强化学习中，其目标是找到一个合适的动作模型，能够最大化Agent的累积奖励总额。

那么如何创建一个基本的强化学习的问题呢？这就需要我们先了解一下增强学习中的一些概念，第一就是环境，也就是Agent操作的现实世界。第二就是状态，也就是Agent的现状。第三就是奖励，也就是来自环境的反馈。第四就是策略，也就是将Agent的状态映射到动作的方法。第五就是价值，也就是Agent在特定状态下采取行动所得到的报酬。所以说，为了建立一个最优策略，Agent需要不断探索新的状态，同时最大化其所获奖励累积额度，这也被称作试探和权衡。

而马尔可夫决策过程是用来描述增强学习环境的数学框架，几乎所有的增强学习问题都可以转化为马尔科夫决策过程。马尔科夫决策由一组有限环境状态、每个状态中存在的一组可能行为、一个实值奖励函数以及一个转移模型组成。然而，现实世界环境可能更缺乏对动态环境的任何先验知识。通过这些去试错，一直在每一步中去尝试学习最优的策略，在多次迭代后就得到了整个环境最优的策略。

那么最常用的强化学习算法有哪些呢？Q-learning和SARSA是两种常用的model-free强化学习算法。虽然它们的探索策略不同，但是它们的开发策略却相似。虽然Q-learning是一种离线学习方法，其中Agent根据从另一个策略得到的行动a*学习价值，但SARSA是一个在线学习方法，它从目前的策略中获得当前行动的价值。这两种方法实施起来很简单，但缺乏一般性，因为无法估计出不可见状态的价值。

在这篇文章中我们给大家介绍了很多关于强化学习的知识，通过这些知识我们不难发现，强化学习是一个十分实用的内容，要想学好人工智能就一定不能够忽视对强化学习知识的掌握，最后祝愿大家早日拿下强化学习。