强化学习——Q-Learning算法原理

流萤点火 2024-07-16 原文

一、Q-Learning ：异策略时序差分控制

从决策方式来看，强化学习可以分为基于策略的方法(policy-based)和基于价值的方法(value-based)。基于策略的方法直接对策略进行优化，使制定的的策略能够获得最大的奖励。基于价值的强化学习方法中，智能体不需要制定显式的策略，它维护一个价值表格或价值函数，通过这个价值表格或价值函数来选取价值最大的动作。
Q-Learning 算法就是一种value-based的强化学习算法。

二、算法思想：

Q(s,a)是状态价值函数，表示在某一具体初始状态s和动作a的情况下，对未来收益的期望值。
Q-Learning算法维护一个Q-table，Q-table记录了不同状态下s(s∈S)，采取不同动作a(a∈A)的所获得的Q值。

Q-table	a1	a2	a3
s1	Q(s1,a1)	Q(s1,a2)	Q(s1,a3)
s2	Q(s2,a1)	Q(s2,a2)	Q(s2,a3)
s3	Q(s3,a1)	Q(s3,a2)	Q(s3,a3)
…

探索环境之前，初始化Q-table，当agent与环境交互的过程中，算法利用贝尔曼方程（ballman equation）来迭代更新Q(s,a)，每一轮结束后就生成了一个新的Q-table。agent不断与环境进行交互，不断更新这个表格，使其最终能收敛。最终，agent就能通过表格判断在某个转态s下采取什么动作，才能获得最大的Q值。

三、更新过程

更新方法:
$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1}+ \gamma \max_aQ(s_{t+1},a) - Q(s_t,a_t) ]$

${\color{Red} Q(s_t,a_t)}$ 是在状态 $s_t$ 下采取动作 $a_t$ 的长期回报，是一个估计Q值

${\color{Red} r_{t+1}}$ 是在状态 $s_t$ 下执行动作 $a_t$ 得到的回报reward

${\color{Red} \max_aQ(s_{t+1},a)}$ 指的是在状态 $s_{t+1}$ 下所获得的最大Q值，直接看Q-table，取它的最大化的值。 $\gamma$ 是折扣因子，含义是看重近期收益，弱化远期收益，同时也保证Q函数收敛。

${\color{Red} (r_{t+1}+ \gamma \max_aQ(s_{t+1},a)}$ 即为目标值，就是时序差分目标，是 $Q(s_t,a_t)$ 想要逼近的目标。 $\alpha$ 是学习率，衡量更新的幅度。

当目标值和估计值的差值趋于0的时候，Q(s,a)就不再继续变化，Q 表趋于稳定，说明得到了一个收敛的结果。这就是算法想要达到的效果。

注意： ${\color{Red} \max_aQ(s_{t+1},a)}$ 所对应的动作不一定是下一步会执行的实际动作！
这里引出 ${\color{Red} \varepsilon-greedy}$ ，即 $\varepsilon-$ 贪心算法。
在智能体探索过程中，执行的动作采用 ${\color{Red} \varepsilon-greedy}$ 策略，是权衡exploitation-exploration(利用和探索)的超参数。

exploration：探索环境，通过尝试不同的动作来得到最佳策略（带来最大奖励的策略）
exploitation：不去尝试新的动作，利用已知的可以带来很大奖励的动作。Q-Learning算法中，就是根据Q-table选择当前状态下能使Q值最大的动作。

在刚开始的时候，智能体不知道采取某个动作后会发生什么，所以只能通过试错去探索。利用是指直接采取已知的可以带来很好奖励的动作。这里面临一个权衡问题，即怎么通过牺牲一些短期的奖励来理解动作，从而学习到更好的策略。因此，提出 $\varepsilon-greedy$ ， $\varepsilon$ 就是权衡这两方面的超参数。

这篇博客https://blog.csdn.net/zhm2229/article/details/99351831对这部分的理解讲的很好，在此引用一下：

做exploitation和exploration的目的是获得一种长期收益最高的策略，这个过程可能对short-term reward有损失。如果exploitation太多，那么模型比较容易陷入局部最优，但是exploration太多，模型收敛速度太慢。这就是exploitation-exploration权衡。

比如我们设 $\varepsilon$ =0.9，随机化一个[0,1]的值，如果它小于 $\varepsilon$ ，则进行exploration，随机选择动作；如果它大于 $\varepsilon$ ，则进行exploitation，选择Q value最大的动作。
在训练过程中， $\varepsilon$ 在刚开始的时候会被设得比较大，让agent充分探索，然后 $\varepsilon$ 逐步减少，agent会开始慢慢选择Q value最大的动作

三、伪代码

图源于：百度飞桨AlStudio

参考：
[1] 王琦.强化学习教程[M]
[2] https://blog.csdn.net/zhm2229/article/details/99351831

有关强化学习——Q-Learning算法原理的更多相关文章

区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG
机器学习——时间序列ARIMA模型(四)：自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2
文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式：ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk=Var(yt)Cov(yt,yt−k)其中分子用于求协方差矩阵，分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型，求出其滞
100个python算法超详细讲解：画直线 - 2
1．问题描述使用Python的turtle（海龟绘图）模块提供的函数绘制直线。2．问题分析一幅复杂的图形通常都可以由点、直线、三角形、矩形、平行四边形、圆、椭圆和圆弧等基本图形组成。其中的三角形、矩形、平行四边形又可以由直线组成，而直线又是由两个点确定的。我们使用Python的turtle模块所提供的函数来绘制直线。在使用之前我们先介绍一下turtle模块的相关知识点。turtle模块提供面向对象和面向过程两种形式的海龟绘图基本组件。面向对象的接口类如下：1）TurtleScreen类：定义图形窗口作为绘图海龟的运动场。它的构造器需要一个tkinter.Canvas或ScrolledCanva
Unity Shader 学习笔记（5）Shader变体、Shader属性定义技巧、自定义材质面板 - 2
写在之前Shader变体、Shader属性定义技巧、自定义材质面板，这三个知识点任何一个单拿出来都是一套知识体系，不能一概而论，本文章目的在于将学习和实际工作中遇见的问题进行总结，类似于网络笔记之用，方便后续回顾查看，如有以偏概全、不祥不尽之处，还望海涵。1、Shader变体先看一段代码......Properties{ [KeywordEnum(on,off)]USL_USE_COL("IsUseColorMixTex?",int)=0 [Toggle(IS_RED_ON)]_IsRed("IsRed?",int)=0}......//中间省略，后续会有完整代码 #pragmamulti_c