强化学习的数学原理_西湖大学

播放

认证学习

强化学习的数学原理

开课时间： 2025年02月15日 ~ 2025年06月15日

学时安排： 2-4小时每周

进行至第12周，共18周已有 855 人参加

认证学习

认证成绩和证书

智能问答和解析

视频学习辅助

立即参加

课程详情

课程评价(118)

spContent=这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。如果你对强化学习感兴趣，却不知道如何入门；如果你对强化学习一直有云里雾里、似懂非懂的感觉。相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”！截止2025年2月，课程的配套教材已经在GitHub拿到了4900+星。

这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。如果你对强化学习感兴趣，却不知道如何入门；如果你对强化学习一直有云里雾里、似懂非懂的感觉。相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”！截止2025年2月，课程的配套教材已经在GitHub拿到了4900+星。

—— 课程团队

课程概述

大家好，我是来自西湖大学工学院AI分支的赵世钰。

为什么我要开发这门课和教材？

强化学习是人工智能的核心领域之一。近些年由于其在许多任务上的颠覆性表现，引起了各行各业科研人员的广泛关注。然而许多读者发现强化学习入门并非易事。这是因为强化学习具有较强的数学性和系统性。一方面许多结果和算法背后蕴含着严谨的数学原理，另一方面许多概念和结果相互联系、环环相扣，需要从最开始一点一滴的学习才能确保正确、深入的理解。现在虽然已经有大量的学习资料，但是现有的强化学习的资料要么过于注重直观和文字描述，要么过于数学化需要专业背景。这门课程是由我从零开始设计开发，到2024年已经在西湖大学教授了5次，在此期间积累了大量的经验，最终形成了现在的课程。

这门课程和这本书的特点

这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。

如果你是一个喜欢钻研、喜欢刨根问底的人；
如果你对强化学习一直有云里雾里、似懂非懂的感觉；
如果你不仅需要知道怎么用一个算法，更要理解其背后原理从而创新；

相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”！

书籍PDF、课程视频、PPT全部上线。具体链接可以网上搜索。截至2025年2月，课程的配套教材已经在GitHub拿到了4900+星。

课程内容与基础要求

课程将首先介绍基础概念、贝尔曼公式、贝尔曼最优公式等重要的基础工具。在此基础之上，介绍值迭代、策略迭代等经典算法，进而介绍不需要模型的蒙特卡洛方法、时序差分方法、函数近似方法、策略梯度方法，Actor-critic等方法。

这门课不要求读者有任何强化学习的背景知识。因为它会从最基本的概念开始介绍，并且配上丰富的例子。如果读者已经有了一定的强化学习背景，相信它也能给你带来新的理解。不过，这门课需要读者具有线性代数、高等数学、概率论等基础知识。

最后，期望这门课程能够真正的帮助大家跨过强化学习的门槛，进入到这个有趣而生机勃勃的领域！

课程大纲

【一张图讲完强化学习原理】30分钟了解强化学习名词脉络

Part1-【一张图讲完强化学习原理】30分钟了解强化学习名词脉络

第1课-基本概念

Part1-State, action, policy等

Part2-Reward, return, MDP等

课后测验

第2课-贝尔曼公式

Part1-例子说明return的重要性

Part2-State value的定义

Part3-贝尔曼公式的详细推导

Part4-公式向量形式与求解

Part5-Action value的定义

课后测验

第3课-贝尔曼最优公式

Part1-例子-如何改进策略

Part2-最优策略和公式推导

Part3-公式求解以及最优性

Part4-最优策略的有趣性质

课后测验

第4课-值迭代与策略迭代

Part1-值迭代算法

Part2-策略迭代算法

Part3-截断策略迭代算法

课后测验

第5课-蒙特卡洛方法

Part1-通过例子介绍蒙特卡洛

Part2-MC Basic 算法介绍

Part3-MC Basic 算法例子

Part4-MC Exploring Starts算法

Part5-MC Epsilon-Greedy算法介绍

Part6-MC Epsilon-Greedy算法例子

课后测验

第6课-随机近似与随机梯度下降

Part1-通过例子介绍Iterative mean estimation

Part2-Robbins-Monro算法介绍与例子

Part3-Robbins-Monro算法收敛性及应用

Part4-随机梯度下降算法介绍

Part5-随机梯度下降例子与收敛性

Part6-随机梯度下降有趣的性质

Part7-随机梯度下降对比BGD,MBGD,SGD

课后测验

第7课-时序差分方法

Part1-例子

Part2-TD算法介绍

Part3-TD算法收敛性、与MC的比较

Part4-Sarsa

Part5-Expected Sarsa和n-step Sarsa

Part6-Q-learning介绍、on-policy vs off-policy

Part7-Q-learning伪代码与例子

Part8-TD算法的统一形式和总结

课后测验

第8课-值函数近似

Part1-例子-曲线拟合

Part2-原理-目标函数介绍

Part3-原理-优化算法和函数选择

Part4-原理-示例与分析

Part5-Sarsa和Q-learning

Part6-DQN-基本原理

Part7-DQN-Experience replay

Part8-DQN-代码与例子

课后测验

第9课-策略梯度方法

Part1-该方法的基本思路

Part2-该方法的目标函数1-Average value

Part3-该方法的目标函数2-Average reward

Part4-目标函数的梯度计算

Part5-梯度上升算法和REINFORCE

课后测验

第10课-Actor-Critic方法

Part1-最简单的Actor-Critic(QAC)

Part2-Advantage Actor-Critic(A2C)

Part3-重要性采样和Off-policy Actor-Critic

Part4-Deterministic Actor-Critic(DPG)

Part5-再见

课后测验

展开全部

预备知识

线性代数、概率与统计、随机过程

参考资料

赵世钰，强化学习的数学原理（英文版），清华大学出版社和Springer出版社，2024年6月

1 位授课老师

赵世钰

特聘研究员

赵世钰

友情链接

关注我们

关于我们

赵世钰

推荐课程

计组期末冲刺-9小时突击计算机组成原理

IT大成老师

数据结构与算法期末冲刺-5小时突击数据结构与算法

小谢老师01

计算机网络期末冲刺-4小时突击计算机网络

王道论坛

6小时C++期末冲刺-6小时突击 C++面向对象编程

小谢老师01

友情链接

关注我们

关于我们