hi,小慕
课程

中国大学MOOC,为你提供一流的大学教育

hi,小mooc
强化学习的数学原理
第1次开课
开课时间: 2024年02月26日 ~ 2024年05月20日
学时安排: 2小时每天
当前开课已结束 已有 1836 人参加
立即自学
往期不提供结课证书,想参加下学期课程, 点击这里预约>>
课程详情
课程评价(33)
spContent=这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。如果你对强化学习感兴趣,却不知道如何入门;如果你对强化学习一直有云里雾里、似懂非懂的感觉。相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”!截止2023年底,课程的配套教材已经在GitHub拿到了1.7K+星。
这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。如果你对强化学习感兴趣,却不知道如何入门;如果你对强化学习一直有云里雾里、似懂非懂的感觉。相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”!截止2023年底,课程的配套教材已经在GitHub拿到了1.7K+星。
—— 课程团队
课程概述

 大家好,我是来自西湖大学工学院AI分支的赵世钰。


  • 为什么我要开发这门课和教材?


强化学习是人工智能的核心领域之一。近些年由于其在许多任务上的颠覆性表现,引起了各行各业科研人员的广泛关注。这是因为强化学习具有较强的数学性和系统性。一方面许多结果和算法背后蕴含着严谨的数学原理,另一方面许多概念和结果相互联系、环环相扣,需要从最开始一点一滴的学习才能确保正确、深入的理解。现在虽然已经有大量的学习资料,但是现有的强化学习的资料要么过于注重直观和文字描述,要么过于数学化需要专业背景。这门课程是由我从零开始设计开发,到2023年已经在西湖大学已经教授了5次,在此期间积累了大量的经验,最终形成了现在的课程。


  • 这门课程和这本书的特点


这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。

如果你是一个喜欢钻研、喜欢刨根问底的人;

如果你对强化学习一直有云里雾里、似懂非懂的感觉;

如果你不仅需要知道怎么用一个算法,更要理解其背后原理从而创新;

相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”!

配套教材即将于2024年初由清华大学出版社和Springer Nature正式出版,国内外同步发行。

书籍PDF、课程视频、PPT全部上线。具体链接可以网上搜索。

截至2023年底,课程的配套教材已经在GitHub拿到了1.7K+星。


  • 课程内容与需要基础


这门课不要求读者有任何强化学习的背景知识。因为它会从最基本的概念开始介绍,并且配上丰富的例子。

如果读者已经有了一定的强化学习背景,相信它也能给你带来新的理解。


课程将首先介绍基础概念、贝尔曼公式、贝尔曼最优公式等重要的基础工具。在此基础之上,介绍值迭代、策略迭代等经典算法,进而介绍不需要模型的蒙特卡洛方法、时序差分方法、函数近似方法、策略梯度方法,Actor-critic等方法。


期望这门课程能够真正的帮助大家跨过强化学习的门槛,进入到这个有趣而生机勃勃的领域!

课程大纲

第0课-【一张图讲完强化学习原理】30分钟了解强化学习名词脉络

Part1-【一张图讲完强化学习原理】 30分钟了解名词脉络


第1课-基本概念

Part1-State, action, policy等

Part2-Reward, return, MDP等


第2课-贝尔曼公式

Part1-例子说明return的重要性 

Part2-State value的定义 

Part3-贝尔曼公式的详细推导 

Part4-公式向量形式与求解 

Part5-Action value的定义


第3课-贝尔曼最优公式

Part1-例子-如何改进策略 

Part2-最优策略和公式推导 

Part3-公式求解以及最优性 

Part4-最优策略的有趣性质


第4课-值迭代与策略迭代

Part1-值迭代算法 

Part2-策略迭代算法 

Part3-截断策略迭代算法


第5课-蒙特卡洛方法

Part1-通过例子介绍蒙特卡洛 

Part2-MC Basic 算法介绍

Part3-MC Basic 算法例子 

Part4-MC Exploring Starts算法 

Part5-MC Epsilon-Greedy算法介绍 

Part6-MC Epsilon-Greedy算法例子


第6课-随机近似与随机梯度下降

Part1-通过例子介绍Iterative mean estimation

Part2-Robbins-Monro算法介绍与例子 

Part3-Robbins-Monro算法收敛性及应用 

Part4-随机梯度下降算法介绍 

Part5-随机梯度下降例子与收敛性 

Part6-随机梯度下降有趣的性质 

Part7-随机梯度下降对比BGD,MBGD,SGD


第7课-时序差分方法

Part1-例子 

Part2-TD算法介绍 

Part3-TD算法收敛性、与MC的比较 

Part4-Sarsa 

Part5-Expected Sarsa和n-step Sarsa 

Part6-Q-learning介绍、on-policy vs off-policy 

Part7-Q-learning伪代码与例子 

Part8-TD算法的统一形式和总结


第8课-值函数近似

Part1-例子-曲线拟合 

Part2-原理-目标函数介绍 

Part3-原理-优化算法和函数选择 

Part4-原理-示例与分析 

Part5-Sarsa和Q-learning 

Part6-DQN-基本原理

Part7-DQN-Experience replay 

Part8-DQN-代码与例子


第9课-策略梯度方法

Part1-该方法的基本思路 

Part2-该方法的目标函数1-Average value 

Part3-该方法的目标函数2-Average reward 

Part4-目标函数的梯度计算 

Part5-梯度上升算法和REINFORCE


第10课-Actor-Critic方法

Part1-最简单的Actor-Critic(QAC) 

Part2-Advantage Actor-Critic(A2C) 

Part3-重要性采样和Off-policy Actor-Critic 

Part4-Deterministic Actor-Critic(DPG)

Part5-再见


期末考试

展开全部
预备知识

 线性代数、概率与统计、随机过程

证书要求

为积极响应国家低碳环保政策, 2021年秋季学期开始,中国大学MOOC平台将取消纸质版的认证证书,仅提供电子版的认证证书服务,证书申请方式和流程不变。

 

电子版认证证书支持查询验证,可通过扫描证书上的二维码进行有效性查询,或者访问 https://www.icourse163.org/verify,通过证书编号进行查询。学生可在“个人中心-证书-查看证书”页面自行下载、打印电子版认证证书。

 

完成课程教学内容学习和考核,成绩达到课程考核标准的学生(每门课程的考核标准不同,详见课程内的评分标准),具备申请认证证书资格,可在证书申请开放期间(以申请页面显示的时间为准),完成在线付费申请。

 

认证证书申请注意事项:

1. 根据国家相关法律法规要求,认证证书申请时要求进行实名认证,请保证所提交的实名认证信息真实完整有效。

2. 完成实名认证并支付后,系统将自动生成并发送电子版认证证书。电子版认证证书生成后不支持退费。


参考资料

赵世钰,强化学习的数学原理(英文版),清华大学出版社和Springer出版社,2024年初

西湖大学
1 位授课老师
赵世钰

赵世钰

特聘研究员

推荐课程

【DeepSeek适用】小白玩转AI大模型应用开发

林粒粒

214人参加

小白玩转 Python 数据分析

林粒粒

78人参加
下载
下载

下载App