数据科学与统计学专题:利用算法成为“最大赢家” 统计分析原理在随机过程决策中的应用研究
开始日期: 2025-08-16
课时安排: 6周在线小组科研+5周论文指导
Prerequisites适合人群
适合年级 (Grade): 高中生/大学生
适合专业 (Major): 对数据科学、统计学、人工智能、强化学习、推荐系统、机器学习、计算机科学感兴趣的学生,需要具备Python、微积分基础(先导课)。
Instructor Introduction导师介绍
Z老师
北京大学副教授
北京大学 QS综排亚洲Top2
周老师 副教授
伊利诺依大学厄巴纳-香槟分校 访问学者
香港大学 访问学者
主持参与多项自然科学基金、国家973等科研项目,发表多本著作
研究方向:大数据存储与处理、基于深度学习的软件开发、智慧城市智能交通
在核心期刊发表论文数十篇,参与自然基金科学项目等多项。曾在香港大学电子商业研究所从事电子商务方面的研究,在美国伊利诺依大学厄巴纳-香槟分校(University of Illinois at Urbana-Champaign)计算机科学系从事数据挖掘与信息检索方面的研究。科研项目涉及搜索引擎系统、智慧城市、智能交通、非结构化信息检索、电子商务、物联网、深度学习、大数据和云计算等方面。担任《Journal of Computer Science and Technology》杂志的审稿人。
Program Background项目背景
强化学习是ChatGPT的关键支撑技术之一。强化学习(Reinforcement Learning, RL),是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习课程主要包括经典算法原理讲解与案例实战两大部分。详细讲解当下主流强化学习算法思想,结合实例解读算法整理应用流程并结合案例展开代码实战。整体风格通俗易懂,适合准备入门强化学习并进阶提升的同学们。
强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。
Program Description项目介绍
该课程将涵盖强化学习对社会和商业的影响。课程分为案例研究和项目开发两个方面。通过案例研究,学生可以更好地了解卓越的强化学习技术,以及如何利用它们来解决广泛的社会和商业问题。该课程将拓宽学生对当前强化学习的最先进水平和未来趋势的理解,以及如何通过创新使用强化学习来解决不同行业的各种需求。
Syllabus项目大纲
强化学习简介:强化学习介绍;强化学习发展历史和基本元素;强化学习算法分类和典型应用;强化学习在ChatGPT中的作用;强化学习开发工具
多臂老虎机问题:问题介绍;探索与利用的平衡;ε-贪婪算法;上置信界算法;汤普森采样算法;算法案例
马尔可夫决策过程和动态规划算法:马尔可夫过程;策略迭代算法;价值迭代算法;OpenAI Gym
时序差分算法和DQN算法:时序差分、Sarsa算法;Q-learing算法;DQN算法;推荐系统案例
策略梯度、Actor-Critic、PPO算法:策略梯度算法;Actor-Critic算法;PPO算法;多智能体强化学习;AlphaZero 实战:从零学下五子棋
项目答辩与点评:学生项目汇报与答辩、导师点评与指导.
Program Outcome项目收获
6周【在线小组科研+全球就业力大师课】+5周论文指导,共126课时
1500字左右的项目报告
优秀学员获得主导师推荐信(8封网推)
项目结业证书
EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等级别索引国际会议全文投递与发表指导或者CNKI检索的英文普刊全文投递与发表指导
上一篇:速抢名额!2026香港春季硕士汇总,部分不限专业背景+英语六级申请!
下一篇:返回列表
直接添加小助手阿星