蒋宝尚作者

伯克利CS294深度强化学习课程资料放出(PPT+录像)

前段时间,文摘菌给大家推出了一门吴恩达主讲的深度学习课程CS230,并给出了课程的全套PPT和学生project和poster。今天再为大家推荐一门神课——伯克利CS294。

现在这门课程的注册通道已经关闭,如果没有及时报名的同学,可以在下面的网址提交你的问题。

https://www.reddit.com/r/berkeleydeeprlcourse/

讲课老师

没有条件去现场听课的同学,也没关系,这门课提供直播和录播,想提前预习的同学,老师也提供了讲课的PPT和家庭作业。

PPT和作业链接:

http://rail.eecs.berkeley.edu/deeprlcourse/resources/#prev-off

课程时间安排

预备知识

要求学生修习过CS189课程,并且对强化学习、数值优化和机器学习有一定的了解。

技术支持

本门课程提供Pizza,通过Pizza学生可以讨论问题,一些作业要求的发布也会在Pizza上面公布。如果你是伯克利大学的学生,还没有加入Pizza,可以发邮件给sgr@berkeley.edu说明情况。如果不是伯克利大学的学生,这门课程也在reddit上给大家提供了一个讨论问题的论坛。

Pizza

https://piazza.com/

论坛地址:

reddit.com/r/berkeleydeeprlcourse/

提供的材料

课程视频

提供现场直播的讲座以及录像。 目前视频提供了8月22日到9月7日共6个视频。

直播地址:

https://www.youtube.com/c/CalESG/live

录播地址:

https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR-j5A1mkxK26gh_qg37

注:本课程不是作为在线课程提供的,视频仅供您个人信息和娱乐用途。不属于任何课程要求或学位课程。

作业

课程将会为大家提供五个作业,每个作业会以PDF的形式提供,并在GitHub上提供作业代码。

作业地址:

http://rail.eecs.berkeley.edu/deeprlcourse/

GitHub:

https://github.com/berkeleydeeprlcourse/homework

作业要求所有的家庭作业必须独立完成,但是最后项目的可以合作完成,团队成员不可超过三个人。最后的项目将要求分组展示。所有作业必须及时上交,不允许延迟提交。你将会有五天的时间提交作业。当然,如果有特殊情况也可以允许提交,但是必须是非常特殊的情况

课件

目前这个课件,只提供了前六节课的讲课课件。

课件地址:

http://rail.eecs.berkeley.edu/deeprlcourse/

另外,课程评分采用家庭作业和最后项目相结合的方式,其中家庭作业占比50%,另外50%可以通过最后的项目获得。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

入门深度强化学习伯克利CS294
11
相关数据
吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~