在好例子网,分享、交流、成长!
您当前所在位置:首页Others 开发实例一般编程问题 → 崇志宏:强化学习和深度强化学习

崇志宏:强化学习和深度强化学习

一般编程问题

下载此实例
  • 开发语言:Others
  • 实例大小:3.25M
  • 下载次数:68
  • 浏览次数:439
  • 发布时间:2020-07-31
  • 实例类别:一般编程问题
  • 发 布 人:robot666
  • 文件格式:.pdf
  • 所需积分:2
 

实例介绍

【实例简介】
深度学习在强化学习方面的应用所产生的深度强化学习取得快速发展。如何解释深度强化学习优势产生的原因是理解技术的基本方法。
强化学习的问题 ntel ab 数据&智能实验室 Agent state reward S,||R +=PS=1=8:8:1an R, +1 , Environment 5o,A0,B1,S1,41,,S2,A2,R3 东南大学数据与智能实验室(D& nte lab) 强化学习算法的基本范式 ntel ab 数据&智能实验室 Generalized Policy Iteration 1. Policy Iteration 2. Value iteration evaluation T T U,丌 率 丌~ greedy(V dyu gre improvement 1. Policy Evaluation博弈 2. Policy Improvement 1.策略评价逼近策略价值 2.策略提高远离策略价值 Elements of rl ntel ab 数据&智能实验室 o Policy Valuation Oriented Methods Model-based or free estimation Exp ion or Exploit 0 nl ine or0千f|ine Expans ion and Backup Operation (q*) max nax 东南大学数据与智能实验室(D& Inte lab) Position of rl ntel ab 数据&智能实验室 Long short Term PixeICNN PixeIRNN Memory (LSTM) Convolution Networks with Fully Connected Neural Network Autoregressive Network Memory Network (CNN) (FCN) Stochastic Gradient Second Order Earth Mover Distance Descent (SGD) Algorithms (EMD) Networks <L Divergence Optimization Gradient Free Objective Algorthms Functions Algorithms Supervised Energy Based Model Learning Learning to Learn Unsupervised Learning Reinforcement earning Non-Probabilistic Models Probabilistic (Generative) Models Policy Optimization Dynamic Sparse Coding. Programming Autoencoder K-means Explicit Density Implicit Density Models Models Policy Gradients Policy Iteration Value iteration Derivative Free Optimization/Evolution Generative Adversarial Network (GAN) Moment Matchine Networks Actor Critic Methods -Learning Tractable Models Non-Tractable Models NADE PixeIRNN Boitzmann Machine Fully observed Bele variational Networks Autoencoder (vAE width Temporal-o of update Q Dynamic difference◆ R programming learning O OO O Which rl algorithm to use? are you learning 函数近似 in a simulator 样本效率 depth (length) how patient is simulation cost negigible compared 泛化问题 of update are you? 1to training cost? Explore/ model-based Q-Prop TRPO, PPO RL (GPS, etc DDPG. NAF A3C 目标/可训练性 BUT: if you have a simulator, you can compute gradients through it- do you need model-free rl? Exhaustive Monte I search Carlo 口口口□ 强化学习的主要问题和算法 ntel ab 数据&智能实验室 width of update Temporal Dynamic difference programming learning 基本问题 函数近似 Goal-or iented Try and Error Exploit and Explore 样本效率 depth (length) Extraplot and Generalize 泛化问题 of update 基本算法 Explore/it 动态规划 MC 目标/可训练性 Temperal Difference Q Exhaustive Monte search Carlo Agent 强化学习的问题 statereward S,R Ws,r.=P(S=,=r1-1=84-1= R .. Environment 1. State s)=PS=8=r1S1=84 2. Action ∑p(s,r1s,a)=1, for all s∈S,a∈A(s) 3. Reward s′∈S∈求 p(s|s,a)÷Pr{St=s′|S t-1 A t-1=C p(s, rs ∈求 r(s,a)=E[R:|S-1=s,A-1=a=∑r∑m(s,r|s,a) T∈灾s′∈S r(s,a,s)÷E[Rt|S A p(s,rs, t-1 t-1 t p(ss, a) 东南大学数据与智能实验室(D&| nte Lab) 强化学习的价值估计 G1=Bt+1+R+2+R+3+…+B G=B+1+R+2+7B+3+…=)R+k+1 k=0 Gt÷Rt+1+7Rt+2+2Rt+3+Rt+4+ =R+1+(R+2+R4+3+2R2+4+…) Rt+1 +?Gt+ T R1=+1 R2=+1 R 4 =0 2 R5=0 5 Gt ∑ k-t-1 R k=t+1 Un(s)÷EmG|St=]=E∑Rt+k+1S=s, for all s∈S, k=0 qr(s,a)= EIGt I St=s, At=a]=E>yRt+k+1 St=s, At=a k=0 【实例截图】
【核心代码】

标签:

实例下载地址

崇志宏:强化学习和深度强化学习

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警