在好例子网,分享、交流、成长!
您当前所在位置:首页Python 开发实例Python语言基础 → 阿里强化学习.pdf

阿里强化学习.pdf

Python语言基础

下载此实例
  • 开发语言:Python
  • 实例大小:19.70M
  • 下载次数:71
  • 浏览次数:226
  • 发布时间:2020-05-09
  • 实例类别:Python语言基础
  • 发 布 人:andyz
  • 文件格式:.pdf
  • 所需积分:2
 相关标签: 强化学习 学习

实例介绍

【实例简介】

【实例截图】

from clipboard

【核心代码】

目 录
第一章 基于强化学习的实时搜索排序策略调控 1
1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 强化学习简介 . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 奖赏函数设定 . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 策略函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 值函数的学习 . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 奖赏塑形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 DDPG 与梯度融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
第二章 延迟奖赏在搜索排序场景中的作用分析 18
2.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 搜索排序问题回顾 . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 数据统计分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 搜索排序问题形式化 . . . . . . . . . . . . . . . . . . . . . . . . . 24
. II . ⽬ 录
2.5 理论分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.1 马尔可夫性质 . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.2 折扣率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 实验分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
第三章 基于多智能体强化学习的多场景联合优化 34
3.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1 相关背景简介 . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 建模⽅法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 应⽤ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.1 搜索与电商平台 . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.2 多排序场景协同优化 . . . . . . . . . . . . . . . . . . . . . 45
3.4 实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 实验设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.2 对⽐基准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.3 实验结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.4 在线⽰例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
第四章 强化学习在淘宝锦囊推荐系统中的应用 55
4.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.1 淘宝锦囊 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.2 锦囊的类型调控 . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.3 ⼯作摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 系统框架及问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.1 系统框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3 算法及模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
⽬ 录 . III .
4.3.1 主体框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.2 分层采样池 . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.3 基准约减 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.4 算法流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4 实验与总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
第五章 基于强化学习的引擎性能优化 65
5.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2.1 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.2 动作空间设计 . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.3 状态转移函数 . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.4 奖赏函数的设计 . . . . . . . . . . . . . . . . . . . . . . . . 70
5.3 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.1 Loss Function . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.2 Actor-crtitic ⽅法 . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4 理论分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.5 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.6 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
第六章 基于强化学习分层流量调控 75
6.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.2.1 Dynamic Action Boundary by CEM . . . . . . . . . . . . . . 78
6.3 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.4 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
第七章 风险商品流量调控 81
7.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.1.1 为什么进⾏风险商品流量调控 . . . . . . . . . . . . . . . . 81
. IV . ⽬ 录
7.1.2 为什么使⽤强化学习调控 . . . . . . . . . . . . . . . . . . 82
7.2 基于强化学习的问题建模 . . . . . . . . . . . . . . . . . . . . . . . 82
7.2.1 状态空间的定义 . . . . . . . . . . . . . . . . . . . . . . . . 82
7.2.2 动作空间的定义 . . . . . . . . . . . . . . . . . . . . . . . . 84
7.2.3 奖赏函数的定义 . . . . . . . . . . . . . . . . . . . . . . . . 84
7.2.4 模型选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.2.5 奖赏函数 scale . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.3 流量调控系统架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.4 线上效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
第八章 虚拟淘宝 89
8.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.1.1 强化学习⾯临的问题 . . . . . . . . . . . . . . . . . . . . . 89
8.1.2 虚拟淘宝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.2 学习⽤户⾏为:监督学习 . . . . . . . . . . . . . . . . . . . . . . . 89
8.3 学习⽤户意图:逆强化学习 . . . . . . . . . . . . . . . . . . . . . 90
8.3.1 逆强化学习概述 . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.2 学习⽤户意图 . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.3 ⽣成对抗式模仿学习 . . . . . . . . . . . . . . . . . . . . . 92
8.4 构建⽤户⾏为模拟器 . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4.1 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4.2 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.4.3 实验结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
第九章 组合优化视角下基于强化学习的精准定向广告 OCPC 业务优化 96
9.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
9.2.1 奖赏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
9.2.2 动作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
⽬ 录 . V .
9.2.3 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9.3 建模粒度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.4 模型选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
9.5 探索学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
9.6 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.6.1 系统设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.6.2 奖赏设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9.6.3 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.7 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
第十章 策略优化方法在搜索广告排序和竞价机制中的应用 111
10.1 业务背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
10.2 ⼴告排序和竞价的数学模型和优化⽅法 . . . . . . . . . . . . . . . 112
10.3 ⾯向⼴告商、⽤户和平台收益的排序公式设计 . . . . . . . . . . . 114
10.4 系统简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
10.4.1 离线仿真模块 . . . . . . . . . . . . . . . . . . . . . . . . . 115
10.4.2 离线强化学习进⾏排序策略模型初始化 . . . . . . . . . . 117
10.5 在线排序策略模型优化 . . . . . . . . . . . . . . . . . . . . . . . . 118
10.6 实验分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10.7 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
第十一章 TaskBot -阿里小蜜的任务型问答技术 124
11.1 背景和问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
11.2 模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
11.2.1 Intent Network . . . . . . . . . . . . . . . . . . . . . . . . . 125
11.2.2 Belief Tracker . . . . . . . . . . . . . . . . . . . . . . . . . 126
11.2.3 Policy Network . . . . . . . . . . . . . . . . . . . . . . . . . 127
11.2.4 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
11.3 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
. VI . ⽬ 录
11.4 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
第十二章 DRL 导购-阿里小蜜的多轮标签推荐技术 131
12.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
12.2 算法框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
12.3 深度强化学习模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
12.3.1 强化学习模块 . . . . . . . . . . . . . . . . . . . . . . . . . 136
12.3.2 最终模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
12.4 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
12.5 总结和展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

标签: 强化学习 学习

实例下载地址

阿里强化学习.pdf

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警