阿里强化学习.pdf

Python语言基础

下载此实例

开发语言：Python
实例大小：19.70M
下载次数：76
浏览次数：241
发布时间：2020-05-09
实例类别：Python语言基础
发布人：andyz
文件格式：.pdf
所需积分：2

实例介绍

[下载地址]

【实例简介】

【实例截图】

from clipboard

【核心代码】

目 录
第一章 基于强化学习的实时搜索排序策略调控 1
1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 强化学习简介 . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 奖赏函数设定 . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 策略函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 值函数的学习 . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 奖赏塑形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 DDPG 与梯度融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
第二章 延迟奖赏在搜索排序场景中的作用分析 18
2.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 搜索排序问题回顾 . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 数据统计分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 搜索排序问题形式化 . . . . . . . . . . . . . . . . . . . . . . . . . 24
. II . ⽬ 录
2.5 理论分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.1 马尔可夫性质 . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.2 折扣率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 实验分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
第三章 基于多智能体强化学习的多场景联合优化 34
3.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1 相关背景简介 . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 建模⽅法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 应⽤ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.1 搜索与电商平台 . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.2 多排序场景协同优化 . . . . . . . . . . . . . . . . . . . . . 45
3.4 实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 实验设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.2 对⽐基准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.3 实验结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.4 在线⽰例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
第四章 强化学习在淘宝锦囊推荐系统中的应用 55
4.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.1 淘宝锦囊 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.2 锦囊的类型调控 . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.3 ⼯作摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 系统框架及问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.1 系统框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3 算法及模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
⽬ 录 . III .
4.3.1 主体框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.2 分层采样池 . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.3 基准约减 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.4 算法流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4 实验与总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
第五章 基于强化学习的引擎性能优化 65
5.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2.1 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.2 动作空间设计 . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.3 状态转移函数 . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.4 奖赏函数的设计 . . . . . . . . . . . . . . . . . . . . . . . . 70
5.3 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.1 Loss Function . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.2 Actor-crtitic ⽅法 . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4 理论分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.5 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.6 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
第六章 基于强化学习分层流量调控 75
6.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.2.1 Dynamic Action Boundary by CEM . . . . . . . . . . . . . . 78
6.3 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.4 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
第七章 风险商品流量调控 81
7.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.1.1 为什么进⾏风险商品流量调控 . . . . . . . . . . . . . . . . 81
. IV . ⽬ 录
7.1.2 为什么使⽤强化学习调控 . . . . . . . . . . . . . . . . . . 82
7.2 基于强化学习的问题建模 . . . . . . . . . . . . . . . . . . . . . . . 82
7.2.1 状态空间的定义 . . . . . . . . . . . . . . . . . . . . . . . . 82
7.2.2 动作空间的定义 . . . . . . . . . . . . . . . . . . . . . . . . 84
7.2.3 奖赏函数的定义 . . . . . . . . . . . . . . . . . . . . . . . . 84
7.2.4 模型选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.2.5 奖赏函数 scale . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.3 流量调控系统架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.4 线上效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
第八章 虚拟淘宝 89
8.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.1.1 强化学习⾯临的问题 . . . . . . . . . . . . . . . . . . . . . 89
8.1.2 虚拟淘宝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.2 学习⽤户⾏为：监督学习 . . . . . . . . . . . . . . . . . . . . . . . 89
8.3 学习⽤户意图：逆强化学习 . . . . . . . . . . . . . . . . . . . . . 90
8.3.1 逆强化学习概述 . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.2 学习⽤户意图 . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.3 ⽣成对抗式模仿学习 . . . . . . . . . . . . . . . . . . . . . 92
8.4 构建⽤户⾏为模拟器 . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4.1 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4.2 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.4.3 实验结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
第九章 组合优化视角下基于强化学习的精准定向广告 OCPC 业务优化 96
9.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
9.2.1 奖赏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
9.2.2 动作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
⽬ 录 . V .
9.2.3 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9.3 建模粒度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.4 模型选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
9.5 探索学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
9.6 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.6.1 系统设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.6.2 奖赏设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9.6.3 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.7 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
第十章 策略优化方法在搜索广告排序和竞价机制中的应用 111
10.1 业务背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
10.2 ⼴告排序和竞价的数学模型和优化⽅法 . . . . . . . . . . . . . . . 112
10.3 ⾯向⼴告商、⽤户和平台收益的排序公式设计 . . . . . . . . . . . 114
10.4 系统简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
10.4.1 离线仿真模块 . . . . . . . . . . . . . . . . . . . . . . . . . 115
10.4.2 离线强化学习进⾏排序策略模型初始化 . . . . . . . . . . 117
10.5 在线排序策略模型优化 . . . . . . . . . . . . . . . . . . . . . . . . 118
10.6 实验分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10.7 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
第十一章 TaskBot －阿里小蜜的任务型问答技术 124
11.1 背景和问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
11.2 模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
11.2.1 Intent Network . . . . . . . . . . . . . . . . . . . . . . . . . 125
11.2.2 Belief Tracker . . . . . . . . . . . . . . . . . . . . . . . . . 126
11.2.3 Policy Network . . . . . . . . . . . . . . . . . . . . . . . . . 127
11.2.4 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
11.3 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
. VI . ⽬ 录
11.4 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
第十二章 DRL 导购－阿里小蜜的多轮标签推荐技术 131
12.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
12.2 算法框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
12.3 深度强化学习模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
12.3.1 强化学习模块 . . . . . . . . . . . . . . . . . . . . . . . . . 136
12.3.2 最终模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
12.4 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
12.5 总结和展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

标签： 强化学习学习

实例下载地址

阿里强化学习.pdf

点此下载实例

不能下载？内容有错？点击这里报错 + 投诉 + 提问

好例子网口号：伸出你的我的手 — 分享！

网友评论

我要评论

小贴士

感谢您为本站写下的评论，您的评论对其它用户来说具有重要的参考价值，所以请认真填写。

类似“顶”、“沙发”之类没有营养的文字，对勤劳贡献的楼主来说是令人沮丧的反馈信息。
相信您也不想看到一排文字/表情墙，所以请不要反馈意义不大的重复字符，也请尽量不要纯表情的回复。
提问之前请再仔细看一遍楼主的说明，或许是您遗漏了。
请勿到处挖坑绊人、招贴广告。既占空间让人厌烦，又没人会搭理，于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享，对搜索内容的合法性不具有预见性、识别性、控制性，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论平台是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定，若资源存在侵权或相关问题请联系本站客服人员，点此联系我们。关于更多版权及免责申明参见版权及免责申明

阿里强化学习.pdf

同类人气实例

实例介绍

实例下载地址

阿里强化学习.pdf

相关软件

相关文章

网友评论

小贴士

关于好例子网

下载周排行

下载总排行