• 日本核爆受害者启动环球航海 呼吁废核 2019-02-26
  • 武汉今秋迎11.5万名小学新生 “房户一致”优先 2019-02-26
  • 强化学习实战:强化学习在阿里的技术演进和业务创新
    • 推荐1
    • 收藏2
    • 浏览1.1K

    强化学习实战:强化学习在阿里的技术演进和业务创新

    黑龙江时时时彩结果 www.fcyww.com 笪庆 , 曾安祥 (作者)  宋亚东 (责任编辑)

    • 书  号:978-7-121-33898-4
    • 出版日期:2018-10-01
    • 页  数:226
    • 开  本:16(170*240)
    • 出版状态:上市销售
    • 维护人:宋亚东

    相关图书

    聊天机器人:对话式体验产品设计

    Amir Shevat (作者) 淘宝(中国)软件有限公司 (译者)

    从亚马逊的Alexa语音助手到苹果的Siri,从Slack的聊天机器人到短信和电子邮件机器人,我们越来越依赖于软件驱动的聊天应用。在这本实用指南中,作者Amir...

     

    相关性搜索:利用Solr与Elasticsearch创建智能应用

    Doug Turnbull John Berryman (作者) 莫映 蔡宇飞 殷志勇 (译者)

    本书揭开了相关性搜索的神秘面纱,告诉大家如何将 Elasticsearch与 Solr这样的搜索引擎作为可编程的相关性框架,从而表达业务排名规则。从这本书中你可...

    ¥69.00

    机器学习之路——Caffe、Keras、scikit-learn实战

    阿布 胥嘉幸 (作者)

    机器学习需要一条脱离过高理论门槛的入门之路。<br>本书《机器学习篇》从小红帽采蘑菇的故事开篇,介绍了基础的机器学习分类模型的训练(第1章)。如何评估、调试模型...

    ¥79.00

    深度学习算法实践

    吴岸城 (作者)

    本书以一位软件工程师的转型故事为线索,讲述算法思维的建立及实践。第1章主要讲解如何从传统的工程思维转入算法思维,第2-5章分别阐述文本处理、视觉识别、Bot机器...

    ¥79.00

    Python机器学习算法

    赵志勇 (作者)

    本书是一本机器学习入门读物,注重理论与实践的结合。全书主要包括6个部分,每个部分均以典型的机器学习算法为例,从算法原理出发,由浅入深,详细分析算法的理论,并配合...

    ¥49.00

    零起点Python足彩大数据与机器学习实盘分析

    何海群 (作者)

    本书采用Python编程语言、Pandas数据分析???、机器学习和人工智能算法,对足彩大数据进行实盘分析。设计并发布了开源大数据项目zc-dat足彩数据包,汇总...

    ¥69.00
    近年来,随着与深度神经网络的结合,强化学习在以Atari2600和围棋为代表的游戏领域取得了突破性的进展。与学术界关注的方向不同,在阿里巴巴,我们则将重点放在推动强化学习技术输出及商业应用上。由于基于监督学习方式的信息提供手段,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很好的实践并得到大规模应用。本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部的多条业务线,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。
    首次由工业界系统地披露在互联网级别的应用上使用强化学习的技术细节。

    目录


    第1 章 强化学习基础 ..............................................................................1
    1.1 引言 ................................................................................................. 2
    1.2 起源和发展 ..................................................................................... 3
    1.3 问题建模 ......................................................................................... 5
    1.4 常见强化学习算法 ......................................................................... 8
    1.4.1 基于值函数的方法 .............................................................. 9
    1.4.2 基于直接策略搜索的方法 ................................................ 12
    1.5 总结 ............................................................................................... 14

    第2 章 基于强化学习的实时搜索排序策略调控 ....................................15
    2.1 研究背景 ....................................................................................... 16
    2.2 问题建模 ....................................................................................... 17
    2.2.1 状态定义 ............................................................................ 17
    2.2.2 奖赏函数设计 .................................................................... 18
    2.3 算法设计 ....................................................................................... 19
    2.3.1 策略函数 ............................................................................ 19
    2.3.2 策略梯度 ............................................................................ 20
    2.3.3 值函数的学习 .................................................................... 21
    2.4 奖赏塑形 ....................................................................................... 22
    2.5 实验效果 ....................................................................................... 25
    2.6 DDPG 与梯度融合 ....................................................................... 27
    2.7 总结与展望 ................................................................................... 28

    第3 章 延迟奖赏在搜索排序场景中的作用分析 ....................................30
    3.1 研究背景 ....................................................................................... 31
    3.2 搜索交互建模 ............................................................................... 31
    3.3 数据统计分析 ............................................................................... 33
    3.4 搜索排序问题形式化 ................................................................... 36
    3.4.1 搜索排序问题建模 ............................................................ 36
    3.4.2 搜索会话马尔可夫决策过程 ............................................ 38
    3.4.3 奖赏函数 ............................................................................ 39
    3.5 理论分析 ....................................................................................... 40
    3.5.1 马尔可夫性质 .................................................................... 40
    3.5.2 折扣率 ................................................................................ 41
    3.6 算法设计 ....................................................................................... 44
    3.7 实验与分析 ................................................................................... 48
    3.7.1 模拟实验 ............................................................................ 48
    3.7.2 搜索排序应用 .................................................................... 51

    第4 章 基于多智能体强化学习的多场景联合优化 .................................54
    4.1 研究背景 ....................................................................................... 55
    4.2 问题建模 ....................................................................................... 57
    4.2.1 相关背景简介 .................................................................... 57
    4.2.2 建模方法 ............................................................................ 58
    4.3 算法应用 ....................................................................................... 65
    4.3.1 搜索与电商平台 ................................................................ 65
    4.3.2 多排序场景协同优化 ........................................................ 66
    4.4 实验与分析 ................................................................................... 69
    4.4.1 实验设置 ............................................................................ 69
    4.4.2 对比基准 ............................................................................ 70
    4.4.3 实验结果 ............................................................................ 70
    4.4.4 在线示例 ............................................................................ 73
    4.5 总结与展望 ................................................................................... 75

    第5 章 虚拟淘宝 ...................................................................................76
    5.1 研究背景 ....................................................................................... 77
    5.2 问题描述 ....................................................................................... 79
    5.3 虚拟化淘宝 ................................................................................... 80
    5.3.1 用户生成策略 .................................................................... 81
    5.3.2 用户模仿策略 .................................................................... 83
    5.4 实验与分析 ................................................................................... 85
    5.4.1 实验设置 ............................................................................ 85
    5.4.2 虚拟淘宝与真实淘宝对比 ................................................ 85
    5.4.3 虚拟淘宝中的强化学习 .................................................... 87
    5.5 总结与展望 ................................................................................... 90

    第6 章 组合优化视角下基于强化学习的精准定向广告OCPC 业务优化92
    6.1 研究背景 ....................................................................................... 93
    6.2 问题建模 ....................................................................................... 94
    6.2.1 奖赏设计 ............................................................................ 94
    6.2.2 动作定义 ............................................................................ 94
    6.2.3 状态定义 ............................................................................ 95
    6.3 模型选择 ..................................................................................... 100
    6.4 探索学习 ..................................................................................... 102
    6.5 业务实战 ..................................................................................... 103
    6.5.1 系统设计 .......................................................................... 103
    6.5.2 奖赏设计 .......................................................................... 105
    6.5.3 实验效果 .......................................................................... 106
    6.6 总结与展望 ................................................................................. 106

    第7 章 策略优化方法在搜索广告排序和竞价机制中的应用 ............... 108
    7.1 研究背景 ..................................................................................... 109
    7.2 数学模型和优化方法 ................................................................. 110
    7.3 排序公式设计 ............................................................................. 112
    7.4 系统简介 ..................................................................................... 113
    7.4.1 离线仿真???.................................................................. 114
    7.4.2 离线训练初始化 .............................................................. 114
    7.5 在线策略优化 ............................................................................. 117
    7.6 实验与分析 ................................................................................. 118
    7.7 总结与展望 ................................................................................. 120

    第8 章 TaskBot——阿里小蜜的任务型问答技术 ............................... 121
    8.1 研究背景 ..................................................................................... 122
    8.2 模型设计 ..................................................................................... 123
    8.2.1 意图网络 .......................................................................... 123
    8.2.2 信念跟踪 .......................................................................... 124
    8.2.3 策略网络 .......................................................................... 124
    8.3 业务应用 ..................................................................................... 126
    8.4 总结与展望 ................................................................................. 127

    第9 章 DRL 导购——阿里小蜜的多轮标签推荐技术 ......................... 128
    9.1 研究背景 ..................................................................................... 129
    9.2 算法框架 ..................................................................................... 130
    9.3 深度强化学习模型 ..................................................................... 133
    9.3.1 强化学习???.................................................................. 133
    9.3.2 模型融合 .......................................................................... 134
    9.4 业务应用 ..................................................................................... 135
    9.5 总结与展望 ................................................................................. 136

    第10 章 Robust DQN 在淘宝锦囊推荐系统中的应用 ........................ 137
    10.1 研究背景 ................................................................................... 138
    10.2 Robust DQN 算法 ..................................................................... 140
    10.2.1 分层采样方法 ................................................................ 140
    10.2.2 基于分层采样的经验池 ................................................ 141
    10.2.3 近似遗憾奖赏 ................................................................ 142
    10.2.4 Robust DQN 算法 .......................................................... 143
    10.3 Robust DQN 算法在淘宝锦囊上的应用 ................................. 144
    10.3.1 系统架构 ........................................................................ 144
    10.3.2 问题建模 ........................................................................ 145
    10.4 实验与分析 ............................................................................... 147
    10.4.1 实验设置 ........................................................................ 148
    10.4.2 实验结果 ........................................................................ 148
    10.5 总结与展望 ............................................................................... 152

    第11 章 基于上下文因子选择的商业搜索引擎性能优化 ..................... 153
    11.1 研究背景 ................................................................................... 154
    11.2 排序因子和排序函数 ............................................................... 156
    11.3 相关工作 ................................................................................... 157
    11.4 排序中基于上下文的因子选择 ............................................... 158
    11.5 RankCFS:一种强化学习方法 ............................................... 162
    11.5.1 CFS 问题的 MDP 建模 ................................................. 162
    11.5.2 状态与奖赏的设计 ........................................................ 163
    11.5.3 策略的学习 .................................................................... 165
    11.6 实验与分析 ............................................................................... 166
    11.6.1 离线对比 ........................................................................ 167
    11.6.2 在线运行环境的评价 .................................................... 170
    11.6.3 双11 评价 ...................................................................... 171
    11.7 总结与展望 ............................................................................... 172

    第12 章 基于深度强化学习求解一类新型三维装箱问题 .................... 173
    12.1 研究背景 ................................................................................... 174
    12.2 问题建模 ................................................................................... 175
    12.3 深度强化学习方法 ................................................................... 177
    12.3.1 网络结构 ........................................................................ 178
    12.3.2 基于策略的强化学习方法 ............................................ 179
    12.3.3 基准值的更新 ................................................................ 180
    12.3.4 随机采样与集束搜索 .................................................... 180
    12.4 实验与分析 ............................................................................... 181
    12.5 小结 ........................................................................................... 182

    第13 章 基于强化学习的分层流量调控 .............................................. 183
    13.1 研究背景 ................................................................................... 184
    13.2 基于动态动作区间的DDPG 算法 .......................................... 186
    13.3 实验效果 ................................................................................... 189
    13.4 总结与展望 ............................................................................... 189

    第14 章 风险商品流量调控 ................................................................ 190
    14.1 研究背景 ................................................................................... 191
    14.2 基于强化学习的问题建模 ....................................................... 192
    14.2.1 状态空间的定义 ............................................................ 192
    14.2.2 动作空间的定义 ............................................................ 193
    14.2.3 奖赏函数的定义 ............................................................ 193
    14.2.4 模型选择 ........................................................................ 194
    14.2.5 奖赏函数归一化 ............................................................ 196
    14.3 流量调控系统架构 ................................................................... 196
    14.4 实验效果 ................................................................................... 197
    14.5 总结与展望 ............................................................................... 197
    参考文献 ............................................................................................... 199

    读者评论

    下载资源

    推荐用户

  • 日本核爆受害者启动环球航海 呼吁废核 2019-02-26
  • 武汉今秋迎11.5万名小学新生 “房户一致”优先 2019-02-26