计算机工程
Computer Engineering
文章编号:1000-3428(2018)07-0020-05
文献标志码:A
2018年7月 July 2018
中图分类号:TP393
基于强化学习的无人驾驶匝道汇入模型
乔良
6,
鲍泓
6,
玄祖兴6,梁军
6,
潘峰
N
(北京联合大学6北京市信息服务工程重点实验室;b.机器人学院,北京100101)
摘要:传统的强化学习方法受离散状态空间和离散动作空间的限制,不能很好地应用于匝道汇人场景。为此,构
建一种基于强化学习的无人驾驶匝道汇人模型。使用深度Q网络构建强化学习模型,依据该模型将匝道汇人问题 纳人强化学习问题的范畴后进行求解。实验结果表明,该模型可以针对不同的环境车辆速度采取不同的策略,从 而提高无人驾驶在匝道汇人场景下的智能化决策水平。关键词:无人驾驶;决策;匝道汇人;强化学习;深度Y网络中文引用格式:乔良,鲍泓,玄祖兴,等.基于强化学习的无人驾驶匝道汇人模型[1].计算机工程,2018,44(7):
20-24 & 31 $
英文引用格式:QIAO Liang,BAO Hong,XUAN Zuxing,et al. Autonomousdriving ramp merging model based on reinforcement learning [ J ]. Computer Engineering,2018,44 (7): 20 54,31.
Autonomous Driving Ramp Merging Model Based on Reinforcement Learning
QIAO Liang6,B AO Hong6,XUAN Zuxing6,LIANG Jun6,PAN Fengb
(a. Beijing Key Laboratory of Information Service Engineering; b. College of Robotics,Beijing Union University,Beijing 100101,China)
[Abstract] The traditional reinforcement learning method is limited by discrete state space and discrete
can not be applied to ramp merging scene. Therefore,a reinforcement learning based autonomous driving ramp merging model is constructed. The reinforcement learning model is built by deep Q network. The ramp merging problem isincorporated into the category of reinforcement learning problem and solved. Experimental results show that the model can adopt different strategies for different environment vehicle speeds,thus improving the intelligent decision-making level of the autonomous driving in ramp merging scene.
[Key words] autonomous driving (decision-making ; ramp merging (reinforcement learning (deep Q network DOI:10. 19678/j. issn. 1000-3428.0050990
0概述
通常情况下,一个无人驾驶系统分为3个部分,
变化的因素时,当前的无人驾驶系统认知决策还不
能提出一个较稳定的方法。一个典型的不确定性环 境或环境中存在动态变化因素的例子就是匝道汇人 问题。目前,用于解决无人驾驶匝道汇人问题的方 法主要分为2类:合作式方法[3]和探索式方法[4]。合作式方法主要强调车辆之间的交互联系,文 献[1,5]基于车与车之间的距离实现无人驾驶合作 式汇人控制。这种方法只基于当前时刻的环境状 态,而未考虑历史状态和历史环境数据,因此,在某 些情况下会导致汇人失败[2]。文献[6]提出一种基 于行为目的框架来刻画无人驾驶车辆合作式行为的
环境感知,认知决策,控制器[1]。通过3个部分的协 调工作可以完成无人驾驶车辆的各种智能化行为。 无人驾驶需要基于不同场景对自身环境进行合理认 知、对自身行为进行合理决策。目前,无人驾驶技术 在确定性场景下已经取得了较好进展,其中一些技 术已经实现商业化[2],如驾驶辅助系统(ADAS )、自 适应巡航控制(ACC)等技术。
然而,在面对不确定性环境或环境中存在动态
基金项目:国家自然科学基金“视听觉信息的认知计算”重大研究计划重点支持项目“智能车驾驶脑认知技术、平台与转化研究”
(91420202);北京市教委科研计划项目(KM201811417006);英国皇家工程院牛顿基金(UK-CIAPP424);北京市属高校高水平教师队伍 建设支持计划项目(IDHT20170511 )。
作者简介:乔良(1991 一),男,硕士研究生,主研方向为无人驾驶决策与控制;鲍泓,教授;玄祖兴,副教授;梁军,教授;潘峰,
副教授。
收稿日期:20185158
修回日期:20185351
E-mail:barneyqiao@ 163. com
第44卷第7期
乔良,鲍泓,玄祖兴,等:基于强化学习的无人驾驶匝道汇入模型
21
方法。文献[7]提出利用车联网环境对交叉路口车 辆的路径进行优化。
探索式方法中应用最广泛的是基于“时间-碰 撞”规则的TTC方法[8]。该方法的模型及其演变算 法广泛应用于路口、匝道等车辆交互较频繁的场景 下[1’9]。TTC方法具有较高的可靠性,但也存在不 足,比如其对环境车辆速度有限制,采取行车策略时 过于保守,对环境适应能力较差[1%]。
针对上述方法的不足,本文提出一种基于强化 学习的无人驾驶匝道汇入模型。使用深度Q网络构 建强化学习模型,以此将匝道汇入问题纳入强化学 习问题的范畴后再进行求解,最后通过仿真验证该 模型的可行性。
1强化学习
强化学习的研究目标是序贯决策问题。文
献[1152]对强化学习进行了综述。近些年,以深度 学习为代表的人工智能与强化学习方法逐渐结合, 使人工智能的水平得以提高。以谷歌DeepMind团 队为代表的AlphaG〇[13]和AlphaZero[14]相继取得 了较大成果,均从人类行为中学习并超越了人类学 习。在无人驾驶领域,相对合作式方法和探索式方 法,基于强化学习的匝道汇入方法更能体现无人驾 驶的智能化。
Q学习是强化学习理论中的著名算法之一,其 使用值函数的方法对环境中的各个状态进行评估, 并建立一张“状态-行为”价值表,即Q表,来反映各 种状态下采取哪种行为价值更高。在训练过程中, Q学习通过不断地策略迭代来对每个状态的价值进 行更新,理论上,训练次数越多,所遇到的状态越多, 代理学习到的经验就越多,也越能在该状态下做出 合理的动作行为。但是Q学习本身也存在局限性, 由于基于离散动作空间和离散状态空间,其在训练 过程中需要对每个状态下所有可能采取的动作进行 价值评估,这就会导致由于Q表状态空间过大而无 法求解的情况,尤其是遇到连续空间或连续动作时 Q学习无法求解,这也是导致Q学习没有广泛应用 于机器人领域的重要原因之一。针对该问题,文 献[15]提出深度Q网络(DQN)模型。在空间数量 很大的情况下,不可能获取到各种状态下的价值,此 时DQN采用神经网络来近似Q学习中的值函数,即 用神经网络来描述状态价值而不用存储Q表的形式 来查找“状态-动作”价值。因此,一旦建立了相应的 值函数神经网络模型,就可以通过训练神经网络来 获得价值的近似值,从而减少Q表的存储压力,也为 Q学习方法应用于诸如匝道汇入场景等提供了思路 和方法。图1所示为通过神经网络近似建立“状态- 动作”价值的原理示意图。
图1神经网络近似建立“状态-动作”价值的原理示意图
本文采用北京联合大学无人驾驶车“京龙1号”
对代理车辆进行建模,采用DQN来学习匝道汇入行 为,并测试验证学习到的模型。
2深度Q网络
本文将匝道汇入车流问题转化为强化学习问 题,用DQN来学习“状态-动作”价值函数。在强化 学习框架中,!寸刻的一个代理依据策略&在状态8 下选择动作-,将状态转移至下一时刻状态8 + 1,此 时环境给出该代理做出该动作的即刻回报% +1,如此 迭代以不断更新状态、动作、回报。
通常用马尔科夫决策过程来描述强化学习 问题[15],
M.(G,A,>,%),*,r) $ 1)其中,G为状态集,A为动作集,>:>xA / 为转移概率,%^/1$[-^_,^_]为即刻回报函数, ):G$F为初始状态分布,* \" [0,1]为折扣因子,0 为步数。!为一个轨迹序列,即! .(8,-。,8,-1,0)。 累计回报为:
t . 0
(2)
强化学习的目标就是找到最优策略&,使得该
策略下累计回报期望最大,即:
max[F( + ) >&( + ) d +
(3)
2-深度Q网络理论模型
在Q学习中,“状态-动作”价值函数C&(8-)为 当前状态8下依据策略&采取动作-所获得的累计 回报。(8-)为最优策略,下的“状态-动作”价值函数[16]:
C&(8-) =6[F!8.8-.-,&] (4)
C ! (8-) . max 6[ F! 8.8-t . -,&]
(5 )
迭代策略更新公式为:
C(8,-)*C(8,-) +,[% +*max C(8 + 1,-)-C(8,-)]
(6)
最后通过训练学习得到最优策略&!。
在DQN中,使用神经网络近似代替价值函 数[15],即C(8-(# (8-)。神经网络可以经过训练优化式(7)所示的损失函数而获得。2(#) .6,『p(.)[('-C(8-;#))2] (7)其中,'.68~-[r+ 7C(8,-;#-1) 7,-]为目标值,
22
计算机工程
2018年7月15日
3为迭代次数,p( 8-%为状态到动作的映射,即策略 &。使用梯度下降法进行训练,可得,
V#2 (# % =6,-~p(.);8~,[(r+yQ(_i% -Q(8,-;#)) V#S(8,-;#)] (8%图1中神经网络近似建立“状态-动作”的价值, 该过程的实现主要依赖神经网络的构建。结合本文 探讨的匝道汇入问题建立的深度Q网络模型结构如 图2所示。
图2深度
Q网络模型结构
深度Q网络模型设计了 2个相同结构的网络: 估值网络和目标网络,但只有估值网络会经过训练 的过程,因此,估值网络会及时通过训练获得最新参 数,从而不断提升预测能力。目标网络并不经过训 练的过程,只负责存储某些回合训练的估值网络参 数。因此,2个网络存储的参数在预测“状态-动作” 价值的过程中会出现差异,这个差异用来更新Q学 习中的策略迭代。2.2匝道模型构建
图3所示为车辆汇入匝道情境图。车辆汇入匝 道时,代理车(无人驾驶车辆)需要完成匝道汇入场 景,这不仅需要其对静态环境进行认知,更需要对主 路上的车辆行为进行预测。此时代理车需要对自己 的加减速行为和汇入时机作合理判断。
图例 «主路 办匝道
0代理车(无人驾驶) g环境车
情景说明 左一:初始状态 左二:碰撞状态 左三:避让主路车 左四:加速进入主路
图3 匝道汇入环境示意图无人驾驶车辆通过一系列的传感器对决策和控 制进行认知。“京龙1号”传感器配置为:车顶安装 64线雷达,车头安装8线雷达,后备箱安装GPS和 惯导设备,车宽1.)',车长4 m。为简化模型,本文 假设雷达探测距离为向前80 m、向后20 m、左右各 10 ',探测精度为0. 1 m,且在正常工作时能够准确 探测障碍物距离和探测距离范围内的动态物体相对 速度。同时,本文对加速和减速做相应简化,即加速 指令发出时,如果车辆没有超过最大限速,则在原速 度基础上加速2 m/s;减速指令发出时,如果车辆没 有达到最低速度0,则在原速度基础上减速2 m/s。 最后,为排除模型其他干扰,假设车辆一直沿着既定 轨迹行驶,且控制不会延时。
在车辆模型的基础上对匝道环境模型进行简 化,本文假设环境模型中的车辆采用代理车辆(无人 驾驶车辆)模型。同时,对环境模型中的部分参数作 如表1所示的假设。
表1环境模型参数设定
参数名称
参数值
匝道最高限速/(m • s-1%15主路最高限速/(m • s-1%
30环境刷新周期/s0. 1车宽/m1.6车长/m
4主路实际长度/m70匝道直线实际长度/m50单条车道宽度/m3栅格大小/m0. 1
是否允许倒车
否
2.3强化学习问题描述
状态空间描述采用基于鸟瞰视角的笛卡尔坐标 系,每个状态G由四元组构成:(主路车速度,代理车 速度,主路车与代理车纵向车距,主路车与代理车横 向车距%,这样既考虑了纵向影响,又考虑了横向影 响。其中,车速和车距主要由无人驾驶车辆的雷达 探测得出。
动作空间描述采用二元组(加速,减速%来描述, 此处考虑到学习的目的是在给定路径下合理地汇入 匝道(如等待汇入、直接汇入等动作%。
在深度Q网络中,需要构建估值网络和目标网 络。估值网络在每个回合都要进行更新,目标网络 隔一段时间进行更新。神经网络参数如表2所示。 同时,深度Q网络拥有一个记忆库,用于对数据进行 独立化处理,以减弱上一帧数据和下一帧数据之间 的强依赖性,并以此增加学习效率。
表2深度
Q网络参数设定
参数名称参数值
学习率0. 01
折扣因子0.9贪婪策略概率
0.9记忆库存量
2 000
第44卷第7期
乔良,鲍泓,玄祖兴,等:基于强化学习的无人驾驶匝道汇入模型
23
奖惩设置分为奖励设置和惩罚设置。在该模型
中,奖励设置为到达目的地$位于模型位置主路顶 端%,惩罚设置为横向碰撞或纵向碰撞。另外,为鼓 励代理车辆尽快到达目的地,对匝道上的代理车辆 进行弱惩罚。
至此,基于强化学习的匝道汇入模型已经建立, 将在下一节进行模型验证。
3仿真结果与分析
3.1实验平台概述
本文实验采用Py*on语言构建匝道模型,使用 TensorFlow构建估值网络和目标网络,硬件平台选 用MACBOOKPro笔记本电脑。状态空间采用四元 组描述,四元组中的数据类型为浮点型速度和距离, 其中,速度为大于〇的正值,纵向距离和横向距离可 以为负值。动作空间二元组中加速用1表示,减速 用-1表示,其中,加速时瞬时加速度为2 m/s2,减 速时瞬时加速度为-2 m/s2。
为加速训练,对于奖励函数,在成功到达终点时给 出奖励+ 1%。碰撞惩罚为-20,其中,碰撞条件为横向 距离小于3.7 m(车宽+0.5 m),纵向距离处于正负安 全距离范围内(安全距离.相对速度/1. 5+1.5)。为 使代理车尽快到达目的地,给出一个单步惩罚-0.01。 代理车初始速度为15 m/s〜30 m/s内的某值,主路车 初始速度为15 m/s。最大回合数为10 000。3.2模型训练
本次实验主要验证本文模型是否学习到了应对 匝道汇入情景的应对策略。记录每500回合中成功 到达目的地获得奖励的次数和因发生碰撞导致回合 失败的次数,结果如表3 #图4 #图5所示。
表3
深度Q网络模型训练结果
回合数
成功次数
失败次数
500425751 0008901101 5001 3341662 0001 7792212 5002 2392613 0002 6923083 5003 1483524 0003 6053954 5004 0644365 0004 5164845 5004 9635376 0005 4135876 5005 8706307 0006 3156857 5006 7607408 0007 2067948 5007 6548469 0008 1168849 5008 57692410 000
9 038
962
10 000
9 000
8 000
^| 7 000
6 5
000
g000
4 000 3 000
2 000
1 000
〇《卿
漱
翁
嫩,辦
微
辦
回合数
图4
深度
Q网络训练中的奖惩次数对比
图5深度
Q网络训练中的成功率
由图4可以看出,随着训练次数的增长,成功次
数显著增多,失败次数增长较缓慢。由图5可以看 出,成功比例在前1 000回合中呈显著增长趋势,之 后增长放缓,由此可见,深度Q网络模型的学习能力 在逐步提升,且在经过10 000次训练后,成功率可以 达到90%以上。3.3模型应用
深度Q网络的训练过程类似于Q学习的训练 过程,Q学习属于异策略训练,采取的目标策略为贪 婪策略,因此,在训练过程中其允许每一步选取“状 态-动作”价值非最大的动作进行探索,搜寻潜在的 更大价值。当实际测试模型效果时,可将目标策略 调整为选取最大状态价值函数的动作,以应对实际 情况。因此,本节实验主要验证训练好的模型在应 对不同速度时的策略。基于此,实验测试3个环境 车速,13 m/s,16 m/s,25 m/s。相对匝道的最高限 速15 m/s,该3个环境车速分别对应低于代理车速 度、与代理车速度相近以及高于代理车速度3种情 况。3种情况下匝道汇入策略如表4所示。
表4 3种车速情况下匝道汇入策略速度/(m • s-1)
策略13加速汇入16减速避让25
加速汇入
24
计算机工程
2018年7月15日
在定义状态空间时,纵向距离定义为环境车辆
与代理车辆的距离,即纵向距离=环境车辆纵坐标- 代理车辆纵坐标$纵向距离小于0代表环境车辆在 代理车辆前方,反之则在后方);横向距离定义为代 理车辆与环境车辆的距离,即横向距离=代理车辆 横坐标-环境车辆横坐标$横向距离大于0表示环 境车辆在代理车辆左边,反之则在右边)。
表5所示为环境车速为20 m/s时的测试结果, 其中,纵向距离一直小于0,说明环境车辆一直在代 理车辆的前方,此时,代理车辆学习到的策略是即使 加速到最大速度时依旧是安全的,因此,代理车辆会 一直保持速度为15 m/s的最大限速。
表5
环境车辆速度为20 m/s时的测试结果
代理车辆 速度/(m • s-1)
纵向距离/m
横向距离/m
动作15- 16.000 04 000 0加速15- 16.939 32 939 3加速15-17.878 71 878 7加速15-18.818 00 818 0加速15-19.318 00 818 0加速15-19.818 00 818 0加速15
-20 318 0
0 818 0
加速
表6中环境车辆速度为10 m/s,该速度小于代 理车辆的速度,代理车辆学习到的策略是如果想尽 快到达目的地,就不能等环境车辆通过匣道口之后 再通过匣道$每一步都有单步惩罚%,因此,代理车辆 依旧会以最高速度通过匣道。
表.
环境车辆速度为10 m/s时的测试结果
代理车辆 速度/(m • s-1)
纵向距离/m
横向距离/m
动作1516 000 04 000 0加速1516 060 72 939 3加速1516 121 31 878 7加速1516 182 00 818 0加速1516 682 00 818 0加速1517 182 00 818 0加速15
16 000 0
4 000 0
加速
表7中环境车辆速度为15 m/s,纵向距离一直 小于0表明环境车辆在代理车辆前方,由于代理车
辆和环境车辆进人匣道口时初始速度相同,为保证 行驶安全,代理车辆会尽最大可能争取奖励,此时代 理车辆学习到的策略是减速让行。
表7环境车辆速度为15 m/s时的测试结果
代理车辆 速度/(m • s-1)
纵向距离/m
横向距离/m
动作15-4.800 04 000 0加速15-5 239 32 939 3加速15-5 678 71 878 7加速15-6 118 00 818 0加速15-6 557 4-0.242 6加速13-6 757 4-0.242 6减速11-6 757 4-0 242 6减速9-6 957 4-0 242 6减速7-6 957 4-0 242 6减速9-7 157 4-0 242 6加速11
-7 157 4
-0 242 6
加速
%结束语
本文针对无人驾驶匣道汇人问题,应用强化学
习方法构建匣道汇人模型,并在实验过程中从训练 和应用2个方面对模型的有效性进行验证。在不断 的离线训练过程中,代理车辆即无人驾驶车辆可以 对不同的环境进行学习,最终学得安全通过匣道的 策略。模型在线应用过程中,可以对不同的环境车 辆速度采取不同的策略,提高了无人驾驶在匣道汇 人场景中的智能化决策水平。但本文模型对动作空 间的描述仍是离散的,如何对动作空间进行细化和 连续化,将是下一步的研究方向。
参考文献
[1 ]
URMSON C,ANHALT J,BAGNELL D, et al.
Autonomous driving in urban environments : b^s and the urban challenge [ J ]. Journal of Field Robotics,2008, 25(8):425566.
[2]
DONG C,DOLAN J M,LITKOUHI B. Intention estimation for ramp merging control in autonomous driving [ C ]//Proceedings of 2017 IEEE Intelligent Vehicles Symposium. Washington D. C.,USA: IEEE Press,2017:1584-1589.
[3 ]
HAFNER M R,CUNNINGHAM D,CAMINITI L,et al. Cooperative collision avoidance at intersections: algorithms and experiments [ J ]. IEEE Transactions on Intelligent Transportation Systems,2013,14(3) :1162-1175.
[4 ]
ALONSO J,MILAN S V,REZ J,et al. Autonomous vehicle control systems for safe crossroads [ J ]. Transportation Research,Part C: Emerging Technologies,2011,19 ( 6 ): 1095-1110.
[5 ]
MARINESCU D,URN J,BOUROCHE M,et al. On- ramp traffic merging using cooperative intelligent vehicles:a slot-leased approach[ C]//Proceedings of the 15 th IEEE International Conference on Intelligent Transportation Systems. Washington D. C.,USA: IEEE Press,2012:900-906.
$下转第31页)
第44卷第7期
李飞琦,鲍泓,潘峰,等:智能车导航中的路口轨迹生成策略
[12]
31
[3 ] YAOJ,LIN C,XIE X,et al. Patli planning for virtual
human motion using improved A! star algorithm [ C ] // Proceedings of the 7th International Conference on Information Technology, New Generations. Washington = C., USA:IEEE Press,2010,1154-1158.
[4 ][5 ]
任春明,张建勋.基于优化蚁群算法的机器人路径规 划[J].计算机工程,2008,34( 15):1-3.
KOREN Y,BORENSTEIN J. Potential field methods and their inherent limitations for mobile robot navigation [ C] // Proceedings of IEEE International Conference on Robotics and Automation. Washington D. C.,USA: IEEE Press,
2002:1398-1404.
[13] YOU F,ZHANG R,GUO L,et al. Trajectory planning and tracking control for autonomous lane change maneuver based on the cooperative vehicle infrastructure system [ J ]. Expert Systems with Applications,2015, 42(14) :5932-5946.
WHITLEY D. A genetic al^^oritlim tutorial [ J]. Statistics and Computing,1994 &4(2) :65-85.
[)]刘天孚,程如意.基于遗传算法的移动机器人路径规
划[J].计算机工程,2008,34( 17):214-215.[7 ]
ROBERGE V,TARBOUCHI M,LABONTE G . Comparison of paralel
genetic
algorithm and particle
swarm
optimization for real-time UAV patli planning [ J ]. IEEE Transactions on Industrial Informatics,2013,9(1) :132-141.
[8]
GARAUB,BONET M,ALVAREZ A,et al. Path planning for autonomous underwater vehicles in realistic oceanic cu rent fields: application to gliders in the western mediterranean sea [ J ]. Journal of Maritime Research,2014,6(2):5-22.
[9 ]
王惠南,吴智博.采用卡尔曼滤波器的GPS/INS姿态 组合系统的研究[J].中国惯性技术学报,2000,8(3):
[14] 魏秋明,梁军,鲍泓,等.异构计算平台图像边缘
检测算法优化研究[J].计算机工程,2017,43 (5):
240-247.
[15] 龚建伟,姜岩,徐威.无人驾驶车辆模型预测控 制[M].北京:北京理工大学出版社,2014.[16 ]
GARCIA N M,LENKIEWICZ P,FREIRE M M,et al. On the performance of shortest patli routing algorithms for modeling and simulation of static source routed networks: an extension to the Dijkstra algorithm[C]//Proceedings of the 2nd International Conference on System and Networks Communications. Washington D. C.,USA: IEEE Computer Society,2007:60.
[17] 张歆奕,吴今培,张其善.车载导航仪中路径规划算法 及其实现[J] ■计算机测量与控制,2001,9(4):15-17.[18] 王元彪.智能交通系统中Dijksm算法的高效实
现[J].计算机工程,2007,33(6):256-258.
1 -7 .
[10] KAVRAKIL,SVESTKA P,LATOMBE J,et al.
Probabilistic roadmaps for patli planning in highdimensional confguration spaces [ J ]. II^EE Transactions on Robotics and Automation,1994,12(4) :566-580.
[11] CAI C,FERRARI S. Information-driven sensor patli
planning by approximate cell decomposition [ J ]. IEEE Transactions on Systems Man and Cybernetics,Part B: Cybernetics,2009,39(3) :672-689.
[19] WANG H,YU Y,YUAN Q. Application ofDijksta
algorithm in robot path-planning [ C ]//Proceedings of International Conference on Mechanic Automation and USA: IEEE Control Engineering. Washington D. C.,Press,2011:1067-1069.
编辑金胡考
(上接第24页)
[6]
WEIJ,DOLAN J M,LITKOUHI B. Autonomous vehicle social behavior for highway entrance ramp management C]//Proceedings of 2013 IEEE Intelligent Vehicles Symposium. Washington D. C.,USA: IEEE Press,2013:201-207.
[7 ]
罗霞,何彪,刘硕智,等.车联网环境下交叉口车 辆路径优化控制研究[J].计算机仿真,2017,34(4):
http://www.doc88.com/p-3813505208748.html.
[11] LITTMANML. Reinforcement learning improves beha-viour
from evaluative feedback [ J ]. Nature,2015,521 (7553 ): 445-51.
[12] 赵冬斌,邵坤,朱圆恒,等.深度强化学习综述:兼论 计算机围祺的发展[J].控制理论与应用,2016,33(6):
701-717.
[13]
SILVERD,HUANG A,MADDISON C J,et al. Mastering the game of go witli deep neural networks and tee search[ J].Nature,2016,529(7587):484-489.
[14 ]
SILVERD,SCHRITTWIESERJ,SIMONYANK,et al. Mastering the game of go without human know- ledge[ J] . Nature,2017,550(7676):354-359.
[15] MNIHV,KAVUKCUOGLUK,SILVERD,et al. Playing
atari witli deep reinforcement learning [EB/OL].[2018- 01-25]. http://www0. cs. ucl. ac. uk/staff/D. Silver/web/ Publications_files/dqn. pdf.
[16] 刘全,翟建伟,章宗长,等.深度强化学习综述[J].
计算机学报,2018,41(1):1-27.
编辑吴云芳
166-171
[8]
HORSTRVD,HOGEMA J . Time-to-collision and collision avoidance systems [EB/OL]. [2018-01-25 ]. http://www. ictct. org/migrated_2014/ictct_document_ nr_365_Horst. pdf.
[ 9 ]
COSGUN A, MA L, CHIU J, et al Towards fu l automated dri^e in urban environments: a demonstration in gomentum station, California [ C ] //Proceedings of 2017 IEEE Intelligent Vehicles Symposium. Washington D. C., USA:IEEEPress,2017 :1120-1128.
[10] ISELED,COSGUN A,SUBRAMANIAN K,et al .
Navigating intersections witli autonomous vehicles using deep reinforcement learning [ EB/OL ] . [ 2018-01-25 ].
因篇幅问题不能全部显示,请点此查看更多更全内容