基于强化学习的无人驾驶匝道汇入模型

2020-05-07 来源：九壹网

第44卷第7期 Vol.44 No. 7•智能交通专题•

计算机工程

Computer Engineering

文章编号：1000-3428(2018)07-0020-05

文献标志码：A

2018年7月 July 2018

中图分类号：TP393

基于强化学习的无人驾驶匝道汇入模型

乔良

6，

鲍泓

6，

玄祖兴6，梁军

6，

潘峰

(北京联合大学6北京市信息服务工程重点实验室；b.机器人学院，北京100101)

摘要：传统的强化学习方法受离散状态空间和离散动作空间的限制，不能很好地应用于匝道汇人场景。为此，构

建一种基于强化学习的无人驾驶匝道汇人模型。使用深度Q网络构建强化学习模型，依据该模型将匝道汇人问题纳人强化学习问题的范畴后进行求解。实验结果表明，该模型可以针对不同的环境车辆速度采取不同的策略，从而提高无人驾驶在匝道汇人场景下的智能化决策水平。关键词：无人驾驶；决策；匝道汇人；强化学习；深度Y网络中文引用格式：乔良，鲍泓，玄祖兴，等.基于强化学习的无人驾驶匝道汇人模型[1].计算机工程，2018,44(7):

20-24 & 31 $

英文引用格式：QIAO Liang，BAO Hong，XUAN Zuxing，et al. Autonomousdriving ramp merging model based on reinforcement learning [ J ]. Computer Engineering，2018，44 (7): 20 54，31.

Autonomous Driving Ramp Merging Model Based on Reinforcement Learning

QIAO Liang6，B AO Hong6，XUAN Zuxing6，LIANG Jun6，PAN Fengb

(a. Beijing Key Laboratory of Information Service Engineering; b. College of Robotics，Beijing Union University，Beijing 100101，China)

[Abstract] The traditional reinforcement learning method is limited by discrete state space and discrete

can not be applied to ramp merging scene. Therefore，a reinforcement learning based autonomous driving ramp merging model is constructed. The reinforcement learning model is built by deep Q network. The ramp merging problem isincorporated into the category of reinforcement learning problem and solved. Experimental results show that the model can adopt different strategies for different environment vehicle speeds，thus improving the intelligent decision-making level of the autonomous driving in ramp merging scene.

[Key words] autonomous driving (decision-making ; ramp merging (reinforcement learning (deep Q network DOI:10. 19678/j. issn. 1000-3428.0050990

0概述

通常情况下，一个无人驾驶系统分为3个部分，

变化的因素时，当前的无人驾驶系统认知决策还不

能提出一个较稳定的方法。一个典型的不确定性环境或环境中存在动态变化因素的例子就是匝道汇人问题。目前，用于解决无人驾驶匝道汇人问题的方法主要分为2类：合作式方法[3]和探索式方法[4]。合作式方法主要强调车辆之间的交互联系，文献[1，5]基于车与车之间的距离实现无人驾驶合作式汇人控制。这种方法只基于当前时刻的环境状态，而未考虑历史状态和历史环境数据，因此，在某些情况下会导致汇人失败[2]。文献[6]提出一种基于行为目的框架来刻画无人驾驶车辆合作式行为的

环境感知，认知决策，控制器[1]。通过3个部分的协调工作可以完成无人驾驶车辆的各种智能化行为。无人驾驶需要基于不同场景对自身环境进行合理认知、对自身行为进行合理决策。目前，无人驾驶技术在确定性场景下已经取得了较好进展，其中一些技术已经实现商业化[2]，如驾驶辅助系统（ADAS )、自适应巡航控制（ACC)等技术。

然而，在面对不确定性环境或环境中存在动态

基金项目：国家自然科学基金“视听觉信息的认知计算”重大研究计划重点支持项目“智能车驾驶脑认知技术、平台与转化研究”

(91420202);北京市教委科研计划项目（KM201811417006);英国皇家工程院牛顿基金（UK-CIAPP424);北京市属高校高水平教师队伍建设支持计划项目（IDHT20170511 )。

作者简介：乔良（1991 一），男，硕士研究生，主研方向为无人驾驶决策与控制；鲍泓，教授；玄祖兴，副教授；梁军，教授；潘峰，

副教授。

收稿日期：20185158

修回日期：20185351

E-mail：barneyqiao@ 163. com

第44卷第7期

乔良，鲍泓，玄祖兴，等：基于强化学习的无人驾驶匝道汇入模型

方法。文献[7]提出利用车联网环境对交叉路口车辆的路径进行优化。

探索式方法中应用最广泛的是基于“时间-碰撞”规则的TTC方法[8]。该方法的模型及其演变算法广泛应用于路口、匝道等车辆交互较频繁的场景下[1’9]。TTC方法具有较高的可靠性，但也存在不足，比如其对环境车辆速度有限制，采取行车策略时过于保守，对环境适应能力较差[1%]。

针对上述方法的不足，本文提出一种基于强化学习的无人驾驶匝道汇入模型。使用深度Q网络构建强化学习模型，以此将匝道汇入问题纳入强化学习问题的范畴后再进行求解，最后通过仿真验证该模型的可行性。

1强化学习

强化学习的研究目标是序贯决策问题。文

献[1152]对强化学习进行了综述。近些年，以深度学习为代表的人工智能与强化学习方法逐渐结合，使人工智能的水平得以提高。以谷歌DeepMind团队为代表的AlphaG〇[13]和AlphaZero[14]相继取得了较大成果，均从人类行为中学习并超越了人类学习。在无人驾驶领域，相对合作式方法和探索式方法，基于强化学习的匝道汇入方法更能体现无人驾驶的智能化。

Q学习是强化学习理论中的著名算法之一，其使用值函数的方法对环境中的各个状态进行评估，并建立一张“状态-行为”价值表，即Q表，来反映各种状态下采取哪种行为价值更高。在训练过程中， Q学习通过不断地策略迭代来对每个状态的价值进行更新，理论上，训练次数越多，所遇到的状态越多，代理学习到的经验就越多，也越能在该状态下做出合理的动作行为。但是Q学习本身也存在局限性，由于基于离散动作空间和离散状态空间，其在训练过程中需要对每个状态下所有可能采取的动作进行价值评估，这就会导致由于Q表状态空间过大而无法求解的情况，尤其是遇到连续空间或连续动作时 Q学习无法求解，这也是导致Q学习没有广泛应用于机器人领域的重要原因之一。针对该问题，文献[15]提出深度Q网络（DQN)模型。在空间数量很大的情况下，不可能获取到各种状态下的价值，此时DQN采用神经网络来近似Q学习中的值函数，即用神经网络来描述状态价值而不用存储Q表的形式来查找“状态-动作”价值。因此，一旦建立了相应的值函数神经网络模型，就可以通过训练神经网络来获得价值的近似值，从而减少Q表的存储压力，也为 Q学习方法应用于诸如匝道汇入场景等提供了思路和方法。图1所示为通过神经网络近似建立“状态- 动作”价值的原理示意图。

图1神经网络近似建立“状态-动作”价值的原理示意图

本文采用北京联合大学无人驾驶车“京龙1号”

对代理车辆进行建模，采用DQN来学习匝道汇入行为，并测试验证学习到的模型。

2深度Q网络

本文将匝道汇入车流问题转化为强化学习问题，用DQN来学习“状态-动作”价值函数。在强化学习框架中，！寸刻的一个代理依据策略&在状态8 下选择动作-，将状态转移至下一时刻状态8 + 1，此时环境给出该代理做出该动作的即刻回报％ +1，如此迭代以不断更新状态、动作、回报。

通常用马尔科夫决策过程来描述强化学习问题[15],

M.(G，A，>，％)，*，r) $ 1)其中，G为状态集，A为动作集，>:>xA / 为转移概率，％^/1$[-^_，^_]为即刻回报函数， ):G$F为初始状态分布，* \" [0，1]为折扣因子，0 为步数。！为一个轨迹序列，即！ .（8，-。，8，-1，0)。累计回报为：

t . 0

(2)

强化学习的目标就是找到最优策略&，使得该

策略下累计回报期望最大，即：

max[F( + ) >&( + ) d +

(3)

2-深度Q网络理论模型

在Q学习中，“状态-动作”价值函数C&(8-)为当前状态8下依据策略&采取动作-所获得的累计回报。(8-)为最优策略，下的“状态-动作”价值函数[16]:

C&(8-) =6[F!8.8-.-，&] (4)

C ! (8-) . max 6[ F! 8.8-t . -，&]

(5 )

迭代策略更新公式为：

C(8，-)*C(8，-) +,[% +*max C(8 + 1，-)-C(8，-)]

(6)

最后通过训练学习得到最优策略&!。

在DQN中，使用神经网络近似代替价值函数[15]，即C(8-(# (8-)。神经网络可以经过训练优化式（7)所示的损失函数而获得。2(#) .6，『p(.)[('-C(8-;#))2] (7)其中，'.68~-[r+ 7C(8，-;#-1) 7，-]为目标值，

计算机工程

2018年7月15日

3为迭代次数，p( 8-%为状态到动作的映射，即策略 &。使用梯度下降法进行训练，可得，

V#2 (# % =6，-~p(.)；8~,[(r+yQ(_i% -Q(8，-;#)) V#S(8，-;#)] (8%图1中神经网络近似建立“状态-动作”的价值，该过程的实现主要依赖神经网络的构建。结合本文探讨的匝道汇入问题建立的深度Q网络模型结构如图2所示。

图2深度

Q网络模型结构

深度Q网络模型设计了 2个相同结构的网络: 估值网络和目标网络，但只有估值网络会经过训练的过程，因此，估值网络会及时通过训练获得最新参数，从而不断提升预测能力。目标网络并不经过训练的过程，只负责存储某些回合训练的估值网络参数。因此，2个网络存储的参数在预测“状态-动作” 价值的过程中会出现差异，这个差异用来更新Q学习中的策略迭代。2.2匝道模型构建

图3所示为车辆汇入匝道情境图。车辆汇入匝道时，代理车（无人驾驶车辆）需要完成匝道汇入场景，这不仅需要其对静态环境进行认知，更需要对主路上的车辆行为进行预测。此时代理车需要对自己的加减速行为和汇入时机作合理判断。

图例 «主路办匝道

0代理车(无人驾驶) g环境车

情景说明左一：初始状态左二：碰撞状态左三：避让主路车左四：加速进入主路

图3 匝道汇入环境示意图无人驾驶车辆通过一系列的传感器对决策和控制进行认知。“京龙1号”传感器配置为：车顶安装 64线雷达，车头安装8线雷达，后备箱安装GPS和惯导设备，车宽1.)'，车长4 m。为简化模型，本文假设雷达探测距离为向前80 m、向后20 m、左右各 10 '，探测精度为0. 1 m，且在正常工作时能够准确探测障碍物距离和探测距离范围内的动态物体相对速度。同时，本文对加速和减速做相应简化，即加速指令发出时，如果车辆没有超过最大限速，则在原速度基础上加速2 m/s;减速指令发出时，如果车辆没有达到最低速度0,则在原速度基础上减速2 m/s。最后，为排除模型其他干扰，假设车辆一直沿着既定轨迹行驶，且控制不会延时。

在车辆模型的基础上对匝道环境模型进行简化，本文假设环境模型中的车辆采用代理车辆（无人驾驶车辆）模型。同时，对环境模型中的部分参数作如表1所示的假设。

表1环境模型参数设定

参数名称

参数值

匝道最高限速/(m • s-1%15主路最高限速/(m • s-1%

30环境刷新周期/s0. 1车宽/m1.6车长/m

4主路实际长度/m70匝道直线实际长度/m50单条车道宽度/m3栅格大小/m0. 1

是否允许倒车

否

2.3强化学习问题描述

状态空间描述采用基于鸟瞰视角的笛卡尔坐标系，每个状态G由四元组构成：（主路车速度，代理车速度，主路车与代理车纵向车距，主路车与代理车横向车距％，这样既考虑了纵向影响，又考虑了横向影响。其中，车速和车距主要由无人驾驶车辆的雷达探测得出。

动作空间描述采用二元组（加速，减速％来描述，此处考虑到学习的目的是在给定路径下合理地汇入匝道（如等待汇入、直接汇入等动作％。

在深度Q网络中，需要构建估值网络和目标网络。估值网络在每个回合都要进行更新，目标网络隔一段时间进行更新。神经网络参数如表2所示。同时，深度Q网络拥有一个记忆库，用于对数据进行独立化处理，以减弱上一帧数据和下一帧数据之间的强依赖性，并以此增加学习效率。

表2深度

Q网络参数设定

参数名称参数值

学习率0. 01

折扣因子0.9贪婪策略概率

0.9记忆库存量

2 000

第44卷第7期

乔良，鲍泓，玄祖兴，等：基于强化学习的无人驾驶匝道汇入模型

奖惩设置分为奖励设置和惩罚设置。在该模型

中，奖励设置为到达目的地$位于模型位置主路顶端％，惩罚设置为横向碰撞或纵向碰撞。另外，为鼓励代理车辆尽快到达目的地，对匝道上的代理车辆进行弱惩罚。

至此，基于强化学习的匝道汇入模型已经建立，将在下一节进行模型验证。

3仿真结果与分析

3.1实验平台概述

本文实验采用Py*on语言构建匝道模型，使用 TensorFlow构建估值网络和目标网络，硬件平台选用MACBOOKPro笔记本电脑。状态空间采用四元组描述，四元组中的数据类型为浮点型速度和距离，其中，速度为大于〇的正值，纵向距离和横向距离可以为负值。动作空间二元组中加速用1表示，减速用-1表示，其中，加速时瞬时加速度为2 m/s2,减速时瞬时加速度为-2 m/s2。

为加速训练，对于奖励函数，在成功到达终点时给出奖励+ 1%。碰撞惩罚为-20,其中，碰撞条件为横向距离小于3.7 m(车宽+0.5 m)，纵向距离处于正负安全距离范围内（安全距离.相对速度/1. 5+1.5)。为使代理车尽快到达目的地，给出一个单步惩罚-0.01。代理车初始速度为15 m/s〜30 m/s内的某值，主路车初始速度为15 m/s。最大回合数为10 000。3.2模型训练

本次实验主要验证本文模型是否学习到了应对匝道汇入情景的应对策略。记录每500回合中成功到达目的地获得奖励的次数和因发生碰撞导致回合失败的次数，结果如表3 #图4 #图5所示。

表3

深度Q网络模型训练结果

回合数

成功次数

失败次数

500425751 0008901101 5001 3341662 0001 7792212 5002 2392613 0002 6923083 5003 1483524 0003 6053954 5004 0644365 0004 5164845 5004 9635376 0005 4135876 5005 8706307 0006 3156857 5006 7607408 0007 2067948 5007 6548469 0008 1168849 5008 57692410 000

9 038

962

10 000

9 000

8 000

^| 7 000

6 5

000

g000

4 000 3 000

2 000

1 000

〇《卿

漱

翁

嫩，辦

微

辦

回合数

图4

深度

Q网络训练中的奖惩次数对比

图5深度

Q网络训练中的成功率

由图4可以看出，随着训练次数的增长，成功次

数显著增多，失败次数增长较缓慢。由图5可以看出，成功比例在前1 000回合中呈显著增长趋势，之后增长放缓，由此可见，深度Q网络模型的学习能力在逐步提升，且在经过10 000次训练后，成功率可以达到90%以上。3.3模型应用

深度Q网络的训练过程类似于Q学习的训练过程，Q学习属于异策略训练，采取的目标策略为贪婪策略，因此，在训练过程中其允许每一步选取“状态-动作”价值非最大的动作进行探索，搜寻潜在的更大价值。当实际测试模型效果时，可将目标策略调整为选取最大状态价值函数的动作，以应对实际情况。因此，本节实验主要验证训练好的模型在应对不同速度时的策略。基于此，实验测试3个环境车速，13 m/s，16 m/s，25 m/s。相对匝道的最高限速15 m/s，该3个环境车速分别对应低于代理车速度、与代理车速度相近以及高于代理车速度3种情况。3种情况下匝道汇入策略如表4所示。

表4 3种车速情况下匝道汇入策略速度/(m • s-1)

策略13加速汇入16减速避让25

加速汇入

计算机工程

2018年7月15日

在定义状态空间时，纵向距离定义为环境车辆

与代理车辆的距离，即纵向距离=环境车辆纵坐标- 代理车辆纵坐标$纵向距离小于0代表环境车辆在代理车辆前方，反之则在后方）；横向距离定义为代理车辆与环境车辆的距离，即横向距离=代理车辆横坐标-环境车辆横坐标$横向距离大于0表示环境车辆在代理车辆左边，反之则在右边）。

表5所示为环境车速为20 m/s时的测试结果，其中，纵向距离一直小于0,说明环境车辆一直在代理车辆的前方，此时，代理车辆学习到的策略是即使加速到最大速度时依旧是安全的，因此，代理车辆会一直保持速度为15 m/s的最大限速。

表5

环境车辆速度为20 m/s时的测试结果

代理车辆速度/(m • s-1)

纵向距离/m

横向距离/m

动作15- 16.000 04 000 0加速15- 16.939 32 939 3加速15-17.878 71 878 7加速15-18.818 00 818 0加速15-19.318 00 818 0加速15-19.818 00 818 0加速15

-20 318 0

0 818 0

加速

表6中环境车辆速度为10 m/s，该速度小于代理车辆的速度，代理车辆学习到的策略是如果想尽快到达目的地，就不能等环境车辆通过匣道口之后再通过匣道$每一步都有单步惩罚％，因此，代理车辆依旧会以最高速度通过匣道。

表.

环境车辆速度为10 m/s时的测试结果

代理车辆速度/(m • s-1)

纵向距离/m

横向距离/m

动作1516 000 04 000 0加速1516 060 72 939 3加速1516 121 31 878 7加速1516 182 00 818 0加速1516 682 00 818 0加速1517 182 00 818 0加速15

16 000 0

4 000 0

加速

表7中环境车辆速度为15 m/s，纵向距离一直小于0表明环境车辆在代理车辆前方，由于代理车

辆和环境车辆进人匣道口时初始速度相同，为保证行驶安全，代理车辆会尽最大可能争取奖励，此时代理车辆学习到的策略是减速让行。

表7环境车辆速度为15 m/s时的测试结果

代理车辆速度/(m • s-1)

纵向距离/m

横向距离/m

动作15-4.800 04 000 0加速15-5 239 32 939 3加速15-5 678 71 878 7加速15-6 118 00 818 0加速15-6 557 4-0.242 6加速13-6 757 4-0.242 6减速11-6 757 4-0 242 6减速9-6 957 4-0 242 6减速7-6 957 4-0 242 6减速9-7 157 4-0 242 6加速11

-7 157 4

-0 242 6

加速

%结束语

本文针对无人驾驶匣道汇人问题，应用强化学

习方法构建匣道汇人模型，并在实验过程中从训练和应用2个方面对模型的有效性进行验证。在不断的离线训练过程中，代理车辆即无人驾驶车辆可以对不同的环境进行学习，最终学得安全通过匣道的策略。模型在线应用过程中，可以对不同的环境车辆速度采取不同的策略，提高了无人驾驶在匣道汇人场景中的智能化决策水平。但本文模型对动作空间的描述仍是离散的，如何对动作空间进行细化和连续化，将是下一步的研究方向。

参考文献

[1 ]

URMSON C，ANHALT J，BAGNELL D， et al.

Autonomous driving in urban environments ： b^s and the urban challenge [ J ]. Journal of Field Robotics，2008, 25(8):425566.

[2]

DONG C，DOLAN J M，LITKOUHI B. Intention estimation for ramp merging control in autonomous driving [ C ]//Proceedings of 2017 IEEE Intelligent Vehicles Symposium. Washington D. C.，USA: IEEE Press，2017:1584-1589.

[3 ]

HAFNER M R，CUNNINGHAM D，CAMINITI L，et al. Cooperative collision avoidance at intersections: algorithms and experiments [ J ]. IEEE Transactions on Intelligent Transportation Systems，2013，14(3) ：1162-1175.

[4 ]

ALONSO J，MILAN S V，REZ J，et al. Autonomous vehicle control systems for safe crossroads [ J ]. Transportation Research，Part C: Emerging Technologies，2011，19 ( 6 )： 1095-1110.

[5 ]

MARINESCU D，URN J，BOUROCHE M，et al. On- ramp traffic merging using cooperative intelligent vehicles:a slot-leased approach[ C]//Proceedings of the 15 th IEEE International Conference on Intelligent Transportation Systems. Washington D. C.，USA: IEEE Press，2012:900-906.

$下转第31页）

第44卷第7期

李飞琦，鲍泓，潘峰，等:智能车导航中的路口轨迹生成策略

[12]

[3 ] YAOJ，LIN C，XIE X，et al. Patli planning for virtual

human motion using improved A! star algorithm [ C ] // Proceedings of the 7th International Conference on Information Technology, New Generations. Washington = C.， USA:IEEE Press，2010,1154-1158.

[4 ][5 ]

任春明，张建勋.基于优化蚁群算法的机器人路径规划[J].计算机工程，2008,34( 15):1-3.

KOREN Y，BORENSTEIN J. Potential field methods and their inherent limitations for mobile robot navigation [ C] // Proceedings of IEEE International Conference on Robotics and Automation. Washington D. C.，USA: IEEE Press，

2002:1398-1404.

[13] YOU F，ZHANG R，GUO L，et al. Trajectory planning and tracking control for autonomous lane change maneuver based on the cooperative vehicle infrastructure system [ J ]. Expert Systems with Applications，2015， 42(14) :5932-5946.

WHITLEY D. A genetic al^^oritlim tutorial [ J]. Statistics and Computing，1994 &4(2) ：65-85.

[)]刘天孚，程如意.基于遗传算法的移动机器人路径规

划[J].计算机工程，2008,34( 17):214-215.[7 ]

ROBERGE V，TARBOUCHI M，LABONTE G . Comparison of paralel

genetic

algorithm and particle

swarm

optimization for real-time UAV patli planning [ J ]. IEEE Transactions on Industrial Informatics，2013,9(1) ：132-141.

[8]

GARAUB，BONET M，ALVAREZ A，et al. Path planning for autonomous underwater vehicles in realistic oceanic cu rent fields: application to gliders in the western mediterranean sea [ J ]. Journal of Maritime Research，2014,6(2):5-22.

[9 ]

王惠南，吴智博.采用卡尔曼滤波器的GPS/INS姿态组合系统的研究[J].中国惯性技术学报，2000,8(3):

[14] 魏秋明，梁军，鲍泓，等.异构计算平台图像边缘

检测算法优化研究[J].计算机工程，2017,43 (5):

240-247.

[15] 龚建伟，姜岩，徐威.无人驾驶车辆模型预测控制[M].北京：北京理工大学出版社，2014.[16 ]

GARCIA N M，LENKIEWICZ P，FREIRE M M，et al. On the performance of shortest patli routing algorithms for modeling and simulation of static source routed networks: an extension to the Dijkstra algorithm[C]//Proceedings of the 2nd International Conference on System and Networks Communications. Washington D. C.，USA: IEEE Computer Society，2007:60.

[17] 张歆奕，吴今培，张其善.车载导航仪中路径规划算法及其实现[J] ■计算机测量与控制，2001，9(4):15-17.[18] 王元彪.智能交通系统中Dijksm算法的高效实

现[J].计算机工程，2007,33(6):256-258.

1 -7 .

[10] KAVRAKIL，SVESTKA P，LATOMBE J，et al.

Probabilistic roadmaps for patli planning in highdimensional confguration spaces [ J ]. II^EE Transactions on Robotics and Automation，1994，12(4) :566-580.

[11] CAI C，FERRARI S. Information-driven sensor patli

planning by approximate cell decomposition [ J ]. IEEE Transactions on Systems Man and Cybernetics，Part B: Cybernetics，2009，39(3) :672-689.

[19] WANG H，YU Y，YUAN Q. Application ofDijksta

algorithm in robot path-planning [ C ]//Proceedings of International Conference on Mechanic Automation and USA: IEEE Control Engineering. Washington D. C.，Press，2011:1067-1069.

编辑金胡考

(上接第24页）

[6]

WEIJ，DOLAN J M，LITKOUHI B. Autonomous vehicle social behavior for highway entrance ramp management C]//Proceedings of 2013 IEEE Intelligent Vehicles Symposium. Washington D. C.，USA: IEEE Press，2013:201-207.

[7 ]

罗霞，何彪，刘硕智，等.车联网环境下交叉口车辆路径优化控制研究[J].计算机仿真，2017，34(4):

http://www.doc88.com/p-3813505208748.html.

[11] LITTMANML. Reinforcement learning improves beha-viour

from evaluative feedback [ J ]. Nature，2015，521 (7553 ): 445-51.

[12] 赵冬斌，邵坤，朱圆恒，等.深度强化学习综述：兼论计算机围祺的发展[J].控制理论与应用，2016,33(6):

701-717.

[13]

SILVERD，HUANG A，MADDISON C J，et al. Mastering the game of go witli deep neural networks and tee search[ J].Nature，2016,529(7587):484-489.

[14 ]

SILVERD，SCHRITTWIESERJ，SIMONYANK，et al. Mastering the game of go without human know- ledge[ J] . Nature，2017，550(7676):354-359.

[15] MNIHV，KAVUKCUOGLUK，SILVERD，et al. Playing

atari witli deep reinforcement learning [EB/OL].[2018- 01-25]. http://www0. cs. ucl. ac. uk/staff/D. Silver/web/ Publications_files/dqn. pdf.

[16] 刘全，翟建伟，章宗长，等.深度强化学习综述[J].

计算机学报，2018,41(1):1-27.

编辑吴云芳

166-171

[8]

HORSTRVD，HOGEMA J . Time-to-collision and collision avoidance systems [EB/OL]. [2018-01-25 ]. http://www. ictct. org/migrated_2014/ictct_document_ nr_365_Horst. pdf.

[ 9 ]

COSGUN A， MA L， CHIU J， et al Towards fu l automated dri^e in urban environments: a demonstration in gomentum station， California [ C ] //Proceedings of 2017 IEEE Intelligent Vehicles Symposium. Washington D. C.， USA:IEEEPress，2017 :1120-1128.

[10] ISELED，COSGUN A，SUBRAMANIAN K，et al .

Navigating intersections witli autonomous vehicles using deep reinforcement learning [ EB/OL ] . [ 2018-01-25 ].

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于强化学习的无人驾驶匝道汇入模型