移动体控制装置、移动体控制学习装置及移动体控制方法专利检索-非电变量的控制或调节系统专利检索查询-专利查询网

移动体控制装置、移动体控制学习装置及移动体控制方法
申请号	CN201880100419.0	申请日	2018-12-26	公开(公告)号	CN113260936B	公开(公告)日	2024-05-07
申请人	三菱电机株式会社;			发明人	太田佳; 南本高志;
摘要	本发明的移动体控制装置(100、100a)包括：移动体位置获取部(101)，其获取表示移动体(10)的位置的移动体位置信息；目标位置获取部(102)，其获取表示使移动体(10)移动的目标位置的目标位置信息；以及控制生成部(105、105a)，其基于模型信息、移动体位置获取部(101)获取到的移动体位置信息和目标位置获取部(102)获取到的目标位置信息，来生成表示用于使移动体向目标位置信息所示的目标位置移动的控制内容的控制信号，其中，上述模型信息表示使用包含通过参照表示参照路径的参照路径信息来评价移动体是否沿着参照路径移动从而计算报酬的项在内的、用于计算报酬的运算式进行学习而得的模型。
权利要求	1.一种移动体控制装置，其特征在于，包括：移动体位置获取部，该移动体位置获取部获取表示移动体的位置的移动体位置信息；目标位置获取部，该目标位置获取部获取表示使所述移动体移动的目标位置的目标位置信息；控制生成部，该控制生成部基于模型信息、所述移动体位置获取部获取到的所述移动体位置信息和所述目标位置获取部获取到的所述目标位置信息，来生成表示用于使所述移动体向所述目标位置信息所示的所述目标位置移动的控制内容的控制信号，其中，所述模型信息表示使用包含通过参照表示参照路径的参照路径信息来评价所述移动体是否沿着所述参照路径移动从而计算报酬的项在内的、用于计算报酬的运算式进行学习而得的模型；以及控制插补部，该控制插补部在所述控制生成部所生成的第1 控制信号所示的控制内容的一部分或全部缺失了的情况下，基于所述控制生成部之前刚生成的第2控制信号所示的控制内容，对所述第1控制信号中缺失的控制内容进行插补来校正所述第1控制信号，以使其相对于所述第2控制信号所示的控制内容具有预定的范围内的变化量。 2.如权利要求1所述的移动体控制装置，其特征在于，除了通过评价所述移动体是否沿着所述参照路径移动来计算报酬的项以外，所述运算式还包含以下的项：在所述移动体被控制信号所控制时，通过评价所述移动体的状态，计算报酬的项。 3.如权利要求1所述的移动体控制装置，其特征在于，除了通过评价所述移动体是否沿着所述参照路径移动来计算报酬的项以外，所述运算式还包含以下的项：通过评价所述移动体与障碍物的相对位置来计算报酬的项。 4.如权利要求1所述的移动体控制装置，其特征在于，所述参照路径信息基于随机搜索的结果来生成。 5.如权利要求1所述的移动体控制装置，其特征在于，所述参照路径信息基于所述移动体移动的行驶道路的行驶道路宽度方向上的规定的位置来生成。 6.如权利要求1所述的移动体控制装置，其特征在于，所述参照路径信息基于表示所述移动体过去所移动的路径的移动历史信息、或表示与所述移动体不同的其它移动体过去所移动的路径的其它历史信息来生成。 7.如权利要求1所述的移动体控制装置，其特征在于，还具备控制校正部，该控制校正部以使得与所述控制生成部之前刚生成的第2控制信号所示的控制内容相比，所述控制生成部所生成的第1控制信号所示的控制内容具有预定的范围内的变化量的方式，对所述第1控制信号进行校正。 8.如权利要求1所述的移动体控制装置，其特征在于，包括：参照路径获取部，该参照路径获取部获取表示所述参照路径的所述参照路径信息；移动体状态获取部，该移动体状态获取部获取表示所述移动体的状态的移动体状态信号；报酬计算部，该报酬计算部基于所述移动体位置获取部获取到的所述移动体位置信息、所述目标位置获取部获取到的所述目标位置信息、所述参照路径获取部获取到的所述参照路径信息和所述移动体状态获取部获取到的所述移动体状态信号，使用包含通过参照表示所述参照路径的所述参照路径信息来评价所述移动体是否沿着所述参照路径移动从而计算报酬的项在内的运算式，来计算报酬；以及模型更新部，该模型更新部基于所述移动体位置获取部获取到的所述移动体位置信息、所述目标位置获取部获取到的所述目标位置信息、所述移动体状态获取部获取到的所述移动体状态信号和所述报酬计算部计算出的报酬，来更新所述模型信息。 9.一种移动体控制学习装置，其特征在于，包括：移动体位置获取部，该移动体位置获取部获取表示移动体的位置的移动体位置信息；目标位置获取部，该目标位置获取部获取表示使所述移动体移动的目标位置的目标位置信息；参照路径获取部，该参照路径获取部获取表示参照路径的参照路径信息；报酬计算部，该报酬计算部基于所述移动体位置获取部获取到的所述移动体位置信息、所述目标位置获取部获取到的所述目标位置信息和所述参照路径获取部获取到的所述参照路径信息，使用包含通过评价所述移动体是否沿着所述参照路径移动来计算报酬的项在内的运算式来计算报酬；控制生成部，该控制生成部生成控制信号，该控制信号表示用于使所述移动体向所述目标位置信息所示的所述目标位置移动的控制内容；模型生成部，该模型生成部基于所述移动体位置获取部获取到的所述移动体位置信息、所述目标位置获取部获取到的所述目标位置信息、所述控制生成部所生成的所述控制信号以及所述报酬计算部计算出的报酬，对通过所述控制信号使所述移动体移动的价值进行评价，由此来生成模型信息；以及控制插补部，该控制插补部在所述控制生成部所生成的第1控制信号所示的控制内容的一部分或全部缺失了的情况下，基于所述控制生成部之前刚生成的第2控制信号所示的控制内容，对所述第1控制信号中缺失的控制内容进行插补来校正所述第1控制信号，以使其相对于所述第2控制信号所示的控制内容具有预定的范围内的变化量。 10.如权利要求9所述的移动体控制学习装置，其特征在于，具备移动体状态获取部，该移动体状态获取部获取表示所述移动体的状态的移动体状态信号，除了通过评价所述移动体是否沿着所述参照路径移动来计算报酬的项以外，所述运算式还包含以下的项：通过评价所述移动体状态获取部所获取到的所述移动体状态信号所示的所述移动体的状态来计算报酬的项；或者通过评价基于所述移动体的状态的所述移动体的行动来计算报酬的项。 11.如权利要求9所述的移动体控制学习装置，其特征在于，除了通过评价所述移动体是否沿着所述参照路径移动来计算报酬的项以外，所述运算式还包含以下的项：通过评价所述移动体与障碍物的相对位置来计算报酬的项。 12.如权利要求9所述的移动体控制学习装置，其特征在于，所述参照路径信息基于随机搜索的结果来生成。 13.如权利要求9所述的移动体控制学习装置，其特征在于，所述参照路径信息基于所述移动体移动的行驶道路的行驶道路宽度方向上的规定的位置来生成。 14.如权利要求9所述的移动体控制学习装置，其特征在于，所述参照路径信息基于表示所述移动体过去所移动的路径的移动历史信息、或表示与所述移动体不同的其它移动体过去所移动的路径的其它历史信息来生成。 15.如权利要求9所述的移动体控制学习装置，其特征在于，具备控制校正部，该控制校正部以使得与所述控制生成部之前刚生成的第2控制信号所示的控制内容相比，所述控制生成部所生成的第1控制信号所示的控制内容具有预定的范围内的变化量的方式，对所述第1控制信号进行校正。 16.一种移动体控制方法，其特征在于，移动体位置获取部获取表示移动体的位置的移动体位置信息，目标位置获取部获取表示使所述移动体移动的目标位置的目标位置信息，控制生成部基于模型信息、所述移动体位置获取部获取到的所述移动体位置信息和所述目标位置获取部获取到的所述目标位置信息，来生成表示用于使所述移动体向所述目标位置信息所示的所述目标位置移动的控制内容的控制信号，其中，所述模型信息表示使用包含通过参照表示参照路径的参照路径信息来评价所述移动体是否沿着所述参照路径移动从而计算报酬的项在内的、用于计算报酬的运算式进行学习而得的模型，控制插补部在所述控制生成部所生成的第1控制信号所示的控制内容的一部分或全部缺失了的情况下，基于所述控制生成部之前刚生成的第2控制信号所示的控制内容，对所述第1控制信号中缺失的控制内容进行插补来校正所述第1控制信号，以使其相对于所述第2控制信号所示的控制内容具有预定的范围内的变化量。
说明书全文	移动体控制装置、移动体控制学习装置及移动体控制方法技术领域 [0001] 本发明涉及移动体控制装置、移动体控制学习装置及移动体控制方法。背景技术 [0002] 存在如下技术：基于预先设定的规则来自动决定移动体移动的路径，并基于所决定的路径来对移动体进行移动控制。 [0003] 例如，专利文献1中公开了一种移动机器人控制系统，其包括：车辆，该车辆具有移动装置；地图信息存储部，该地图信息存储部存储包含行驶规则信息在内的地图信息，所述行驶规则信息预先确定车辆在规定的移动区域中移动时的行驶规则，并根据行驶规则使规定的移动区域的路径搜索成本变化；路径搜索部，该路径搜索部基于地图信息存储部中所存储的地图信息，搜索从移动起点到移动终点的路径；以及移动控制部，该移动控制部基于路径搜索部所搜索出的路径，来生成移动装置的控制指令值。 [0004] 现有技术文献 [0005] 专利文献 [0006] 专利文献1：日本专利第5402057号发明内容 [0007] 发明所要解决的技术问题 [0008] 专利文献1所公开的技术中，在移动体移动的二维平面上虚拟地配置离散的网格，对移动体通过各网格时所能获得的报酬进行分配，并以移动体的报酬的和为最大的方式来决定路径。 [0009] 然而，在基于虚拟配置的离散的网格来决定路径的情况下，实际上移动体应当移动的路径不连续，因此存在如下问题：用于使移动体移动的加速器、制动器或方向盘等的控制变得不连续。 [0010] 为了解决上述问题，要求使离散的网格的间隔变窄从而在更精细的网格中决定路径、或者在连续的平面上决定路径。 [0011] 然而，若在更精细的网格或连续的平面上决定路径，则存在如下问题：运算量较为庞大，决定路径需要时间。 [0012] 本发明用于解决上述问题，其目的在于提供一种移动体控制装置，能减少运算量，并控制移动体，以使得移动体不进行不连续的动作。 [0013] 用于解决技术问题的技术手段 [0014] 本发明所涉及的移动体控制装置包括：移动体位置获取部，该移动体位置获取部获取表示移动体的位置的移动体位置信息；目标位置获取部，该目标位置获取部获取表示使移动体移动的目标位置的目标位置信息；以及控制生成部，该控制生成部基于模型信息、移动体位置获取部获取到的移动体位置信息和目标位置获取部获取到的目标位置信息，来生成表示用于使移动体向目标位置信息所示的目标位置移动的控制内容的控制信号，其中，所述模型信息表示使用包含通过参照表示参照路径的参照路径信息并根据移动体沿着参照路径移动来计算报酬的项在内的运算式进行学习而得的模型。 [0015] 发明效果 [0016] 根据本发明，能减少运算量，并控制移动体，以使得移动体不进行不连续的动作。附图说明 [0017] 图1是示出实施方式1所涉及的移动体控制装置的结构的一个示例的框图。 [0018] 图2A和图2B是示出实施方式1所涉及的移动体控制装置的主要部分的硬件结构的一个示例的图。 [0019] 图3是说明实施方式1所涉及的移动体控制装置的处理的一个示例的流程图。 [0020] 图4是示出实施方式1所涉及的移动体控制学习装置的结构的一个示例的框图。 [0021] 图5是示出当实施方式1所涉及的移动体的状态为状态St时从移动体所能采取的行动at中选择行动a的一个示例的图。 [0022] 图6是说明实施方式1所涉及的移动体控制学习装置的处理的一个示例的流程图。 [0023] 图7A、图7B和图7C是示出移动体到达目标位置前所移动的路径的一个示例的图。 [0024] 图8是示出实施方式2所涉及的移动体控制装置的结构的一个示例的框图。 [0025] 图9是说明实施方式2所涉及的移动体控制装置的处理的一个示例的流程图。具体实施方式 [0026] 以下，参照附图对本发明的实施方式进行详细说明。 [0027] 实施方式1. [0028] 参照图1，说明实施方式1所涉及的移动体控制装置100的主要部分的结构。 [0029] 图1是示出实施方式1所涉及的移动体控制装置100的结构的一个示例的框图。 [0030] 如图1所示，移动体控制装置100应用于移动体控制系统1。 [0031] 移动体控制系统1包括移动体控制装置100、移动体10、网络20和存储装置30。 [0032] 移动体10例如是在道路等上行驶的车辆、或在通路等上行驶的移动机器人等能自动行驶的移动装置。实施方式1中，将移动体10设为在道路上行驶的车辆来进行说明。 [0033] 移动体10包括行驶控制单元11、位置确定单元12、拍摄单元13和传感器信号输出单元14。 [0034] 行驶控制单元11用于基于所输入的控制信号来进行移动体10的行驶控制。行驶控制单元11是用于对移动体10所具备的加速器、制动器、档位或方向盘等进行控制的加速器控制单元、制动器控制单元、档位控制单元或方向盘控制单元等。 [0035] 例如，在行驶控制单元11是加速器控制单元的情况下，行驶控制单元11基于所输入的控制信号控制加速器踏板的踩踏量，由此来控制从发动机或电动机等输出的动力的大小。此外，例如，在行驶控制单元11是制动器控制单元的情况下，行驶控制单元11基于所输入的控制信号控制制动器踏板的踩踏量，由此来控制制动器压力的大小。此外，例如，在行驶控制单元11是档位控制单元的情况下，行驶控制单元11基于所输入的控制信号来进行档位的变更控制。此外，例如，在行驶控制单元11是方向盘控制单元的情况下，行驶控制单元11基于所输入的控制信号来控制方向盘的转向角。 [0036] 行驶控制单元11输出表示当前的移动体10的行驶控制状态的移动体状态信号。 [0037] 例如，在行驶控制单元11是加速器控制单元的情况下，行驶控制单元11输出表示当前的加速器踏板的踩踏量的加速器状态信号。此外，例如，在行驶控制单元11是制动器控制单元的情况下，行驶控制单元11输出表示当前的制动器踏板的踩踏量的制动器状态信号。此外，例如，在行驶控制单元11是档位控制单元的情况下，行驶控制单元11输出表示当前的档位的状态的档位状态信号。此外，例如，在行驶控制单元11是方向盘控制单元的情况下，行驶控制单元11输出表示当前的方向盘的转向角的方向盘状态信号。 [0038] 位置确定单元12将使用GPS(Global Positioning System：全球定位系统)信号等的GNSS(Global Navigation Satellite System：全球导航卫星系统)信号确定出的移动体10的当前位置作为移动体位置信息来输出。使用GNSS信号来确定移动体10的当前位置的方法是公知的，因此省略说明。 [0039] 拍摄单元13是数字摄像头等拍摄装置，将拍摄移动体10的周围而得到的图像作为图像信息来输出。 [0040] 传感器信号输出单元14将移动体10所具备的速度传感器、加速度传感器或物体传感器等检测传感器所检测到的、表示移动体10的速度的速度信号、表示移动体10的加速度的加速度信号或表示移动体10周围所存在的物体的物体信号等作为移动体状态信号来输出。 [0041] 网络20是由CAN(Controller Area Network：控制器局域网)、LAN(Local Area Network：局域网)等有线网络、或者无线LAN或LTE(Long Term Evolution：长期演进)(注册商标)等无线网络等所构成的通信单元。 [0042] 存储装置30用于存储移动体控制装置100生成控制信号所需的信息，该控制信号表示用于使移动体10向目标位置移动的控制内容。移动体控制装置100生成表示用于使移动体10向目标位置移动的控制内容的控制信号所需的信息例如是模型信息或地图信息。存储装置30例如具有硬盘驱动器或SD存储卡等非易失性存储介质，并将移动体控制装置100生成控制信号所需的信息存储于非易失性存储介质。 [0043] 移动体10所具备的行驶控制单元11、位置确定单元12、拍摄单元13、传感器信号输出单元14、存储装置30以及移动体控制装置100分别连接到网络20。 [0044] 移动体控制装置100基于模型信息、移动体位置信息和目标位置信息生成控制信号，并经由网络20将所生成的控制信号输出到移动体10，上述控制信号表示用于使移动体10向目标位置移动的控制内容。 [0045] 实施方式1中，设为移动体控制装置100设置于远离移动体10的远程来进行说明。移动体控制装置100并不限于设置于远离移动体10的远程，也可以搭载于移动体10。 [0046] 移动体控制装置100包括移动体位置获取部101、目标位置获取部102、模型获取部103、地图信息获取部104、控制生成部105和控制输出部106。除了上述结构以外，移动体控制装置100也可以包括图像获取部111、移动体状态获取部112、控制校正部113和控制插补部114。 [0047] 移动体位置获取部101从移动体10获取表示移动体10的位置的移动体位置信息。移动体位置获取部101经由网络20，从移动体10所具备的位置确定单元12获取移动体位置信息。 [0048] 目标位置获取部102获取表示使移动体10移动的目标位置的目标位置信息。目标位置获取部102例如接受用户对未图示的输入装置的操作而输入的目标位置信息，由此来获取目标位置信息。 [0049] 模型获取部103获取模型信息。模型获取部103经由网络20从存储装置30读取模型信息，由此来获取模型信息。另外，实施方式1中，在控制生成部105等预先保持模型信息的情况下，模型获取部103在移动体控制装置100中并非是必须的结构。 [0050] 地图信息获取部104获取地图信息。地图信息获取部104经由网络20从存储装置30读取地图信息，由此来获取地图信息。另外，实施方式1中，在控制生成部105预先保持地图信息的情况下，地图信息获取部104在移动体控制装置100中并非是必须的结构。 [0051] 地图信息例如是包含障碍物信息的图像信息，该障碍物信息表示当移动体10移动时不能接触的物体(以下称为“障碍物”)的位置或区域。障碍物例如是建筑物、围墙或护栏。 [0052] 控制生成部105基于模型获取部103所获取到的模型信息、移动体位置获取部101所获取到的移动体位置信息和目标位置获取部102所获取到的目标位置信息来生成控制信号，该控制信号表示用于使移动体10向目标位置信息所示的目标位置移动的控制内容。 [0053] 模型信息所示的模型使用用于计算报酬的运算式进行学习而得到，上述运算式包含通过参照表示参照路径的参照路径信息来评价移动体10是否沿着参照路径移动从而计算报酬的项。 [0054] 具体而言，例如，模型信息是包含对应信息的信息，该对应信息将移动体位置获取部101所获取到的移动体位置信息所示的移动体10的位置、与表示用于使移动体10移动的控制内容的控制信号对应起来。对应信息是在彼此不同的多个目标位置中、针对每个目标位置使多个位置与对应于各位置的控制信号成组的信息。模型信息包含多个对应信息，各对应信息与彼此不同的多个目标位置的每一个相对应。 [0055] 控制生成部105从模型信息中所包含的对应信息中确定与目标位置获取部102所获取到的目标位置信息所示的目标位置相对应的对应信息，并基于确定出的对应信息、与移动体位置获取部101所获取到的移动体位置信息，来生成控制信息。 [0056] 更具体而言，控制生成部105参照所确定的对应信息，来确定与移动体位置获取部101所获取到的移动体位置信息所示的位置相对应的控制信号，由此来生成表示用于使移动体10移动的控制内容的控制信号。 [0057] 控制输出部106经由网络20将控制生成部105所生成的控制信号输出到移动体10。 [0058] 移动体10所具备的行驶控制单元11经由网络20接收控制输出部106所输出的控制信号，并且如上述那样，将接收到的控制信号作为输入信号，并基于该控制信号来进行移动体10的行驶控制。 [0059] 图像获取部111经由网络20，从拍摄单元13获取移动体10所具备的拍摄单元13拍摄移动体10的周围而得到的图像信息。 [0060] 作为从移动体10所具备的位置确定单元12获取移动体位置信息的替代，上述移动体位置获取部101例如可以基于使用公知的图像分析技术对图像获取部111所获取到的图像信息进行分析而得的图像信息所示的移动体10的周围状况、以及地图信息中所包含的表示移动体10行驶的路径中的风景的信息等，来确定移动体10的位置，由此来获取移动体位置信息。 [0061] 移动体状态获取部112获取表示移动体10的状态的移动体状态信号。移动体状态获取部112经由网络20，从移动体10所具备的行驶控制单元11或传感器信号输出单元14获取移动体状态信号。 [0062] 移动体状态获取部112所获取的移动体状态信号例如是加速器状态信号、制动器状态信号、档位状态信号、方向盘状态信号、速度信号、加速度信号或物体信号等。 [0063] 控制校正部113以使得与控制生成部105之前刚生成的控制信号(以下称为“第2控制信号”)所示的控制内容相比较，控制生成部105所生成的控制信号(以下称为“第1控制信号”)所示的控制内容具有预定范围内的变化量的方式，对第1控制信号进行校正。 [0064] 例如，在控制校正部113生成的控制信号所示的控制内容为用于进行方向盘的转向角控制的控制信号的情况下，控制校正部113对第1控制信号所示的转向角控制的转向角进行校正，以使得与第2控制信号所示的转向角控制的转向角相比，第1控制信号所示的转向角控制的转向角变为不发生急转向的范围，其中，上述方向盘的转向角控制用于使移动体10行驶的方向变更。 [0065] 此外，例如，在控制校正部113生成的控制信号所示的控制内容为用于使移动体10行驶的速度变更的加速器的节气门控制、或制动器的制动器压力控制等的控制信号的情况下，控制校正部113对第1控制信号所示的控制内容进行校正，以使得与第2控制信号所示的控制内容相比，第1控制信号所示的控制内容变为不发生急加速或急减速的范围。 [0066] 通过具有控制校正部113，移动体控制装置100能使移动体10稳定地行驶，以使得在移动体10中不发生急转向、急加速或急减速等。 [0067] 另外，说明了控制校正部113对第1控制信号与第2控制信号进行比较的示例，但控制校正部113也可以将第1控制信号与移动体状态获取部112获取的移动体状态信号进行比较，并对第1控制信号进行校正，以使得在移动体10中，相对于行驶控制单元11进行的控制具有预定的范围内的变化量。 [0068] 此外，控制生成部105生成的控制信号的控制内容可以是转向角控制、节气门控制或制动器压力控制等的控制信号中的一个控制信号，也可以将多个控制信号相组合。 [0069] 在控制生成部105生成的第1控制信号所示的控制内容的一部分或全部缺失的情况下，控制插补部114基于控制生成部105之前刚生成的第2控制信号所示的控制内容，对第1控制信号中的缺失的控制内容进行插补来校正第1控制信号。当控制插补部114基于第2控制信号所示的控制内容对第1控制信号中的缺失的控制内容进行插补时，进行插补来校正第1控制信号，以使得第1控制信号中的缺失的控制内容相对于第2控制信号所示的控制内容具有预定的范围内的变化量。 [0070] 例如，在控制生成部105每隔预定的期间定期地生成控制信号，并进行移动体10的控制的情况下，控制生成部105所进行的控制信号的生成有时不在该期间内完成。该情况下，例如，控制生成部105所生成的控制信号成为控制内容的一部分或全部缺失的状态。例如，在控制信号所示的控制内容是指定绝对值而非相对值的控制信号的情况下，若控制生成部105生成的控制信号的控制内容的一部分或全部缺失，则在移动体10中，有可能发生急转向、急加速或急减速等。 [0071] 通过具有控制插补部114，移动体控制装置100能使移动体10稳定地行驶，以使得在移动体10中不发生急转向、急加速或急减速等。 [0072] 另外，说明了在控制插补部114对第1控制信号中的缺失的控制内容进行插补时，基于第2控制信号来对第1控制信号进行插补的示例，但控制校正部113也可以基于移动体状态获取部112获取的移动体状态信号来对第1控制信号进行插补来进行校正，以使得在移动体10中，相对于行驶控制单元11进行的控制具有预定的范围内的变化量。 [0073] 参照图2A和图2B，说明实施方式1所涉及的移动体控制装置100的主要部分的硬件结构。 [0074] 图2A和图2B是示出实施方式1所涉及的移动体控制装置100的主要部分的硬件结构的一个示例的图。 [0075] 如图2A所示，移动体控制装置100由计算机构成，该计算机具有处理器201和存储器202。存储器202存储有程序，该程序用于使该计算机作为移动体位置获取部101、目标位置获取部102、模型获取部103、地图信息获取部104、控制生成部105、控制输出部106、图像获取部111、移动体状态获取部112、控制校正部113和控制插补部114来发挥功能。通过由处理器201读取并执行存储器202中所存储的程序，从而实现移动体位置获取部101、目标位置获取部102、模型获取部103、地图信息获取部104、控制生成部105、控制输出部106、图像获取部111、移动体状态获取部112、控制校正部113和控制插补部114。 [0076] 此外，如图2B所示，移动体控制装置100可以由处理电路203构成。该情况下，移动体位置获取部101、目标位置获取部102、模型获取部103、地图信息获取部104、控制生成部105、控制输出部106、图像获取部111、移动体状态获取部112、控制校正部113和控制插补部 114的功能可以由处理电路203来实现。 [0077] 此外，移动体控制装置100可以由处理器201、存储器202和处理电路203所构成(未图示)。该情况下，移动体位置获取部101、目标位置获取部102、模型获取部103、地图信息获取部104、控制生成部105、控制输出部106、图像获取部111、移动体状态获取部112、控制校正部113和控制插补部114的功能中的一部分功能可以由处理器201和存储器202来实现，剩余的功能可以由处理电路203来实现。 [0078] 处理器201例如使用CPU(Central Processing Unit：中央处理单元)、GPU(Graphics Processing Unit：图形处理单元)、微处理器、微控制器或DSP(Digital Signal Processor：数字信号处理器)。 [0079] 存储器202例如使用半导体存储器或磁盘。更具体地，存储器202例如使用RAM(Random Access Memory：随机存取存储器)、ROM(Read Only Memory：只读存储器)、闪存、EPROM(Erasable Programmable Read Only Memory：可擦可编程只读存储器)或EEPROM(Electrically Erasable Programmable Read‑Only Memory：电可擦可编程只读存储器)、SSD(Solid State Drive:固态驱动器)或HDD(Hard Disk Drive：硬盘驱动器)等。 [0080] 处理电路203例如使用ASIC(Application Specific Integrated Circuit：专用集成电路)、PLD(Programmabel Logic Device：可编程逻辑器件)、FPGA(Field‑Programmable Gate Array：现场可编程门阵列)、SoC(System‑on‑a‑Chip：系统级芯片)或系统LSI(Large‑Scale Integration：大规模集成电路)。 [0081] 参照图3，说明实施方式1所涉及的移动体控制装置100的动作。 [0082] 图3是示出实施方式1所涉及的移动体控制装置100的处理的一个示例的流程图。 [0083] 移动体控制装置100例如在每次设定新的目标位置时重复执行该流程图的处理。 [0084] 首先，在步骤ST301中，地图信息获取部104获取地图信息。 [0085] 首先，在步骤ST302中，目标位置获取部102获取目标位置信息。 [0086] 接着，在步骤ST303中，模型获取部103获取模型信息。 [0087] 接着，在步骤ST304中，控制生成部105确定模型信息中所包含的对应信息中、与目标位置信息所示的目标位置对应的对应信息。 [0088] 接着，在步骤ST305中，移动体位置获取部101获取移动体位置信息。 [0089] 接着，在步骤ST306中，控制生成部105判定移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置是否相同。另外，这里所说的相同并不一定局限于完全一致，相同包含大致相同。 [0090] 步骤ST306中，在控制生成部105判定为移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置相同的情况下，移动体控制装置100结束该流程图的处理。 [0091] 步骤ST306中，在控制生成部105判定为移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置不同的情况下，在步骤ST307中，控制生成部105参照所确定的对应信息，来确定与移动体位置信息所示的位置对应的控制信号，由此来生成表示用于使移动体10移动的控制内容的控制信号。 [0092] 接着，在步骤ST308中，控制校正部113以使得与控制生成部105之前刚生成的第2控制信号所示的控制内容相比较，控制生成部105所生成的第1控制信号所示的控制内容具有预定的范围内的变化量的方式，对第1控制信号进行校正。 [0093] 接着，步骤ST309中，在控制生成部105生成的第1控制信号所示的控制内容的一部分或全部缺失的情况下，控制插补部114基于控制生成部105之前刚生成的第2控制信号所示的控制内容，对第1控制信号中的缺失的控制内容进行插补来校正第1控制信号。 [0094] 接着，步骤ST310中，控制输出部106将控制生成部105所生成的控制信号、或者控制校正部113或控制插补部114校正后的控制信号输出到移动体10。 [0095] 移动体控制装置100在执行了步骤ST310的处理之后，返回步骤ST305的处理，在步骤ST306中，到控制生成部105判定为移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置相同为止的期间中，重复执行步骤ST305至步骤ST310的处理。 [0096] 另外，在该流程图的处理中，若步骤ST301至步骤ST303的处理在步骤ST304的处理之前执行，则执行的顺序无关紧要。此外，在该流程图的处理中，步骤ST308和步骤ST309的处理的执行顺序可以相反。 [0097] 对模型信息的生成方法进行说明。 [0098] 移动体控制装置100生成控制信号时所使用的模型信息由移动体控制学习装置300来生成。 [0099] 移动体控制学习装置300生成用于控制移动体10的控制信号，利用该控制信号控制移动体10来进行用于控制移动体10的学习，并生成在移动体控制装置100控制移动体10时所使用的模型信息。 [0100] 参照图4，说明实施方式1所涉及的移动体控制学习装置300的主要部分的结构。 [0101] 图4是示出实施方式1所涉及的移动体控制学习装置300的结构的一个示例的框图。 [0102] 如图4所示，移动体控制学习装置300应用于移动体控制学习系统3。 [0103] 在移动体控制学习系统3的结构中，对于与移动体控制系统1相同的结构，标注相同的标号并省略重复的说明。即，对附加了与图1中记载的标号相同的标号的图4的结构省略说明。 [0104] 移动体控制学习系统3包括移动体控制学习装置300、移动体10、网络20和存储装置30。 [0105] 移动体10所具备的行驶控制单元11、位置确定单元12、拍摄单元13、传感器信号输出单元14、存储装置30以及移动体控制学习装置300分别连接到网络20。 [0106] 移动体控制学习装置300基于移动体位置信息、目标位置信息和参照路径信息，来生成在生成控制信号时所使用的模型信息，上述控制信号表示用于由移动体控制装置100使移动体10向目标位置移动的控制内容。 [0107] 实施方式1中，设为移动体控制学习装置300设置于远离移动体10的远程来进行说明。移动体控制学习装置300并不限于设置于远离移动体10的远程，也可以搭载于移动体10。 [0108] 移动体控制学习装置300包括移动体位置获取部301、目标位置获取部302、地图信息获取部304、移动体状态获取部312、参照路径获取部320、报酬计算部321、模型生成部322、控制生成部305、控制输出部306和模型输出部323。除了上述结构以外，移动体控制学习装置300也可以包括图像获取部311、控制校正部313和控制插补部314。 [0109] 另外，实施方式1所涉及的移动体控制学习装置300中的移动体位置获取部301、目标位置获取部302、地图信息获取部304、移动体状态获取部312、参照路径获取部320、报酬计算部321、模型生成部322、控制生成部305、控制输出部306、模型输出部323、图像获取部311、控制校正部313和控制插补部314的各功能可以由在图2A和图2B中示出了实施方式1所涉及的移动体控制装置100的一个示例的硬件结构中的处理器201和存储器202来实现，或者也可以由处理电路203来实现。 [0110] 移动体位置获取部301从移动体10获取表示移动体10的位置的移动体位置信息。移动体位置获取部301经由网络20，从移动体10所具备的位置确定单元12获取移动体位置信息。 [0111] 目标位置获取部302获取表示使移动体10移动的目标位置的目标位置信息。目标位置获取部302例如接受用户对未图示的输入装置的操作而输入的目标位置信息，由此来获取目标位置信息。 [0112] 地图信息获取部304获取地图信息。地图信息获取部304经由网络20从存储装置30读取地图信息，由此来获取地图信息。另外，实施方式1中，在参照路径获取部320、报酬计算部321等预先保持地图信息的情况下，地图信息获取部304在移动体控制学习装置300中并非是必须的结构。 [0113] 地图信息例如是包含障碍物信息的图像信息，该障碍物信息表示当移动体10移动时不能接触的物体(以下称为“障碍物”)的位置或区域。障碍物例如是建筑物、围墙或护栏。 [0114] 图像获取部311经由网络20，从拍摄单元13获取移动体10所具备的拍摄单元13拍摄移动体10的周围而得到的图像信息。 [0115] 作为从移动体10所具备的位置确定单元12获取移动体位置信息的替代，上述移动体位置获取部301例如可以基于使用公知的图像分析技术对图像获取部311所获取到的图像信息进行分析而得的图像信息所示的移动体10的周围状况、以及地图信息中所包含的表示移动体10行驶的路径中的风景的信息等，来确定移动体10的位置，由此来获取移动体位置信息。 [0116] 移动体状态获取部312获取表示移动体10的状态的移动体状态信号。移动体状态信号经由网络20，从移动体10所具备的行驶控制单元11或传感器信号输出单元14获取移动体状态信号。 [0117] 移动体状态获取部312所获取的移动体状态信号例如是加速器状态信号、制动器状态信号、档位状态信号、方向盘状态信号、速度信号、加速度信号或物体信号等。 [0118] 参照路径获取部320获取表示包含从移动体位置获取部301所获取到的移动体位置信息所示的移动体10的位置起、到目标位置获取部302所获取到的目标位置信息所示的目标位置为止的路径中的、至少一部分的路径在内的参照路径的参照路径信息。 [0119] 参照路径获取部320例如使未图示的显示装置显示地图信息获取部304所获取到的地图信息，并由未图示的输入装置从用户接受输入，来获取所输入的参照路径信息。 [0120] 参照路径获取部320中的参照路径信息的获取方法并不限于上述方法。 [0121] 例如，参照路径获取部320可以基于移动体位置信息、目标位置信息和地图信息，来执行使用了RRT(Rapidly‑exploring Random Tree：快速搜索随机树)等的随机搜索，并基于随机搜索的结果来生成参照路径信息，由此来获取参照路径信息。 [0122] 参照路径获取部320通过在获取参照路径信息时使用随机搜索的结果，从而能自动生成参照路径信息。 [0123] 另外，通过使用了RRT等的随机搜索来求出2个地点间的路径的方法是公知的，因此省略说明。 [0124] 此外，例如，参照路径获取部320可以在从移动体位置信息所示的移动体10的位置起到目标位置信息所示的目标位置为止的区间中，确定移动体10移动的行驶道路(以下称为“车道”)的行驶道路宽度方向上的规定的位置，并基于所确定的车道的行驶道路宽度方向上的位置来生成参照路径信息，由此来获取参照路径信息。 [0125] 车道的行驶道路宽度方向上的规定的位置例如是车道的行驶道路宽度方向上的中央。车道的行驶道路宽度方向上的中央无需是车道的行驶道路宽度方向上的严格中央，包含大致中央。此外，车道的行驶道路宽度方向上的中央仅仅是车道的行驶道路宽度方向上的规定的位置的一个示例，车道的行驶道路宽度方向上的规定的位置并不限于车道的行驶道路宽度方向上的中央。 [0126] 车道的行驶道路宽度例如可以由参照路径获取部320基于地图信息、或能确定地图信息中所包含的车道的形状的航空照片等图像信息来确定。 [0127] 参照路径获取部320通过在获取参照路径信息时使用移动的行驶道路的行驶道路宽度方向上的规定的位置，从而能自动生成参照路径信息。 [0128] 此外，例如，参照路径获取部320可以在从移动体位置信息所示的移动体10的位置到目标位置信息所示的目标位置为止的区间中，基于表示移动体10过去所移动的路径的移动历史信息、或表示不同于移动体10的其它的移动体即其它移动体(未图示)过去所移动的路径的其它历史信息，来生成参照路径信息，从而获取参照路径信息。 [0129] 移动历史信息例如是当移动体10过去在该区间中移动时由移动体10所具备的位置确定单元12使用GPS信号等GNSS信号所确定出的、表示该区间中的移动体10的离散的位置的信息。移动体10所具备的位置确定单元12例如在移动体10过去在该区间中移动时经由网络20使存储装置30存储移动历史信息。参照路径获取部320从存储装置30读取移动历史信息，由此来获取移动历史信息。 [0130] 同样地，其它历史信息例如是当其它移动体过去在该区间中移动时由其它移动体所具备的位置确定单元12使用GPS信号等GNSS信号所确定出的、表示该区间中的其它移动体的离散的位置的信息。其它移动体所具备的位置确定单元12例如在其它移动体过去在该区间中移动时经由网络20使存储装置30存储其它历史信息。参照路径获取部320从存储装置30读取其它历史信息，由此来获取其它历史信息。 [0131] 另外，在其它移动体所具备的位置确定单元12经由网络20使存储装置30存储其它历史信息、且移动体10所具备的参照路径获取部320经由网络20从存储装置30读取其它历史信息的情况下，存储装置30当然也可以构成为例如也能从其它移动体所具备的位置确定单元12、或从移动体10所具备的参照路径获取部320经由网络20来访问。 [0132] 参照路径获取部320利用线段或曲线将移动历史信息或其它历史信息所示的该区间中的移动体10或其它移动体的离散的位置连接起来，由此来生成参照路径信息。 [0133] 参照路径获取部320通过在获取参照路径信息时使用移动历史信息或其它历史信息，从而能自动生成参照路径信息。 [0134] 报酬计算部321基于移动体位置获取部301所获取到的移动体位置信息、目标位置获取部302所获取到的目标位置信息、参照路径获取部320所获取到的参照路径信息，使用包含通过评价移动体10是否沿着参照路径移动来计算报酬的项在内的运算式来计算报酬。 [0135] 除了通过评价移动体10是否沿着参照路径移动来计算报酬的项以外，报酬计算部321计算报酬时所使用的运算式也可以包含以下的项：通过评价移动体状态获取部312所获取到的移动体状态信号所示的移动体10的状态来计算报酬的项，或者通过评价基于移动体 10的状态的移动体10的行动来计算报酬的项。计算报酬时所使用的表示移动体10的状态的移动体状态信号是加速器状态信号、制动器状态信号、档位状态信号、方向盘状态信号、速度信号、加速度信号或物体信号等。 [0136] 此外，除了通过评价移动体10是否沿着参照路径移动来计算报酬的项以外，报酬计算部321计算报酬时所使用的运算式也可以包含以下的项：通过评价移动体10与障碍物的相对位置来计算报酬的项。报酬计算部321例如使用移动体状态获取部312所获取到的物体信号来获取移动体10与障碍物的相对位置。报酬计算部321可以用公知的图像分析方法分析图像获取部311获取的对移动体10的周边进行拍摄而得的图像信息，由此来获取移动体10与障碍物的相对位置。此外，报酬计算部321可以通过将地图信息获取部304所获取到的地图信息中所包含的障碍物信息所示的障碍物的位置或区域、与移动体位置获取部301所获取到的移动体位置信息所示的移动体10的位置进行比较，由此来获取移动体10与障碍物的相对位置。 [0137] 具体而言，报酬计算部321使用以下式(1)，在从时刻t‑1处的移动体10的状态起，在到时刻t为止的期间移动体10基于任意的控制信号行动、且成为时刻t处的移动体10的状态时计算报酬。另外，时刻t‑1到时刻t为止的期间例如是控制生成部305生成对移动体10输出的控制信号的预定的时间间隔。 [0138] [0139] 这里，Rt是在时刻t处的报酬。 [0140] dgoal是表示目标位置信息所示的目标位置与时刻t处的移动体位置信息所示的移动体10的位置之间的距离的值。第1项即w1dgoal是基于该距离的报酬。另外，w1是预先确定的系数。 [0141] 第2项即w2是从时刻t‑1到时刻t为止针对时刻经过的惩罚，在用于计算报酬的式(1)中表示负的值。 [0142] IIgoal是表示移动体10是否到达目标位置的、例如由0或1来表示的二进制的值。第3项即w3IIgoal是移动体10到达目标位置的时刻处的报酬，在时刻t移动体10未到达目标位置的情况下，第3项即w3IIgoal的值为0。另外，w3是预先确定的系数。 [0143] IIcollision是表示移动体10是否接触到障碍物的、例如由0或1来表示的二进制的值。第4项即w4IIcollision是针对移动体10接触到障碍物的惩罚，在在用于计算报酬的式(1)中表示负的值。在时刻t移动体10未接触障碍物的情况下，第4项即w4IIcollision的值为0。另外，w4是预先确定的系数。 [0144] 是时刻t处的移动体10的加速度的绝对值。第5项即是针对移动体10的加速度的绝对值的惩罚，在用于计算报酬的式(1)中表示负的值。移动体10的加速度的绝对值越大，则第5项即的惩罚越大，因此，其结果是，移动体10加速度的绝对值越大，则用式(1)来计算的报酬即Rt的值越小。另外，w5是预先确定的系数。 [0145] dreference是表示时刻t处的移动体10的位置与参照路径之间的距离的值。第6项即w6dreference是针对移动体10的位置与参照路径之间的距离的惩罚，在用于计算报酬的式(1)中表示负的值。移动体10的位置与参照路径之间的距离越大，则第6项即w6dreference的惩罚越大，因此，其结果是，移动体10的位置与参照路径之间的距离越大，则用式(1)来计算的报酬即Rt的值越小。另外，w6是预先确定的系数。 [0146] nindex是表示在时刻从时刻t‑1前进到时刻t时、移动体10沿着参照路径向目标位置的方向所移动的距离的值。第7项即w7nindex是与在时刻从时刻t‑1前进到时刻t时、移动体10沿着参照路径向目标位置的方向所移动的距离相对应的报酬。另外，w7是预先确定的系数。 [0147] 模型生成部322利用Q学习法、Actor‑Critic(评价器)法或Sarsa法等TD(Temporal Difference：时间差分)学习法、或者蒙特卡罗法等强化学习来生成模型，并生成表示所生成的模型的模型信息。 [0148] 强化学习中，在某个时刻t的行动主体的状态St中，定义在行动主体能行动的1个以上的行动中、选择某个行动at来行动时的针对该某个行动at的价值Q(St，at)以及针对该某个行动at的报酬rt，并提高价值Q(St，at)和报酬rt。 [0149] 一般，行动价值函数的更新式用以下式(2)来表示。 [0150] Q(St，at)←Q(St，at)+α(rt+1+γmaxQ(St+1,at+1)‑Q(St，at))…式(2)[0151] 这里，St表示某个时刻t的行动主体的状态，at表示某个时刻t的行动主体的行动，St+1表示时刻从时刻t前进规定的时间间隔后的时刻t+1的行动主体的状态。在时刻t处于状态St的行动主体通过行动at，在时刻t+1转移到状态St+1。 [0152] Q(St，at)表示针对处于状态St的行动主体所进行的行动at的价值。 [0153] rt+1是表示行动主体从状态St转移到状态St+1时的报酬的值。 [0154] maxQ(St+1，at+1)表示在行动主体的状态为状态St+1时行动主体所能采取的行动at+1 中，行动主体选择Q(St+1，at+1)的值为最大值的行动a时的Q(St+1，a)。 [0155] γ是表示1以下的正值的参数，一般是被称为折扣率的值。 [0156] α是表示1以下的正值的学习系数。 [0157] 式(2)中，基于报酬rt+1、以及通过行动at转移后的行动主体的状态St+1下的行动主体进行的行动a的价值Q(St+1，a)，来更新行动主体的状态St下的行动主体进行的行动at的价值Q(St，at)，其中，上述报酬rt+1基于行动主体的状态St下的行动主体进行的行动at。 [0158] 具体而言，式(2)中，在基于状态St下的行动at的报酬rt+1、与通过行动at转移后的状态St+1下的行动a 的价值Q(St+1，a)之和比基于状态St下的行动at的价值Q(St，at)要大的情况下，进行更新以使价值Q(St，at)变大。反之，式(2)中，在基于状态St下的行动at的报酬 * rt+1、与通过行动at转移后的状态St+1下的行动a的价值Q(St+1，a)之和比基于状态St下的行动at的价值Q(St，at)要小的情况下，进行更新以使价值Q(St，at)变小。 [0159] 即，式(2)用于更新，以使得在行动主体位于某个状态的情况下，行动主体进行某个行动时的该行动的价值接近基于该行动的报酬、与通过该行动转移后的状态下的最佳的行动价值之和。 [0160] 行动主体的状态为状态St+1时行动主体能采取的行动at+1中，行动主体决定Q(St+1，at+1)的值为最大值的行动a 的方法例如有使用ε‑greedy法、Softmax法、或RBF(Radial Basis Function：径向基函数)函数的方法。上述方法是公知的，因此省略说明。 [0161] 在上述一般的式(2)中，行动主体是实施方式1所涉及的移动体10，行动主体的状态是实施方式1所涉及的移动体状态获取部312获取的移动体状态信号所示的移动体10的状态、或移动体位置获取部301获取到的移动体位置信息所示的移动体10的位置，行动是实施方式1所涉及的控制生成部305所生成的控制信号所示的用于使移动体10移动的控制内容。 [0162] 模型生成部322将式(1)应用于式(2)，由此来生成模型信息。模型生成部322生成对应信息，该对应信息将移动体位置获取部301所获取到的移动体位置信息所示的移动体10的位置、与表示用于使移动体10移动的控制内容的控制信号对应起来。对应信息是在彼此不同的多个目标位置中、针对每个目标位置使多个位置与对应于各位置的控制信号成组的信息。模型生成部322生成模型信息，该模型信息包含与彼此不同的多个目标位置分别对应的多个对应信息。 [0163] 参照图5，对实施方式1所涉及的移动体10的状态为状态St时从移动体10所能采取的行动at中选择行动a的方法进行说明。 [0164] 图5是示出当实施方式1所涉及的移动体10的状态为状态St时从移动体10所能采取的行动at中选择行动a的一个示例的图。 [0165] 图5中，ai、aj和a是在时刻t下、移动体10的状态为状态St时移动体10所能采取的行动。此外，Q(St，ai)、Q(St，aj)和Q(St，a)是移动体10的状态为状态St时移动体10进行行动 ai、行动aj和行动a时的针对各行动的价值。 [0166] 模型生成部322将式(1)应用于式(2)来生成模型信息，因此，价值Q(St，ai)、价值Q(St，aj)和价值Q(St，a)利用包含式(1)中的第6项和第7项在内的运算式来评价。即，移动体 10的位置与参照路径之间的距离越近、并且移动体10沿着参照路径向目标位置的方向所移动的距离越长，则价值Q(St，ai)、价值Q(St，aj)和价值Q(St，a)成为越高的值。 [0167] 因此，在对Q(St，ai)、价值Q(St，aj)和价值Q(St，a)进行比较的情况下，价值Q(St， a)表示最高的值，因此，模型生成部322在移动体10的状态为状态St时选择行动a ，并将状态St与对应于行动a的控制信号对应起来以生成模型信息。 [0168] 另外，优选为模型生成部322在生成模型信息时，采用计算报酬的恰当的运算式，*由此来使用能使得用于决定上述行动a的试行次数减少的TD学习。 [0169] 控制生成部305生成控制信号，该控制信号与模型生成部322生成模型信息时所选择的行动相对应。 [0170] 控制输出部306经由网络20将控制生成部305所生成的控制信号输出到移动体10。 [0171] 移动体10所具备的行驶控制单元11经由网络20接收控制输出部306所输出的控制信号，并且如上述那样，将接收到的控制信号作为输入信号，并基于该控制信号来进行移动体10的行驶控制。 [0172] 模型输出部323经由网络20将模型生成部322所生成的模型信息输出到存储装置30，并存储在存储装置30中。 [0173] 控制校正部313以使得与控制生成部305之前刚生成的控制信号(以下称为“第2控制信号”)所示的控制内容相比较，控制生成部305所生成的控制信号(以下称为“第1控制信号”)所示的控制内容具有预定范围内的变化量的方式，对第1控制信号进行校正。 [0174] 另外，说明了控制校正部313对第1控制信号与第2控制信号进行比较的示例，但控制校正部313也可以将第1控制信号与移动体状态获取部312获取的移动体状态信号进行比较，并对第1控制信号进行校正，以使得在移动体10中，相对于行驶控制单元11进行的控制具有预定的范围内的变化量。 [0175] 控制校正部313与移动体控制装置100中的控制校正部113进行同样的动作，因此省略详细的说明。 [0176] 另外，模型生成部322可以使用控制校正部313校正后的控制信号来生成模型信息。 [0177] 在控制生成部305生成的第1控制信号所示的控制内容的一部分或全部缺失的情况下，控制插补部314基于控制生成部305之前刚生成的第2控制信号所示的控制内容，对第1控制信号中的缺失的控制内容进行插补来校正第1控制信号。当控制插补部314基于第2控制信号所示的控制内容对第1控制信号中的缺失的控制内容进行插补时，进行插补来校正第1控制信号，以使得第1控制信号中的缺失的控制内容相对于从第2控制信号所示的控制内容具有预定的范围内的变化量。 [0178] 另外，说明了在控制插补部314对第1控制信号中的缺失的控制内容进行插补时，基于第2控制信号来对第1控制信号进行插补的示例，但控制插补部314也可以基于移动体状态获取部312获取的移动体状态信号来对第1控制信号进行插补来进行校正，以使得在移动体10中，相对于行驶控制单元11进行的控制具有预定的范围内的变化量。 [0179] 控制插补部314与移动体控制装置100中的控制插补部114进行同样的动作，因此省略详细的说明。 [0180] 另外，模型生成部322可以使用控制插补部314校正后的控制信号来生成模型信息。 [0181] 参照图6，说明实施方式1所涉及的移动体控制学习装置300的动作。 [0182] 图6是示出实施方式1所涉及的移动体控制学习装置300的处理的一个示例的流程图。 [0183] 移动体控制学习装置300例如重复执行该流程图的处理。 [0184] 首先，在步骤ST601中，地图信息获取部304获取地图信息。 [0185] 首先，在步骤ST602中，目标位置获取部302获取目标位置信息。 [0186] 接着，在步骤ST603中，移动体位置获取部301获取移动体位置信息。 [0187] 接着，在步骤ST604中，移动体状态获取部312获取移动体状态信号。 [0188] 接着，在步骤ST605中，控制生成部305判定移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置是否相同。 [0189] 步骤ST605中，在控制生成部305判定为移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置不相同的情况下，移动体控制学习装置300执行步骤ST611之后的处理。 [0190] 步骤ST611中，报酬计算部321按每个行动计算移动体10所能采取的多个行动中的报酬。 [0191] 接着，步骤ST612中，模型生成部322基于报酬计算部321按每个行动计算出的报酬、该每个行动的价值、以及该每个行动之后能采取的多个行动每一个的价值，来选择应当进行的行动。 [0192] 接着，步骤ST613中，控制生成部305生成与模型生成部322所选择的行动对应的控制信号。 [0193] 接着，在步骤ST614中，控制校正部313以使得与控制生成部305之前刚生成的第2控制信号所示的控制内容相比较，控制生成部305所生成的第1控制信号所示的控制内容具有预定的范围内的变化量的方式，对第1控制信号进行校正。 [0194] 接着，步骤ST615中，在控制生成部305生成的第1控制信号所示的控制内容的一部分或全部缺失的情况下，控制插补部314基于控制生成部305之前刚生成的第2控制信号所示的控制内容，对第1控制信号中的缺失的控制内容进行插补来校正第1控制信号。 [0195] 接着，步骤ST616中，模型生成部322通过生成对应信息来生成模型信息，该对应信息将移动体位置获取部301获取到的移动体位置信息所示的移动体10的位置、与控制生成部305所生成的控制信号或者控制校正部313或控制插补部314校正后的控制信号对应起来。 [0196] 接着，步骤ST617中，控制输出部306将控制生成部305所生成的控制信号、或者控制校正部313或控制插补部314校正后的控制信号输出到移动体10。 [0197] 移动体控制学习装置300在执行了步骤ST617的处理之后，返回步骤ST603的处理，在步骤ST605中，到控制生成部305判定为移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置相同为止的期间中，重复执行步骤ST603至步骤ST617的处理。 [0198] 步骤ST605中，在控制生成部305判定为移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置相同的情况下，在步骤ST621中，模型输出部323输出模型生成部322所生成的模型信息。 [0199] 在执行了步骤ST621的处理之后，移动体控制学习装置300结束该流程图的处理。 [0200] 另外，在该流程图的处理中，步骤ST601和步骤ST602的处理的执行顺序可以相反。此外，在该流程图的处理中，步骤ST614和步骤ST615的处理的执行顺序可以相反。 [0201] 图7是示出移动体10到达目标位置所移动的路径的一个示例的图。图7A示出从某个时刻下的移动体10的位置到目标位置为止设定参照路径并使用式(1)所示的运算式的情况，图7B示出从某个时刻下的移动体10的位置到目标位置的中途设定参照路径并使用式(1)所示的运算式的情况，图7C示出不设定参照路径而使用从式(1)所示的运算式中去除第6项和第7项后而得的运算式的情况。 [0202] 图7A中，可以看到在移动体10到达目标位置前，沿着所设定的参照路径而移动。此外，图7B中，可以看到移动体10沿着参照路径移动到所设定的参照路径所存在的地点，之后，向着目标位置移动。与此相对，图7C中，可以看到在向着目标位置移动时，由于为了避开障碍物而移动，因此无法到达目标位置。即，如图7A和图7B所示，移动体控制学习装置300设定参照路径并使用式(1)所示的运算式来进行学习，由此能在短期间内完成学习。 [0203] 如上所述，移动体控制装置100包括：移动体位置获取部101，该移动体位置获取部101获取表示移动体10的位置的移动体位置信息；目标位置获取部102，该目标位置获取部 102获取表示使移动体10移动的目标位置的目标位置信息；以及控制生成部105，该控制生成部105基于模型信息、移动体位置获取部101获取到的移动体位置信息和目标位置获取部 102获取到的目标位置信息，来生成表示用于使移动体10向目标位置信息所示的目标位置移动的控制内容的控制信号，其中，所述模型信息表示使用包含通过参照表示参照路径的参照路径信息来评价移动体10是否沿着参照路径移动从而计算报酬的项在内的、用于计算报酬的运算式进行学习而得的模型。 [0204] 通过采用上述结构，移动体控制装置100能减少运算量，并控制移动体10，以使得移动体10实质上不进行不连续的动作。 [0205] 此外，如上所述，移动体控制学习装置300包括：移动体位置获取部301，该移动体位置获取部301获取表示移动体10的位置的移动体位置信息；目标位置获取部302，该目标位置获取部302获取表示使移动体10移动的目标位置的目标位置信息；参照路径获取部320，该参照路径获取部320获取表示参照路径的参照路径信息；报酬计算部321，该报酬计算部321基于移动体位置获取部301获取到的移动体位置信息、目标位置获取部302获取到的目标位置信息和参照路径获取部320获取到的参照路径信息，使用包含通过评价移动体 10是否沿着参照路径移动来计算报酬的项在内的运算式来计算报酬；控制生成部305，该控制生成部305生成控制信号，该控制信号表示用于使移动体10向目标位置信息所示的目标位置移动的控制内容；以及模型生成部322，该模型生成部322基于移动体位置获取部301获取到的移动体位置信息、目标位置获取部302获取到的目标位置信息、控制生成部305所生成的控制信号以及报酬计算部321计算出的报酬，对通过控制信号使移动体10移动的价值进行评价，由此来生成模型信息。 [0206] 通过采用上述结构，移动体控制学习装置300能在较短的学习期间内生成模型信息，该模型信息用于控制移动体10以使得移动体10实质上不进行不连续的动作。 [0207] 实施方式2. [0208] 参照图8，说明实施方式2所涉及的移动体控制装置100a。 [0209] 图8是示出实施方式2所涉及的移动体控制装置100a的主要部分的一个示例的框图。 [0210] 如图8所示，移动体控制装置100a例如应用于移动体控制系统1a。 [0211] 与移动体控制装置100同样地，移动体控制装置100a基于模型信息、移动体位置信息和目标位置信息生成控制信号，并经由网络20将所生成的控制信号输出到移动体10，上述控制信号表示用于使移动体10向目标位置移动的控制内容。移动体控制装置100a生成控制信号时所使用的模型信息由移动体控制学习装置300来生成。 [0212] 与实施方式1所涉及的移动体控制装置100相比，实施方式2所涉及的移动体控制装置100a追加了参照路径获取部120、报酬计算部121、模型更新部122和模型输出部123，并能对移动体控制学习装置300所输出的学习完成的模型信息进行更新。 [0213] 在实施方式2所涉及的移动体控制装置100a的结构中，对与实施方式1所涉及的移动体控制装置100或移动体控制系统1相同的结构标注相同的标号，并省略重复的说明。即，对附加了与图1中记载的标号相同的标号的图8的结构省略说明。 [0214] 移动体控制系统1a包括移动体控制装置100a、移动体10、网络20和存储装置30。 [0215] 移动体10所具备的行驶控制单元11、位置确定单元12、拍摄单元13、传感器信号输出单元14、存储装置30以及移动体控制装置100a分别连接到网络20。 [0216] 移动体控制装置100a包括移动体位置获取部101、目标位置获取部102、模型获取部103、地图信息获取部104、控制生成部105a、控制输出部106a、移动体状态获取部112、参照路径获取部120、报酬计算部121、模型更新部122和模型输出部123。除了上述结构以外，移动体控制装置100a也可以包括图像获取部111、控制校正部113a和控制插补部114a。 [0217] 另外，实施方式2所涉及的移动体控制装置100a中的移动体位置获取部101、目标位置获取部102、模型获取部103、地图信息获取部104、控制生成部105a、控制输出部106a、移动体状态获取部112、参照路径获取部120、报酬计算部121、模型更新部122、模型输出部123、图像获取部111、控制校正部113a和控制插补部114a的各功能可以由实施方式1中在图 2A和图2B中示出了一个示例的硬件结构中的处理器201和存储器202来实现，或者也可以由处理电路203来实现。 [0218] 参照路径获取部120获取表示参照路径的参照路径信息。具体而言，例如，参照路径获取部120从模型获取部103获取到的模型信息中读取移动体控制学习装置300在生成模型信息时所使用的参照路径信息，由此来获取参照路径信息。 [0219] 报酬计算部121基于移动体位置获取部101所获取到的移动体位置信息、目标位置获取部102所获取到的目标位置信息、参照路径获取部120所获取到的参照路径信息，使用包含通过参照表示参照路径的参照路径信息来评价移动体10是否沿着参照路径移动从而计算报酬的项在内的运算式，来计算报酬。 [0220] 除了通过评价移动体10是否沿着参照路径移动来计算报酬的项以外，报酬计算部121计算报酬时所使用的运算式也可以包含以下的项：通过评价移动体状态获取部112所获取到的移动体状态信号所示的移动体10的状态来计算报酬的项，或者通过评价基于移动体 10的状态的移动体10的行动来计算报酬的项。 [0221] 此外，除了通过评价移动体10是否沿着参照路径移动来计算报酬的项以外，报酬计算部121计算报酬时所使用的运算式也可以包含以下的项：通过评价移动体10与障碍物的相对位置来计算报酬的项。 [0222] 具体而言，例如，报酬计算部121使用移动体位置获取部101所获取到的移动体位置信息，来确定根据控制输出部106a所输出的控制信号移动后的移动体10的位置，使用移动体状态获取部112获取到的移动体状态信号，来确定根据该控制信号移动后的移动体10的状态，并使用确定出的移动体10的位置和状态，基于实施方式1所示的式(1)来计算该报酬。 [0223] 模型更新部122基于移动体位置获取部101获取到的移动体位置信息、目标位置获取部102获取到的目标位置信息、移动体状态获取部112获取到的移动体状态信号以及报酬计算部121计算出的报酬，来更新模型信息。 [0224] 具体而言，例如，模型更新部122将式(1)应用于实施方式1所示的式(2)，来更新将移动体位置获取部101获取到的移动体位置信息所示的移动体10的位置、与表示用于使移动体10移动的控制内容的控制信号对应起来后而得的对应信息，由此来更新模型信息。 [0225] 模型输出部123经由网络20将模型更新部122更新后的模型信息输出到存储装置30，并存储在存储装置30中。 [0226] 控制生成部105a基于模型获取部103所获取到的模型信息或模型更新部122更新后的模型信息、移动体位置获取部101所获取到的移动体位置信息和目标位置获取部102所获取到的目标位置信息，来生成表示用于使移动体10向目标位置信息所示的目标位置移动的控制内容的控制信号。除了有时作为模型获取部103所获取到的模型信息的代替，基于模型更新部122更新后的模型信息来生成控制信号以外，控制生成部105a与实施方式1所示的控制生成部105相同，因此省略详细说明。 [0227] 控制校正部113a以使得与控制生成部105a之前刚生成的第2控制信号所示的控制内容相比较，控制生成部105a所生成的第1控制信号所示的控制内容具有预定的范围内的变化量的方式，对第1控制信号进行校正。 [0228] 在控制生成部105a生成的第1控制信号所示的控制内容的一部分或全部缺失的情况下，控制插补部114a基于控制生成部105a之前刚生成的第2控制信号所示的控制内容，对第1控制信号中的缺失的控制内容进行插补来校正第1控制信号。 [0229] 另外，控制校正部113a和控制插补部114a的动作与实施方式1所示的控制校正部113和控制插补部114的动作相同，因此省略详细说明。 [0230] 此外，模型更新部122可以使用控制校正部113a或控制插补部114a校正后的控制信号来更新模型信息。 [0231] 控制输出部106a将控制生成部105a所生成的控制信号、或者控制校正部113a或控制插补部114a校正后的控制信号输出到移动体10。 [0232] 参照图9，说明实施方式2所涉及的移动体控制装置100a的动作。 [0233] 图9是示出实施方式2所涉及的移动体控制装置100a的处理的一个示例的流程图。 [0234] 移动体控制装置100a例如在每次设定新的目标位置时重复执行该流程图的处理。 [0235] 首先，在步骤ST901中，地图信息获取部104获取地图信息。 [0236] 首先，在步骤ST902中，目标位置获取部102获取目标位置信息。 [0237] 接着，在步骤ST903中，模型获取部103获取模型信息。 [0238] 接着，在步骤ST904中，控制生成部105a确定模型信息中所包含的对应信息中、与目标位置信息所示的目标位置对应的对应信息。 [0239] 接着，在步骤ST905中，移动体位置获取部101获取移动体位置信息。 [0240] 接着，在步骤ST906中，控制生成部105a判定移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置是否相同。 [0241] 步骤ST906中，在控制生成部105a判定为移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置不相同的情况下，在步骤ST911中，移动体状态获取部112获取移动体状态信号。 [0242] 接着，在步骤ST912中，报酬计算部121计算报酬。 [0243] 接着，步骤ST913中，模型更新部122通过对控制生成部105a所确定的对应信息进行更新，从而更新模型信息。 [0244] 接着，步骤ST914中，控制生成部105a参照模型更新部122更新后的对应信息，来确定与移动体位置信息所示的位置对应的控制信号，从而生成表示用于使移动体10移动的控制内容的控制信号。 [0245] 接着，在步骤ST915中，控制校正部113a以使得与控制生成部105a之前刚生成的第2控制信号所示的控制内容相比较，控制生成部105a所生成的第1控制信号所示的控制内容具有预定的范围内的变化量的方式，对第1控制信号进行校正。 [0246] 接着，步骤ST916中，在控制生成部105a生成的第1控制信号所示的控制内容的一部分或全部缺失的情况下，控制插补部114a基于控制生成部105a之前刚生成的第2控制信号所示的控制内容，对第1控制信号中的缺失的控制内容进行插补来校正第1控制信号。 [0247] 接着，步骤ST917中，控制输出部106a将控制生成部105a所生成的控制信号、或者控制校正部113a或控制插补部114a校正后的控制信号输出到移动体10。 [0248] 移动体控制装置100a在执行了步骤ST917的处理之后，返回步骤ST905的处理，在步骤ST906中，到控制生成部105a判定为移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置相同为止的期间中，重复执行步骤ST905至步骤ST917的处理。 [0249] 步骤ST906中，在控制生成部105a判定为移动体位置信息所示的移动体10的位置与目标位置信息所示的目标位置相同的情况下，在步骤ST921中，模型输出部123输出模型更新部122更新后的模型信息。 [0250] 在执行了步骤ST921的处理之后，移动体控制装置100a结束该流程图的处理。 [0251] 另外，在该流程图的处理中，若步骤ST901至步骤ST903的处理在步骤ST904的处理之前执行，则执行的顺序无关紧要。此外，在该流程图的处理中，步骤ST915和步骤ST916的处理的执行顺序可以相反。 [0252] 以上所述，移动体控制装置100a包括：移动体位置获取部101，该移动体位置获取部101获取表示移动体10的位置的移动体位置信息；目标位置获取部102，该目标位置获取部102获取表示使移动体10移动的目标位置的目标位置信息；控制生成部105a，该控制生成部105a基于模型信息、移动体位置获取部101获取到的移动体位置信息和目标位置获取部102获取到的目标位置信息，来生成表示用于使移动体10向目标位置信息所示的目标位置移动的控制内容的控制信号，其中，所述模型信息表示使用包含通过参照表示参照路径的参照路径信息来评价移动体10是否沿着参照路径移动从而计算报酬的项在内的、用于计算报酬的运算式进行学习而得的模型；参照路径获取部120，该参照路径获取部120获取表示参照路径的参照路径信息；移动体状态获取部112，该移动体状态获取部112获取表示移动体10的状态的移动体状态信号；报酬计算部121，该报酬计算部121基于移动体位置获取部 101获取到的移动体位置信息、目标位置获取部102获取到的目标位置信息、参照路径获取部120获取到的参照路径信息和移动体状态获取部112获取到的移动体状态信号，使用包含通过参照表示参照路径的参照路径信息来评价移动体10是否沿着参照路径移动从而计算报酬的项在内的运算式，来计算报酬；以及模型更新部122，该模型更新部122基于移动体位置获取部101获取到的移动体位置信息、目标位置获取部102获取到的目标位置信息、移动体状态获取部112获取到的移动体状态信号和报酬计算部121计算出的报酬，来更新模型信息。 [0253] 通过采用上述结构，由此，通过参照表示参照路径的参照路径信息来评价移动体10是否沿着参照路径移动，从而移动体控制装置100a能利用较少的运算量在短时间内更新移动体控制学习装置300所生成的模型信息，并能以更高精度控制移动体10以使得移动体 10实质上不进行不连续的动作。 [0254] 另外，本发明申请在其发明的范围内可对各实施方式进行自由组合，或者对各实施方式的任意的结构要素进行变形，或在各实施方式中省略任意的结构要素。 [0255] 工业上的实用性 [0256] 本发明所涉及的移动体控制装置能适用于移动体控制系统。此外，移动体控制学习装置能适用于移动体控制学习系统。 [0257] 标号说明 [0258] 1、1a 移动体控制系统 [0259] 10 移动体 [0260] 11 行驶控制单元 [0261] 12 位置确定单元 [0262] 13 拍摄单元 [0263] 14 传感器信号输出单元 [0264] 20 网络 [0265] 30 存储装置 [0266] 100、100a 移动体控制装置 [0267] 101 移动体位置获取部 [0268] 102 目标位置获取部 [0269] 103 模型获取部 [0270] 104 地图信息获取部 [0271] 105、105a 控制生成部 [0272] 106、106a 控制输出部 [0273] 111 图像获取部 [0274] 112 移动体状态获取部 [0275] 113、113a 控制校正部 [0276] 114、114a 控制插补部 [0277] 120 参照路径获取部 [0278] 121 报酬计算部 [0279] 122 模型更新部 [0280] 123 模型输出部 [0281] 3 移动体控制学习系统 [0282] 300 移动体控制学习装置 [0283] 301 移动体位置获取部 [0284] 302 目标位置获取部 [0285] 304 地图信息获取部 [0286] 305 控制生成部 [0287] 306 控制输出部 [0288] 311 图像获取部 [0289] 312 移动体状态获取部 [0290] 313 控制校正部 [0291] 314 控制插补部 [0292] 320 参照路径获取部 [0293] 321 报酬计算部 [0294] 322 模型生成部 [0295] 323 模型输出部 [0296] 201 处理器 [0297] 202 存储器 [0298] 203 处理电路。

意见反馈