控制装置、机器人系统及生产系统专利检索-协作机器人机器人机器人技术人工智能人工智能专利检索查询-专利查询网

控制装置、机器人系统及生产系统

阅读：723发布：2020-05-11

专利汇可以提供控制装置、机器人系统及生产系统专利检索，专利查询，专利分析的服务。并且本发明提供一种控制装置、机器人系统及生产系统。人(80)和机器人(1、1a～1n)协作地进行作业的机器人的控制装置(2、2a～2n)具备：机械学习装置(5)，其包括：识别部(53)和学习上述人(80)的行动的学习部(34)，该识别部(53)在上述人(80)和上述机器人(1)协作地进行作业的期间中，对上述人(80)的行动进行分类；以及基于由上述识别部(53)分类后的结果，控制上述机器人(1)的行动的行动控制部(43)。，下面是控制装置、机器人系统及生产系统专利的具体信息内容。

权利要求

1.一种控制装置，其为人和机器人协作地进行作业的机器人的控制装置，该控制装置的特征在于，
具备：
机械学习装置，其包括：识别部和学习部，该识别部在上述人和上述机器人协作地进行作业的期间中，识别上述人的脸部，基于与上述人对应的神经网络的权，对上述人的行动进行分类，该学习部将基于图像输入的数据作为状态变量而接受，基于由上述识别部分类后的上述人的行动，学习上述人的动作并输出；以及
基于由上述识别部分类后的上述人的行动以及利用上述学习部的学习结果控制上述机器人的行动的行动控制部。
2.根据权利要求1所述的控制装置，其特征在于，
上述识别部接受上述状态变量，生成对人的行动分类了的输出，
上述学习部具备：
误差计算部，其接受由上述识别部生成的对上述人的行动进行了分类的输出，并且基于所输入的教师数据，计算误差；以及
误差模型更新部，其基于上述误差计算部的输出，对用于根据上述人的行动控制上述机器人的行动的误差模型进行更新。
3.根据权利要求1或2所述的控制装置，其特征在于，
上述机器人是工业用机器人、现场机器人或服务机器人。
4.根据权利要求1或2所述的控制装置，其特征在于，
上述识别部能使用神经网络及样板匹配中的至少一方。
5.根据权利要求1或2所述的控制装置，其特征在于，
具备多个进行摄影的摄像机，基于由各个摄像机所摄的图像，通过上述识别部识别上述人的行动，将上述识别部的输出作为AND回路的输入，将上述AND回路的输出作为上述识别部的输出。
6.根据权利要求1或2所述的控制装置，其特征在于，
在上述人和上述机器人协作地进行行动后，上述控制装置对上位控制器发送作业信息及学习信息。
7.根据权利要求6所述的控制装置，其特征在于，
上述作业信息包括商品名、工序、通过图像识别所特定的人、上述机器人的种类及上述人和上述机器人的作业时间中的至少一个，
上述作业时间由从作业开始到作业结束的时间、每次作业的上述人与上述机器人的动作时间和休息时间中的至少一个构成。
8.根据权利要求6所述的控制装置，其特征在于，
上述学习信息是神经网络的权。
9.一种机器人系统，其具备多个权利要求1～权利要求8中任一项所述的控制装置，该机器人系统的特征在于，
多个上述控制装置通过通信回线互相连接，
各个上述控制装置通过分别学习人的行动并将学习后的信息借助于上述通信回线发送，从而在多个上述控制装置共用。

说明书全文

控制装置、机器人系统及生产系统

技术领域

[0001] 本发明涉及控制装置、机器人系统及生产系统。

背景技术

[0002] 以往，在机器人系统中，在机器人进行动作期间中，为了确保人的安全，以人不会进入机器人的作业区域的方式讲述了安全对策。例如，在机器人的周围设置安全栅，禁止人在机器人的动作期间中进入安全栅的内部。

[0003] 近年来，研究并开发了人和机器人协作地进行作业的机器人(协作机器人)并实用化。在这种机器人(机器人系统)中，例如以在机器人的周围不设置安全栅的状态，机器人和人(作业人员)协作地进行作业。

[0004] 顺便一提，以往，例如日本特开2011-051056号公报(专利文献1)作为预想与人一起协调的机器人(协作机器人、协调作业机器人)，公开具有下述机构的吊下型作业机器人的技术：摄像机构；至少具有一个能逆输入地驱动可动部的关节的一个作业臂；支撑作业部臂主体部；支撑部件，其将基部能装卸地固定于作业场所的顶棚或壁并吊下，并且在前端部支撑主体部和摄像机构；动作控制机构，其基于摄像机构所摄的图像识别在上述作业场所的作业对象物和与该作业机器人的相对位置，基于该相对位置在上述作业臂上进行相对于上述作业对象物的作业；输出控制机器，若识别出上述作业是与人一起协调地进行作业的情况，则该输出控制机构使马达的输出下降，该马达的输出使上述作业臂的关节进行动作。

[0005] 上述专利文献1所公开的技术所解决的课题在于，在将协作机器人(机器人)投入作业场所的情况下，即使具有作业场所的附近的地上的障碍物，也能配置机器人，在配置了该机器人时，确保作业人员的安全，不需要高精度的定位、作业命令的大规模的改变。

[0006] 即，上述现有技术即使能与作业人员(人)接近地配置机器人，也难以应用于例如相对于置于工作台的组装对象品，机器人和人交替地访问并协作地进行组装对象品的多个工序的作业。即，现有技术并不基于识别了人的行动的结果控制机器人的动作。

发明内容

[0007] 本发明鉴于上述课题，其目的在于提供利用识别人的行动而学习人的行动的机械学习装置，学习人的动作而控制机器人的控制装置、机器人系统及生产系统。

[0008] 根据本发明的第一实施方式的第一例，提供一种人和机器人协作地进行作业的机器人的控制系统，具备：机械学习装置，其包括识别部和学习上述人的行动的学习部，该识别部在上述人和上述机器人协作地进行作业的期间中，对上述人的行动进行分类；以及基于由上述识别部分类后的结果，控制上述机器人的行动的行动控制部。

[0009] 根据本发明的第一实施方式的第二例，提供一种人和机器人协作地进行作业的机器人的控制装置，具备：机械学习装置，该机械学习装置包括识别部和学习上述人的行动的学习部，该识别部在上述人和上述机器人协作地进行作业的期间中，识别上述人的脸部，基于与上述人对应的神经网络的权，对上述人的行动进行分类；以及基于由上述识别部分类后的结果控制上述机器人的行动的行动控制部。

[0010] 上述识别部作为状态变量接受基于上述输入的数据，生成对人的行动分类了的输出，上述学习部具备：接受由上述识别部生成的对上述人的动作进行了分类的输出，并且基于所输入的教师数据，计算误差的误差计算部；基于上述误差计算部的输出，对用于根据上述人的行动控制上述机器人的行动的误差模型进行更新的误差模型更新部。

[0011] 根据本发明的第一实施方式的第三例，提供一种人和机器人协作地进行作业的机器人的控制装置，具备：机械学习装置，其与上位控制器进行通信来读取来自神经网络的权，基于所读取的上述权，通过识别部对上述人的行动进行分类，并且学习上述人的行动；以及基于由上述识别部分类了的结果，控制上述机器人的行动的行动控制部。

[0012] 根据本发明的第一实施方式的第四例，提供一种人和机器人协作地进行作业的机器人的控制装置，具备：在上述人和上述机器人协作地进行作业的期间中，判断上述人是否进行上述机器人的作业区域或可动区域的识别部；行动控制部，其基于由上述识别部判断出的结果，限制或停止上述机器人的行动，控制上述人协作地进行作业的上述机器人的行动待机或行动再次开始。

[0013] 上述机器人可以是工业用机器人、现场机器人或服务机器人。上述识别部能使用神经网络及样板匹配中的至少一方。上述控制装置具备多个进行摄影的摄像机，基于由各个摄像机所摄的图像，通过上述识别部识别上述人的行动，将上述识别部的输出作为AND回路的输入，能将上述AND回路的输出作为上述识别部的输出。上述控制装置能在上述人和上述机器人协作地进行行动后，对上位控制器输送作业信息及学习信息。

[0014] 上述作业信息包括商品名、工序、由图像识别特定的人、上述机器人的种类及上述人和上述机器人的作业时间中的至少一个，上述作业时间可以由从作业开始到作业结束的时间、每次作业的上述人和上述机器人的动作时间和休止时间中的至少一个构成。上述学习信息优选是神经网络的权。

[0015] 根据本发明的第二实施方式，提供一种具备多个上述第一实施方式的控制装置的机器人系统，多个上述控制装置通过通信回线互相连接，各个上述控制装置通过分别学习人的行动并将该学习后的信息借助于上述通信回线发送，在多个上述控制装置共用。

[0016] 根据本发明的第三实施方式的第一例，提供一种生产系统，其具备多个机器人、包括控制多个上述机器人的多个控制装置的元件；以能通信的方式与上述元件所包含的上述控制装置连接的控制器；以能通信的方式与上述控制器连接的管理控制器，上述控制器获得从上述元件所包含的上述控制装置发送的作业信息及学习信息，相对于上述管理控制器发送上述作业信息及上述学习信息，获取上述作业信息中的、上述作业时间与比较用作业时间的差，在该差比任意地设定的值大的情况下，相对于发送来上述作业信息的上述控制装置，发送作业慢的信息、标准作业方法及作为适当的作业时间为发送比较用作业时间中的至少一个并显示。

[0017] 根据本发明的第三实施方式的第二例，提供一种生产系统，具备：包括多个机器人和控制多个上述机器人的多个控制装置的元件；以能通信的方式与上述元件所包含的上述控制装置连接的元件控制器；以能通信的方式与上述元件控制器连接的管理控制器，上述管理控制器获得从上述元件控制器发送来的作业信息和学习信息，存储上述作业信息及上述学习信息，并且，决定相对于特定的商品、特定的工序的权。所决定的上述权可以是一人的权、从多人的权中选择的一人的权或者总括了多人的权的权。附图说明

[0018] 本发明通过参照以下的附图能更明确地理解。

[0019] 图1是概略地表示应用了本实施方式的机器人系统的一例的结构例的图。

[0020] 图2是表示图1中的机器人系统的一例的方框图。

[0021] 图3是示意地表示神经的模型的图。

[0022] 图4A及图4B是示意地表示组合图3所示的神经而构成的运算层为三层的神经网络的图。

[0023] 图5A及图5B是用于说明图2所示的机器人系统中的识别部及学习部的一例的图。

[0024] 图6A、图6B及图6C是用于说明组装对象品的一例的图。

[0025] 图7A、图7B及图7C是表示除了从侧面观察的机器人而从顶棚观察的状态的一例的图。

[0026] 图8A、图8B、图8C及图8D是用于说明使组装对象品的螺钉进入单元的孔的情况的一例的图。

[0027] 图9A、图9B、图9C是与图7A、图7B、图7C相同，表示将未组装单元及电缆的组装对象品置于预定的位置的样式的图。

[0028] 图10是用于说明在图9A～图9C所示的组装对象品安装单元并紧固螺钉的情况的一例的图(之一)。

[0029] 图11是用于说明在图9A～图9C所示的组装对象品安装单元并紧固螺钉的情况的一例的图(之二)。

[0030] 图12是用于说明在图9A～图9C所示的组装对象品安装单元并紧固螺钉的情况的一例的图(之三)。

[0031] 图13是用于说明在图9A～图9C所示的组装对象品安装单元并紧固螺钉的情况的一例的图(之四)。

[0032] 图14是用于说明在图9A～图9C所示的组装对象品安装单元并紧固螺钉的情况的一例的图(之五)。

[0033] 图15是用于说明在图9A～图9C所示的组装对象品安装单元并紧固螺钉的情况的一例的图(之六)。

[0034] 图16A、图16B及图16C是在图7A、图7B及图7C以及图9A、图9B、图9C所示的图中，安装了单元的组装对象品的状态的图。

[0035] 图17是用于说明相对于图16A～图16C所示的组装对象品的处理的一例的图(之一)。

[0036] 图18是用于说明相对于图16A～图16C所示的组装对象品的处理的一例的图(之二)。

[0037] 图19是用于说明相对于图16A～图16C所示的组装对象品的处理的一例的图(之三)。

[0038] 图20是用于说明相对于图16A～图16C所示的组装对象品的处理的一例的图(之四)。

[0039] 图21是用于说明相对于图16A～图16C所示的组装对象品的处理的一例的图(之五)。

[0040] 图22是用于说明相对于图16A～图16C所示的组装对象品的处理的一例的图(之六)。

[0041] 图23是用于说明相对于图16A～图16C所示的组装对象品的处理的一例的图(之七)。

[0042] 图24是用于说明相对于图16A～图16C所示的组装对象品的处理的一例的图(之八)。

[0043] 图25是用于说明相对于图16A～图16C所示的组装对象品的处理的一例的图(之九)。

[0044] 图26是用于说明排出了对象组装品的状态的一例的图。

[0045] 图27是用于说明用于确认身体的一部分未进入组装对象品的机箱内的结构的一例的图。

[0046] 图28是用于说明使用神经网络进行脸部的认证的一例的图。

[0047] 图29是表示神经网络的输出层和其前的层(中间层(隐藏层)的最后的层)的图。

[0048] 图30是表示在图29所示的神经网络中，输出“失败”的情况的图。

[0049] 图31是用于说明关于样板匹配的一例的图。

[0050] 图32是关于进行样板匹配来识别图29的行动B的情况进行说明的图。

[0051] 图33是关于进行样板匹配来识别图29的行动C的情况进行说明的图。

[0052] 图34是表示本实施方式的生产系统的一例的方框图。

具体实施方式

[0053] 下面，参照附图详细地叙述本发明的控制装置、机器人系统及生产系统的实施方式。另外，在以下的图中，为了使理解容易，适当改变人、机器人等的比例尺。在此，机器人系统是人和机器人协作地进行预定的作业的系统。另外，在以下的记载中，作为一例，说明人和机器人协作地在组装对象品上组装单元和电缆的作业，但本发明的应用当然并未限定于此。

[0054] 图1是概略地表示应用了本实施方式的机器人系统的一例的结构例的图，图2是表示图1中的机器人系统的一例的方框图。首先，参照图1及图2说明本实施方式的机器人系统的一例。本实施方式的机器人(协作机器人)1是包括臂4和多个回旋、旋转轴的多关节机器人。另外，在以下的记载中，作为一例，说明使用了多关节机器人的例子，但本发明的应用当然未限定于多关节机器人。

[0055] 机器人系统3具备作为安装于机器人1的端部执行器的手6。把持用手6-1具有把持及释放单元、电缆的功能。另外，例如后述的图12所示，通过更换安装为旋具用把手6-2，具备作为端部执行器的旋具用手6-2，具有利用旋具对螺钉(在本说明书中，包括螺丝称为螺钉)进行紧固的功能。另外，未固定，但例如通过手可变部件，能更换把持用手6-1和旋具用手6-2。另外，关于手可变部件，是周知的技术，因此省略详细的说明。另外，手端部执行器未限定于把持用手、旋具用手，能使用与作业的内容相应的端部执行器。

[0056] 如图2所示，机器人1包括对各个回旋、旋转轴进行驱动的臂驱动装置44。臂驱动装置44包括配置于回旋、旋转轴的内部的臂驱动马达，通过臂驱动马达进行驱动，使臂4回旋、旋转而能成为期望的角度。另外，机器人1未限定于工业用机器人，也能应用于现场机器人(フィールドロボット)、服务机器人。

[0057] 机器人1具备关闭或打开手6-1的把持用手驱动装置45。另外，在利用手可变部件更换安装为旋具用手的情况下，具备利用手6-2的旋具紧固螺钉的旋具用手驱动装置48。把持用手驱动装置45包括驱动手6-1的把持用手驱动缸和用于向把持用手驱动缸供给压缩空气的空气泵及电磁阀。

[0058] 旋具用手驱动装置48为了驱动手6-2的旋具，包括用于供给压缩空气的空气泵及电磁阀。另外，也可以不使用压缩空气，而是电性地开闭或使旋具电性地旋转。另外，在若更换手则成为精度上问题的情况下，使用多台机器人，或者进行在手上下功夫等的对应。在此，即使更换手，也假设为在精度上没有问题。另外，由于图复杂，因此，手驱动装置在图1中未图示。

[0059] 在对组装对象品50进行组装时，例如进行利用力传感器49的力的变化的检测。力传感器49可以设在某处，但在此，为了容易理解，设于手腕部。另外，作为力传感器49，能采用能检测作用于机器人1的力的任意的检测器。

[0060] 机器人1基于控制装置2(行动控制部43)的行动指令进行驱动。控制装置2包括具有通过软线互相连接的CPU(Central Processing Unit)、RAM(Random Access Memory)以及ROM(Read Only Memory)等的运算处理装置。控制装置2包括存储多种信息的存储部59。控制装置2包括控制臂驱动装置44、把持用手驱动装置45及旋具用手驱动装置48的行动控制部43。根据来自行动控制部43的行动指令，臂驱动装置44、把持用手驱动装置45及旋具用手驱动装置48进行驱动。在此，本实施方式的控制装置2包括推断从机器人1的外侧施加在机器人1上的外力的外力计算部46。

[0061] 如图2所示，控制装置2包括输入部41及显示部42。显示部42形成为能显示与机器人1的运转相关的信息等。作为显示部42，能示例液晶显示装置。输入部41以人能向控制装置2输入期望的指令的方式形成。作为输入部41，能示例键盘等。另外，图1中的组装对象品50例如搭载在台(车辆未图示，但可以是台车，也可以是传送带)且以安装面朝向顶棚的方式放置。另外，人(作业人员)80表示不是作业中的直立状态的情况。另外，在顶棚上安装摄像机7，能改变角度，并且能扩大、缩小。另外，摄像机7能得到对象组装品50、人80及机器人1的图像。摄像机8例如优选设于对人80的正面进行摄像(拍摄)的位置。

[0062] 参照图2继续进行说明。本实施方式的控制装置2具备以学习人80的行动，相对于人80的行动，机器人1进行适当的行动的方式学习人80的动作的机械学习装置5。本实施方式的机械学习装置5从图像输入51(摄像机7或摄像机8的图像)利用识别部53对人80的行动进行识别(分类)，利用学习部54进行学习。学习可发现后述的神经网络中的各个权。在学习部54更新了神经网络的权的情况下，识别部53从学习部54得到更新了的权。在识别部53得到了更新了的权后，利用该更新了的权进行神经网络的运算。在判断为预定的人80的行动的情况下，机器人1以进行以之对应的行动的方式由行动控制部43进行控制。前处理部52例如以识别部53能高速地进行动作的方式对图像实施前处理(例如次元压缩等)。关于对图像的前处理，能应用已知的多种方法，省略其说明。

[0063] 在此，识别部53和学习部54例如在接通电源时，由识别部53识别人80的脸部，使用存储部59所保存的权，或者从上位控制器得到与人80对应的权并使用。另外，也可以不是利用识别部53的脸部识别，也可以通过将装有人80的信息的存储介质、例如USB(Universal Serial Bus)存储器插入USB口，判别人80。或者，也可以利用来自键盘的ID、ID+密码、或者ID卡+读取器等判别人80。判断的结果，可以使用存储部59所保存的权，或者从上位控制器得到权并使用。另外，也能从上位控制器输送从多人的权中选择的一人的权或者总括了多人的权而得的权而使用。另外，在更新了学习部54的权的情况下，在存储部59中保存学习信息(神经网络的各自的权)。另外，至少能使用的一个(一人)的权假定为之前所存储的权。

[0064] 另外，如图2所示，多个控制装置2的机械学习装置5可以以通过通信媒体相互共用数据或更换数据的方式构成。例如，在具备多个分别由控制装置2控制的机器人系统3的机械工场中，即在具备多个机器人系统3的生产系统中，各个机器人系统3的机械学习装置5能通过以太网(注册商标)、因特网等通信回线互相共用数据或更换数据。另外，机械学习装置5的学习部54例如也能不设置于各个控制装置2，而是设在上位控制器上。这样，能通过共用或更换所学习的信息，增加学习的次数。其结果，能提高学习的精度。

[0065] 控制装置2具备测定作业时间的作业时间测定部47。本实施方式的作业时间测定部47测定从组装开始到结束的时间、每次作业的人80和机器人1的动作时间和休止(停止)时间。本实施方式的作业时间测定部47基于行动控制部43的指令测定作业时间。另外，在本说明书中，例如若说人80，则表示与机器人1协作地进行作业(处理)的人，在仅记载为人的情况下，实际上不仅是与机器人1协作地进行处理(作业)的人，例如还包括不直接与机器人1进行协作作业的人。

[0066] 在此，对机械学习装置进行说明。机械学习装置具有从被输入装置的数据的集合通过解析抽出位于其中的有用的规则、知识表现、判断基准等，输出其判断结果，并且进行知识的学习(机械学习)的功能。学习的方法多种多样，但若大致区别，则例如能分为“有教师学习”、“无教师学习”及“强化学习”。另外，除了实现这些方法之外，还具有学习特征量其本身的抽出的、被称为“深层学习(深度学习”：Deep Learning)”的方法。

[0067] 另外，图2所示的机械学习装置5是应用了“神经网络(有教师)”的装置。这些机械学习(机械学习装置5)也能使用通用的计算机或处理器，但例如若应用GPGPU(General-Purpose computing on Graphics Processing Units)、大规模PC 硬件，则能进行更高速的处理。

[0068] 首先，“有教师学习”是指，通过将某输入和结果(标记)的数据组大量地给予机械学习装置，学习这些数据组所具有的特征，归纳地获得从输入推断结果的模型(误差模型)、即其关系性。例如，能使用后述的神经网络等算法而实现。

[0069] 另外，“无教师学习”是指，通过只将大量的输入数据给予机械学习器装置，学习输入数据为哪种分布，即使不给予对应的教师输出数据，也能利用相对于输入数据进行压缩、分类、整形等的装置进行学习的方法。例如，能将这些数据组所具有的特征聚集于相似的人员彼此等。通过使用该结果，设置某些基准并进行使其最适化的输出的分配，能实现输出的预测。

[0070] 另外，作为“无教师学习”和“有教师学习”的中间的问题设定，有被称为“有半教师学习”的设定，这种情况例如与存在只一部分输入和输出的数据组，其以外只是输入的数据的情况对应。在本实施方式中，实际上能通过以无教师学习利用实际上不使人80和机器人系统3进行动作也能够获得的数据(图像数据、模拟的数据等)，有效地进行学习。

[0071] 接着，关于“强化学习”进行说明。首先，作为强化学习的问题设定，如下那样考虑。

[0072] 观测环境的状态，决定行动。

[0073] 环境根据某种规则而变化，另外，自身的行动有时也对环境带来变化。

[0074] 每当行动，便传回报酬信号。

[0075] 最大化是直至将来的(折扣)报酬的合计。

[0076] 从完全不清楚行动引起的结果、或不完全清楚的状态开始学习。即，能在第一次实际将其结果作为数据而得到。即，需要一边进行错误试验一边探索最适的行动。

[0077] 也能将以模仿人类的动作的方式事前学习(上述的“有教师学习”、“逆强化学习”的方法)了的状态作为初期状态从良好的开始地点开始学习。

[0078] 在此，“强化学习”是指，不只是判断、分类，还通过学习行动，学习根据行动对环境带来的相互作用学习适当的行动、即用于使将来得到的报酬最大的学习的方法。下面作为例子，在Q学习的情况下继续说明，但并未限定于Q学习。

[0079] Q学习是在某环境状态s下学习选择行动a的价值Q(s，a)的方法。即，只要在某状态s时，将价值Q(s，a)最高的行动a选择为最适的行动即可。但是，最初关于状态s和行动a的组合，价值Q(s，a)的正确的值完全不清楚。因此，代理人(行动主体)在某状态s下选择多种行动a，相对于此时的行动a给予报酬。由此，代理人学习更好的行动的选择、即正确的价值Q(s，a)。

[0080] 行动的结果、直到将来得到的报酬的合计为Q(s，a)＝E[Σ(γt)rt]。其中E[Σ(γt)rt]表示期待值。想使价值Q(s，a)最大化，但在根据最适的行动状态变化时获得的值，这一点不清楚，因此一边探索一边学习。这种价值Q(s，a)的更新式例如能由下式1表示。

[0081]

[0082] 在上述式(1)中，st表示时刻t时的环境的状态，at表示时刻t时的行动。通过行动at，状态变化为st+1。rt+1表示根据其状态的变化得到的报酬。另外，带max的项是在状态st+1下，在选择了此时清楚的Q值最高的行动a的情况下的Q值乘以γ得到的项。其中，γ是0＜γ≤1(取γ＝1的情况下，不使累计和的范围为无限大，为有限区间)的参数，被称为折扣率。另外，α是学习系数，为0＜α≤1的范围。

[0083] 上述式(1)表示根据试验at的结果、传回的报酬rt+1更新状态st下的行动at的评价值Q(st，at)的方法。即，表示若与状态s下的行动a的评价值Q(st，at)相比，由报酬rt+1+行动a得到的下一个状态下的最佳行动max a的评价值Q(st+1，max at+1)越大，则使Q(st，at)最大，相反若越小，则使Q(st，at)越小。即，使某状态下的某行动的价值近似于由作为结果随时传回的报酬和其行动决定的下一个状态下的最佳的行动的价值。

[0084] 其中，Q(s，a)在计算机上的表现方法具有预先相对于全部的状态行动对(s，a)将其值作为图表保持的方法和准备使Q(s，a)近似的函数的方法。在后者的方法中，上述式(1)能通过利用概率梯度下降法等方法调整近似函数的参数来实现。另外，作为近似函数，能使用神经网络。

[0085] 接着，对神经网络进行说明。图3是示意地表示神经元的模型的图，图4A是示意地表示组合了图3所示的神经元而构成的运算层为三层的神经网络的图。即，神经网络例如由图3所示那样的模拟了神经元的模型的运算装置及存储器等构成。

[0086] 如图3所示，神经元输出相对于多个输入x(在图3中作为一例为输入x1～x3)的输出(结果)y。在各输入x(x1，x2，x3)上乘以与该输入x对应的权w(w1，w2，w3)。由此，神经元输出由下式(2)表现的结果y。另外，输入x、结果y及权w全部是向量。另外，在下述的式(2)中，θ是偏置，fk是活性化函数。

[0087]

[0088] 参照图4A，说明组合图3所示的神经元而构成的运算层为三层的神经网络。如图4A所示，从神经网络的左侧输入多个输入x(在此作为一例为输入x1～输入x3)，从右侧输出结果y(在此，作为一例，为结果y1～结果y3)。具体地说，输入x1、x2、x3相对于三个神经元N11～N13的各个乘以对应的权并输入。在这些输入上所乘的权总括地标记为W1。

[0089] 神经元N11～N13分别输出z11～z13。在图4A中，这些z11～z13总括地标记为特征向量Z1，能视为抽出了输入向量的特征量的向量。该特征向量Z1是权W1与权W2之间的特征向量。z11～z13相对于两个神经元N21及N22的各个乘以对应的权并输入。这些特征向量所乘的权总括地标记为W2。

[0090] 神经元N21、N22分别输出z21、z22。在图4A中，这些z21、z22总括地标记为特征向量Z2。该特征向量Z2是权W2与权W3之间的特征向量。z21、z22相对于三个神经元N31～N33的各个乘以对应的权并输入。这些特征向量所乘的权总括地标记为W3。

[0091] 最后，神经元N31～N33分别输出结果y1～结果y3。神经网络的动作具有学习模式和价值预测模式。例如，在学习模式中，使用学习数据组学习权W，使用其参数在预测模式中进行机器人的行动判断。另外，为了方便，记载为预测，但当然能进行检测、分类、推论等多种任务。

[0092] 其中，能在预测模式中立即学习实际进行动作而得到的数据，并反映在下一次行动(在线学习)、能使用预先收集的数据组一并地进行学习且以后一直利用该参数进行检测模式(分批学习)。或者，也能每当其中间的、某程度数据驻留时夹着学习模式。

[0093] 另外，权W1～W3能通过误差逆传运法(误差逆转传播法：反向传播：Backpropagation)进行学习。另外，误差的信息从右侧进入并流向左侧。误差逆传运法是关于各神经元，以减小输入了输入x时的输出y和真正的输出y(教师)的差的方式调整(学习)各自的权的方法。这种神经网络可以使运算层为两层，也能为四层以上，还能进一步增加层(在增加了层的情况下，也称为深度学习)。另外，也能只从教师数据自动地获得阶段性地进行输入的特征抽出并将结果传回的运算装置。

[0094] 另外，关于与图4A相同的运算层为三层的神经网络，在图4B中表示称为输入层、中间层(隐藏层)和输出层的情况。本实施例的机械学习装置5例如为了使用神经网络，如图2所示，具备图像输入51、前处理部52、识别部53、学习部54。但是，应用于本发明的机械学习方法未限定于神经网络。另外，机械学习(机械学习装置5)例如能通过应用GPGPU、大规模PC硬件等实现的情况如上所述。另外，在本实施方式中，进行多种机械学习方法中的、采用了上述的神经网络的有教师学习。另外，本实施方式能应用多种方法的情况如上所述。

[0095] 图5A及图5B是用于说明图2所示的机器人系统的识别部及学习部的一例的图，用于说明在本实施方式的机器人系统3的控制装置2中，应用了“有教师学习”的机械学习装置5的识别部53、学习部54的图。其中，图5A是表示识别部53、学习部54的输入输出信号的方框图，图5B是表示应用了“有教师学习”的识别部53、学习部54的一例的方框图。如图5A所示，机械学习装置5中的识别部53从外部输入用于观测环境的状态的状态变量(状态量、输入数据)，向学习部54输入状态变量(状态量、输入数据)，并且输入教师数据(标记)(也称为正确标记、正确数据)(在给予学习数据组时输入“某数据和教师数据(标记)”)。

[0096] 如图5B所示，学习部54包括误差计算部541及误差模型更新部(学习模型更新部)542。误差计算部541接受来自教师数据(标记)和识别部53的输出(输出层及中间层的输出)，计算该教师数据(标记)和来自识别部53的输出的误差(差)(例如平方误差计算)。基于该误差(差量)计算误差函数(目的函数)。并且，以误差变小的方式，通过误差模型更新部
542更新学习模型(基于误差函数(目的函数)，例如利用更新误差逆传播法/梯度下降法更新权W)。

[0097] 作为初期学习(使用了学习数据组的学习)，状态变量(输入数据)例如是其是什么是明确的图像数据，教师数据(标记)例如参照图29，由表示后述的输出层的某个输出是否有效的情况的数据对应。具体地说，例如相对于“单元A的螺钉紧固作业”的图像输入，教师数据(标记)的输出C有效。

[0098] 使用这些学习数据组，例如将相对于图像输入的识别部53的输出和教师数据作为输入，误差计算部541计算其误差。基于该误差(差量)计算误差函数(目的函数)。以误差变小的方式利用误差模型更新部542更新学习模型(基于误差函数(目的函数)，例如利用误差逆传播法/梯度下降法更新权W)。在更新了权W的情况下，对识别部53赋予变更后的权W。另外，在误差模型更新部542从控制器等其他装置接受权时也向识别部53赋予该权。

[0099] 另外，近年来，作为初期的权W使用称为“输入随机的值”的方法，因此，权W的初期值可以为随机的值。另外，学习数据组例如能使用内置于控制装置2、机械学习装置5、学习部54、识别部53等的闪光存储器(Flash Memory)等不挥发性存储器所保持的数据、单元控制器、管理控制器所保持的数据、通过通信回线由接通线提供的数据或者从USB输入的数据等。这些记述未特定学习数据组的给予方式、保存场所等。

[0100] 在使用于实际作业的情况下，识别部53将前处理部52的图像数据的输出作为状态变量(输入数据)输入，从神经网络中的输入计算至图29、图30的各输出，输出各输出的值。在输出(例如输出C)的值有效的情况下，向行动控制部传递该输出(例如输出C)有效的情况，并且将该输出(输出层及中间层的输出、例如输出C)的值向误差计算部541输入。误差计算部541计算所输入的值中的、输出层的输出的值和教师数据的误差。基于该误差(差)，计算误差函数(目的函数)。误差计算部541将来自误差函数(目的函数)和识别部53的输出向误差模型更新部542输入，误差模型更新部542基于误差函数(目的函数)，例如利用误差逆传播法/梯度下降法更新权W。

[0101] 另外，在图5B中，从识别部53向误差计算部54赋予输出层和中间层的输出，但也可以分别向误差计算部541和误差模型更新部542赋予输出。另外，在图5B中，将状态变量(状态量、输入数据)向误差模型更新部542输入，但也可以从识别部53赋予。另外，对误差计算部541给予的、来自识别部53的输出的值包括后述的图29或图30的输出层的哪个输出有效(例如输出C)，并且，在图30中包括失败信号(如后所述，正常转移至下一个动作，在该动作结束了的情况下，在不为“失败”的情况下为成功)。

[0102] 图6A、图6B及图6C是用于说明组装对象品的一例的图，图6A表示在组装对象品50上安装了A、B单元的状态，图6B表示在组装对象品50上什么也没安装的状态，并且，图6C表示在组装对象品50上安装了单元A、B和电缆的状态。

[0103] 图7A、图7B及图7C是除了从侧视图侧面观察的机器人，还表示从顶棚观察的状态的一例的图，图7A表示机器人1的侧视图，图7B表示从上方观察机器人1的图，并且，图7C表示与人(作业人员)80一起从上方观察组装对象品50的图。另外，组装对象品50在图7A～图7C中，以安装部分朝向顶棚的方式放置。另外，组装对象品50的“○”部分表示螺钉、螺纹孔。
图8A、图8B、图8C及图8D是用于说明使组装对象品的螺钉进入单元的孔的情况的一例的图，图8A～图8D表示处理的时间的流程。

[0104] 如图7C所示，在组装对象品50上具有螺钉和螺纹孔是因为，如图8A所示，打开在单元侧的螺纹孔部分开有比螺钉的头大的孔和比螺钉的直径稍大的孔的状态的孔，在如图8B那样螺钉浮起的状态下如图8C进入单元的孔，在使单元如图8D那样移动的情况下，不是螺纹孔，而是成为螺钉。

[0105] 在图7A～图7C中，表示隔着组装对象品50从上方观察的人80的头和肩以及机器人1。另外，所安装的A、B单元、电缆放置于未图示的机器人1的臂4到达的范围。表示在从上观察的机器人1上(在正立的纸面上)从侧面观察机器人1的情况。从上观察的机器人1和从侧面观察的机器人1为相同的机器人。另外，未图示，但在人80的脸部和行动清楚的地方设置摄像机8。

[0106] 在图2中，从地面经由支柱设置摄像机8，但在对机器人1的行动带来妨碍，或者在机器人1遮挡人80的图像的情况下，可以从顶棚吊下并对人80的脸部和行动进行摄影。另外，在靠近壁的情况下，也能将摄像机设置在壁上。

[0107] 在此，在脸部的认证中，如后述的图28所述，可以使用神经网络进行，但也能使用样板匹配。关于样板匹配，简单进行叙述。为了调查被称为样板的想抽出的图像是否存在于抽出用图像，如图31所示，例如从左上端向右上端稍微移动，通过计算求出是否与样板相同或多近似。若移动至右端，则从左上端稍微向下移动，同样地进行计算。在该情况下，若移动至右下端则结束。关于调查的方法(例如使用了正规化相关的方法、几何学形状的方法)、前处理、高速化等是周知的事实等，因此省略。

[0108] 图28是用于说明使用神经网络进行脸部的认证的一例的图，是表示神经网络的输出层和其之前的层(中间层(隐藏层)的最后的层)的图，若输出层的输出的值(概率)在某值以上，则其输出有效。例如，若输出C的输出的值(概率)为某值以上，则判断为江田。另外，输出层的输出的值(概率)在某值以上，则其输出有效，但在输出层的输出的值(概率)为某值以上且与其他输出的差为某值以上的情况下，其输出也可以有效。另外，关于使某输出有效的方法叙述了最简单的方法，但并未对利用这以外的方法进行的情况进行限制。以后，输出层的输出的值(概率)为某值以上则其输出有效，但考虑方式如上所述。另外，也能并用神经网络和样本匹配。

[0109] 在以上，在本实施方式中，进行脸部的认证的方法未限定于神经网络、样本匹配，也能使用其他多种方法。即，除了神经网络及样本匹配以外，只要能进行脸部的认证，则能够使用这种方法。

[0110] 图9A、图9B、图9C与图7A、图7B、图7C相同，是表示将未安装单元及电缆的组装对象品置于预定的位置的样式的图。另外，图9A～图9C与图7A～图7C对应。图10～图15是用于说明在图9A～图9C所示的组装对象品上安装了单元并紧固螺钉的情况下的一例的图。

[0111] 在图9A～图9C中，若将未安装单元及电缆的组装对象品50置于图的位置，则例如通过顶棚的摄像机7对安装A、B单元的螺钉或螺纹孔的位置进行图像识别，进行位置重合，并且开始时间计测，开始组装。时间计测是从组装开始到结束的时间以及人80和机器人1每次作业时的动作时间和休息时间。该数据作为一例由后述的单元控制器处理，但并未限定于此，也能由控制装置2处理，也可以由管理控制器处理。另外，在此，为螺钉或螺纹孔，但也能通过在多处标注记号进行图像识别。

[0112] 图9A～图9C在侧视图中，表示机器人1的单元把持用手6-1从未图示的单元放置台捏住单元A并进行在组装对象品50上安装单元A的准备的状态。在此，由图像识别确认来自顶棚的摄像机7所摄的人的身体一部位没有位于(未存在于)组装对象品50中的单元A的安装附近的情况，如图10那样使机器人1的臂4移动到组装对象品50的单元A的安装位置并安装单元A。此时，在人的身体的一部分进入单元A的安装附近的情况、身体的一部分进入机器人1的臂4等的移动轨迹上的情况下等判断为与机器人1的臂4等、单元A干涉的情况下，以机器人1的臂4等不会伤到人的方式使速度减速或停止。进入哪个范围使速度减速、或者进入哪个范围停止能任意设定。

[0113] 对身体的一部分进入组装对象品50中的单元A的安装附近的情况、身体的一部分进入机器人1的臂4等的移动轨迹上的情况进行图像识别的方法例如利用从摄像机7及摄像机8的图像抽出轮廓，判断该轮廓是否位于单元附近、移动轨迹上。另外，为了抽出轮廓，只要使用过滤器等，但这些已经是已知的技术，因此在此省略说明。另外，对身体的一部分进行单元A的安装附近的情况、身体的一部分进入机器人1的臂4等的移动轨迹上的情况进行图像识别的方法当然能用这些以外的多种方法进行。

[0114] 图27是用于说明用于识别身体的一部分未进入组装对象品的机箱内的结构的一例的图。如图27所示，为了确认身体的一部分未进入组装对象品50的机箱内，通过对组装对象品50的外形(例如在图27所示的例子中，四边形状)进行图像识别，该轮廓的四边形状的各处均未被切割，从而能识别身体的一部分(人80)未进入组装对象品的机箱内。在该情况下，为了使四边形状的边显眼，优选从组装对象品50的背后(底)照射轻微的光。

[0115] 若将A单元通过机器人1安装于组装对象品50的A安装位置，则机器人1的臂4例如返回原来的位置，从未图示的单元放置台捏住单元B并进行在组装对象品50上安装单元B的准备。由图像识别确认来自顶棚的摄像机7所摄的人的身体的一部分没有位于组装对象品50的单元B的安装附近，如图11那样在组装对象品50的单元B的安装位置安装单元B。此时，在产生了人的身体的一部分进入单元B的安装附近的情况、人进入机器人1的臂4等的移动轨迹上的情况等安全上的问题的情况下，以机器人1的臂4等不会伤到人的方式使速度减速或停止。

[0116] 若将单元B通过机器人1安装于组装对象品50的单元B的安装位置，则在下一次作业为例如与人80协作地进行螺钉紧固的情况下，机器人1通过未图示的手可变部件，如图12那样将带有旋具9R的旋具用手6-2安装于手腕。

[0117] 若人(臂)80和旋具9M如图13那样移动至对单元A的螺钉进行紧固的位置，则机器人1的臂4移动至对单元A的螺钉进行紧固的位置，使用旋具用手6-2开始螺钉紧固。若单元A的螺钉紧固结束，则人(臂)80和旋具9M从单元A向单元B的左下移动，因此，机器人1的臂4也从单元A向单元B的右上移动。移动后，人80对图14的单元B的左下的螺钉进行紧固，机器人1对单元B的右上的螺钉进行紧固。

[0118] 另外，由于人(臂)80和旋具9M从单元B的左下向单元B的右下移动，因此，机器人1的臂4也从单元B的右上向左上移动。移动后，人80对图15的单元B的右下的螺钉进行紧固，机器人1对单元B的左上的螺钉进行紧固。

[0119] 接着，参照图16～图25说明将对单元A及单元B必要的电缆布线(在此将在单元配置电缆，或者根据螺纹根利用绑扎带手等固定的情况称为布线)的处理。图16A～图16C是表示在图7A～图7C中以及图9A～图9C所示的图中，安装单元并对螺钉进行了紧固的组装对象品的状态的图。另外，图16A～图16C与图7A～图7C或图9A～图9C对应。

[0120] 首先，对单元A用电缆进行布线。在图16A中，机器人1通过未图示的手可变部件将旋具用手6-2替换安装为电缆把持用手6-1，机器人1的电缆把持用手6-1从未图示的电缆放置台捏住单元A用电缆并保持。关于移动，例如通过图像识别确认来自顶棚的摄像机7所摄的人没有(不存在于)位于机器人1的臂4等的移动轨迹上，如图17所示，以移动至组装对象品50的适当的位置的方式，行动控制部43控制机器人1的臂4。此时，在产生了人的身体的一部分进入了机器人1的臂4等的移动轨迹上的情况下等安全上的问题的情况下，以机器人1的臂4等不会伤到人的方式使速度减速或停止。进入哪个范围使速度减速、另外进入哪个范围停止能任意设定。

[0121] 若机器人1的电缆把持用手6-1在适当的位置停止，人80为了接受单元A用电缆，例如如图18所示，把持单元A用电缆，则机器人1的力传感器49的值变化(值变小)，因此，控制装置2的行动控制部43判断为人80接受了单元A用电缆，以机器人1的臂4从人离开的方式进行移动来进行控制。作为下一个机器人1的行动，从未图示的电缆放置台捏住单元B用电缆并保持。

[0122] 图19表示人80对单元A用电缆进行布线的状态。为了缩短机器人1的臂的移动时间，可以提前使单元B用电缆移动，但在人80在作业中的情况下等判断为与人干涉或妨碍作业的情况下，如图20的“机器人臂附近待机位置例”那样，优选从把持了电缆的机器人1的臂的最终的位置稍微离开并待机(行动待机)。另外，在哪里待机是任意的。在判断为不与人干涉(人80和机器人1的臂4等不碰撞)而不妨碍的情况下，机器人1可以不待机而使移动速度减速地将机器人1的臂4移动到最终的位置。

[0123] 图21表示人80结束作业(在该情况下，单元A用电缆的布线)并待机的例子。若人80待机，则机器人1的臂4再次开始移动(行动再次开始)。图22表示再次开始移动，使单元B用电缆向适当的位置移动的例子。若机器人1的电缆把持用手6-1在适当的位置停止，则人80为了接受单元B用电缆，例如如图23，把持单元B用电缆。由此，机器人1的力传感器49的值变化(值变小)，因此，控制装置2的行动控制部43判断为人80接受了单元B用电缆，以机器人1的臂4从人离开的方式进行移动而进行控制。

[0124] 图24表示人80对单元B用电缆进行布线的状态，成为图25，作业结束(组装对象品50完成)。图26是用于说明排出了组装对象品50的状态的一例的图。

[0125] 接着，关于人80的行动和机器人的行动的详细进行说明。图29是表示神经网络的输出层和之前的层(中间层(隐藏层)的最后的层)的图。输出层的输出为从作为输出A的“待机状态1”到输出N的“待机状态4”。另外，根据结构如图30所示，例如在输出O中输出后述的“失败”。人80(腕部)和旋具9M是否移动至对单元A的螺钉进行紧固的位置由图29的输出层的输出B的值(概率)是否为某值以上进行判断(能够由输出层的输出B的值(概率)是否为某值以上判断)。在输出B的值(概率)为某值以上的情况下，识别部53识别(判定、判断)人80(腕部)和旋具9M“移动至对单元A的螺钉进行紧固的位置”。行动控制部43以将机器人1的臂4移动至对单元A的螺钉进行紧固的位置的方式进行控制。

[0126] 在上述例子中，记载为，在人80(腕部)和旋具9M“移动至对单元A的螺钉进行紧固的位置”后，将机器人1的臂4移动至对单元A的螺钉进行紧固的位置，但这是为了容易地理解通过人80的行动决定机器人1的行动的情况，实际上以进一步区分图29的输出，以若人(腕部)80和旋具9M开始移动至对单元A的螺钉进行紧固的位置，则机器人1的臂4也移动至对单元A的螺钉进行紧固的位置的方式进行控制。

[0127] 关于该移动的动作，例如能使用样本匹配进行物体移动的检测。可以应用使用后述的图32、33进行说明的方法，但例如也可以在从摄像机一定能看到的部位标记记号，利用样本匹配追随记号的移动而进行物体移动的检测。这样，基于图29记载的内容是原本的一部分，通过本发明的人的动作控制机器人1的方式并未限定于这种记载。

[0128] 在此，在图29的输出C的值(概率)为某值以上的情况下，识别部53判断(判定)为由人(腕部)80和旋具9M进行的“单元A的螺钉紧固作业。行动控制部43使用机器人1的旋具用手6-2的旋具9R，以机器人1进行单元A的螺钉紧固的方式进行控制(参照图13)。

[0129] 另外，在图29的输出D的值(概率)为某值以上的情况下，识别部53判断为人(腕部)80和旋具9M“移动至对单元B的左下的螺钉进行紧固的位置”。行动控制部43使用机器人1的旋具用手6-2的旋具9R，以能够进行紧固单元B的螺钉的方式并以移动至右上的位置的方式进行控制。另外，在图29的输出E的值(概率)为某值以上的情况下，识别部53判断为由人(腕部)80和旋具9M进行的“单元B的左下的螺钉紧固作业”。行动控制部43使用机器人1的旋具用手6-2的旋具9R，以机器人1进行单元B的右上的螺钉紧固的方式进行控制(参照图14)。

[0130] 接着，在图29的输出F的值(概率)为某值以上的情况下，识别部53判断为人(腕部)80和旋具9M“移动至对单元B的右下的螺钉进行紧固的位置”。行动控制部43使用机器人1的旋具用手6-2的旋具9R，以能够进行紧固单元B的螺钉的方式并以移动至左上的位置的方式进行控制。另外，在图29的输出G的值(概率)为某值以上的情况下，识别部53判断为由人(腕部)80和旋具9进行的“单元B的右下的螺钉紧固作业”。行动控制部43使用机器人1的旋具用手6-2的旋具9R，以机器人1进行单元B的左上的螺钉紧固的方式进行控制(参照图15)。

[0131] 另外，在图29的输出H的值(概率)为某值以上的情况下，识别部53判断为人80为“待机状态2”。行动控制部43使机器人1把持单元A用电缆并移动(参照图16A～图16C及图17)。另外，在图29的输出I的值(概率)为某值以上的情况下，识别部53判断为人80“接受单元A用电缆”。若机器人1的力传感器49变化，则控制装置2的行动控制部43判断为人80接受了单元A用电缆，以机器人1的臂4从人离开的方式进行控制已经记述(参照图18)。

[0132] 并且，机器人1把持单元B用电缆并移动，在图29的输出J(概率)为某值以上的情况下，识别部53判断为“单元A的布线作业”。行动控制部43使机器人1在附近待机(参照图19及图20)。另外，在图29的输出K的值(概率)为某值以上的情况下，识别部53判断为人80为“待机状态3”。行动控制部43再次开始机器人1的移动(参照图21及22)。

[0133] 另外，在图29的输出L的值(概率)为某值以上的情况下，识别部53判断为人80“接受单元B用电缆”。若机器人1的力传感器49变化，则控制装置2的行动控制部43判断为人80接受了单元B用电缆，以机器人1的臂4从人离开的方式进行控制已经记述(参照图23)。另外，在图29的输出M的值(概率)为某值以上的情况下，识别部53判断为“单元B的布线作业。行动控制部43以机器人1继续停止(待机)的方式进行控制(参照图24)。

[0134] 并且，在图29的输出N的值(概率)为某值以上的情况下，识别部53判断为人80为“待机状态4”，控制装置2起动未图示的排出装置排出组装对象品50，并且起动未图示的装载装置在图1的位置设置接下来组装的组装对象品50。

[0135] 以上，叙述了作业顺序的详细，但在使顺序打乱的情况下，使机器人1停止(或待机状态)，并且，例如使用闪光灯(注册商标)等进行警报显示，或者作为画面显示对被打乱的作业进行显示。另外，在作业结束时，将作业信息和学习信息的数据发送至后述的单元控制器。另外，用于与图29的输出对应的输入图像在该情况下优选在顶棚吊下的摄像机7。这是为了对组装对象品50的单元和电缆的状态进行摄像，以及人(腕部)80和旋具9M的位置容易特定。

[0136] 另外，能够再准备一个机械学习装置，例如只要获得将来自摄像机8的图像作为输入的识别部的输出和将来自摄像机7的图像作为输入的识别部的AND，则能进一步提高精度。另外，在以上的说明中，摄像机为两台，但可以准备三台以上。另外，也能与样本匹配并用。

[0137] 之前，说明了与有效作业对应的神经网络的输出全部有效(成功：转移至正确的动作)的情况，但说明对应的输出无效(失败：未转移至接下来的动作)的情况、错误地移动(失败：向下一次的动作的等待中转移至下一次动作)的情况的对应。在失败了的情况下，例如能通过将手、腕部改变为特定的形状而识别到是失败、或者例如准备脚踏开关并用脚按下脚踏开关而输出失败信号来通知失败。在向下一个动作的待机中的情况下，进入下一个动作，在应该待机的过程中却转移至下一个动作的情况下，返回动作前的原来的状态。

[0138] 图30是在图29所示的神经网络中，表示输出“失败”的情况的图。另外，在并用手、腕部的特定的形态和脚踏开关的情况下，只要获得图30所示的“输出O”和来自脚踏开关的失败信号的或(理论积)即可。另外，在只为脚踏开关的失败信号的情况下，来自脚踏开关的失败信号相当于图30的“输出O”。另外，失败的情况也向学习部54通知。在此，示例了两个通知失败的方法，但当然能应用这些以外的多种方法。

[0139] 接着，关于使用样本匹配判断人的行动的情况进行说明。在此，将图29(图30)的输出读取为行动并使用。图32是用于对将图29的行动B作为样本匹配进行识别的情况进行说明的图。例如，若机器人1将单元A、单元B安装于组装对象品50结束，则下一个作业为“移动至对单元A的螺钉进行紧固的位置”，因此，人80以对单元A的螺钉进行紧固的点为中心将任意的范围作为抽出图像，调查是否存在样本的图像。由于为图32那样移动至对单元A的螺钉进行紧固的位置的旋具M包含于图像(被摄像)、与样本的图像相同或相似(计算的数值若通常相同(一致)，则数值为0，若近似则数值小)，因此能够判断为行动B。

[0140] 另外，图33是用于对将图29的行动C作为样本匹配进行识别的情况进行说明的图。例如，由于下一个作业为“单元A的螺钉紧固作业”，因此，以了解人80移动到对单元A的螺钉进行紧固这一点的方式将螺钉位置的狭窄的范围作为抽出图像，调查是否存在样本的图像。若如图33那样在对单元A的螺钉进行紧固的位置，旋具M包含于图像，则如上所述，计算的数值为0或为小的数值，因此将该时点判断为开始“单元A的螺钉紧固作业”、或在旋具来到螺钉位置后直到实际上开始对螺钉进行紧固稍微具有时间，因此只要等待任意的时间判断为开始“单元A的螺钉紧固作业”即可。

[0141] 另外，如果想明确螺钉紧固作业开始，只要在摄像机8的图像的人80的旋具9M开始向下移动时判断为螺钉紧固作业开始即可。关于基本的考虑方式以行动B和行动C为例进行说明，但其他的行动的判断也相同。

[0142] 接着，关于包括一个或多个机器人系统的生产系统进行说明。图34是表示本实施方式的生产系统的一例的方框图。如图34所示，生产系统10具备包括至少一个、优选多个(在图34所示的例子中为n个)机器人1a～1n以及控制机器人1a～1n的至少一个(通常与机器人为相同数量：n个)的控制装置2a～2n的单元16、能与控制装置2a～2n的各个通信地构成的单元控制器18、能与单元控制器18通信地构成的上位的管理控制器20。控制装置2a～2n分别进行机器人1a～1n的行动控制，并且，将与作业相关的信息(作业信息)和由机械学习装置5的学习部54学习的神经网络的各个的权作为学习信息发送到单元控制器18。

[0143] 在此，作业信息由商品名、工序、通过图像识别等特定的人80、机器人1的种类、人80和机器人1的作业时间等构成。人80和机器人1的作业时间还由从组装开始到结束的时间和每次作业的人80和机器人1的动作时间和休息(停止)时间构成。另外，单元16是用于实施预定的作业的多个机器人的集合。另外，机器人1a～1n未限定于多关节机器人。各机器人可以互相相同，也可以不同。另外，单元16能设置于制造产品的工厂，相对于此，管理控制器20能设置于与工厂不同的建筑等。单元控制器18在需要高速处理的情况下设置于工厂，在不需要高速处理的情况下能设置于与工厂不同的建筑等。

[0144] 另外，单元控制器18和控制装置2a～2n例如能通过内部网等网络(第一通信部22)连接。另外，管理控制器20例如通过因特网等网络(第二通信部)24能与单元控制器18通信地连接。但是，这只是例子，第一通信部22只要能通信地连接单元控制器18和控制装置2a～2n则可以是任意的控制器，另外，第二通信部24只要是能通信地连接单元控制器18与管理控制器20也可以是任意的控制器。单元控制器18构成为处理来自单元16的信息，具体地说，向控制装置2a～2n发出信息，接收来自控制装置2a～2n的各个的作业信息和学习信息。

[0145] 如图34所示，单元控制器18通过第一通信部22从单元16接受上述信息，并且通过第二通信部24获得管理控制器20具有的信息。单元控制器18包括输入部14及显示部15。显示部15形成为能显示与单元控制器18相关的信息。作为显示部15，能示例液晶显示装置。输入部14形成为人能向单元控制器18输入期望的指令。作为输入部14，能示例键盘等。另外，在管理控制器20中也未图示，但优选包括输入部及显示部。

[0146] 单元控制器18的作业信息、学习信息获得部11从单元16的各个控制装置获得作业信息与学习信息。作业信息、学习信息获得部11使作业信息与学习信息对应地保存在存储部，并且将作业信息内的、作业时间的数据向时间处理部发送。时间处理部12从存储部13读取所获得的作业时间中的、人80的每次作业时间、相同的商品且相同的工序中的人的适当的每次作业时间，进行比较。比较以“人80的每次作业时间-(负)人的适当的每次作业时间”进行，在差量比任意地设定的时间大的情况下(在人的适当的每次作业时间明显短的情况下)，将慢的作业(花费时间的作业)通过第一通信部22向对应的控制装置2发送(参照图2)。慢的作业的信息通过控制装置2的通信部55输入显示控制部56、未图示的声音控制部，在设置于人80的旁边的显示器上显示作业详细、标准作业时间(考虑为适当的作业时间)、实际作业时间(作业中实际花费的时间)等，或者通过利用设置于机器人等的扬声器的声音指导来教导作业详细、时间。

[0147] 另外，人的适当的每次作业时间的信息之前准备或者只要关于送来的相同的商品、相同的工程中的作业时间的各个对时间例如进行平均等使用即可。另外，关于机器人1的行动，通过进行采用了机械学习方法中的、上述的Q学习的强化学习，也能使每次作业的机器人1的行动最适化。另外，作为使用机械学习使机器人1的行动最适化的技术文献，近年来提出了多种方案，省略其详细。

[0148] 单元控制器18通过第二通信部24将作业信息和学习信息向管理控制器20发送。可以发送全部的作业信息和学习信息，也可以以任意的间隔，关于间隔间的作业时间最长和最短的时间，发送作业信息和学习信息，也可以一并发送作业时间的平均。除此之外，如何处理作业信息和学习信息的哪些内容并发送是任意的。

[0149] 管理控制器20通过单元控制器18和第二通信部24连接。管理控制器20通过第二通信部24从单元控制器18接受作业信息和学习信息。使接受的作业信息和学习信息对应并保存到作业信息、学习信息保存部23。

[0150] 关于使用了管理控制器的学习信息选择部21的权的决定方法，关于第一实施方式进行说明。对商品α进行量产。在不特定的人物没有商品α的作业经验、例如工序3所带的情况下，没有不特定的人物的权。关于这种情况下的权的决定方式进行叙述。在此，多人(例如A、B、C)具有商品α、工序3的作业的经验，在管理控制器20的作业信息、学习信息保存部23保存作业信息、学习信息。

[0151] 在A、B、C进行商品α、工序3的作业时，预先将与作业对应的神经网络的输出判断为有效时的、将对作业必要张数的对应的输入的图像保存在管理控制器20的作业信息、学习信息保存部23。从作业信息、学习信息保存部23读取商品α、工序3的A的学习信息(权)，并向学习信息选择部21的识别部28输出。读取保存在作业信息、学习信息保存部23的B的图像并向图像输入26输入，进行前处理(利用前处理部27的前处理)，由识别部28进行识别(分类)，并向比较部29输入。同样，将C的图像向图像输入26输入，进行前处理27，由识别部28进行识别，向比较部29输入。

[0152] 另外，从作业信息、学习信息保存部23读取商品α、工序3的B的学习信息(权)，并向学习信息选择部21的识别部28输入。读取保存在作业信息、学习信息保存部23的A的图像并向图像输入26输入，进行前处理27，由识别部28进行识别，并向比较部29输入。同样，将C的图像向图像输入26输入，进行前处理27，由识别部28进行识别，并向比较部29输入。

[0153] 另外，从作业信息、学习信息保存部23读取商品α、工序3的C的学习信息(权)，并向学习信息选择部21的识别部28输入。读取保存在作业信息、学习信息保存部23的A的图像并向图像输入26输入，进行前处理27，由识别部28进行识别，并向比较部29输入。同样，将B的图像向图像输入26输入，进行前处理27，由识别部28进行识别，向比较部输入。

[0154] 由于相对于各权的各人物的各作业中的神经网络的输出的值清楚，因此对于每个权，与各人物的各作业对应的神经网络的输出的值是否为某值以上且与其他输出的差是否为某值以上、另外输出的值与其他输出的值是否为某程度是清楚的。例如，由于相对于A的权得到多个(B、C)神经网络的输出值，因此，由比较部29判断相对于A的权的多个输出值是否适当。在此，关于例如A的权，在相对于B的各作业的图像的神经网络的输出适当，但相对于C的各作业的图像的神经网络的输出失败多的情况下，难以说A的权适当。同样地，由比较部29判断相对于B、C的权的多个输出值是否适当。相对于多个权选择最好的权。将所选择的最好的人的权作为商品α、工序3的权与商品、工序3的信息一起保存在作业信息、学习信息保存部。如果是马上使用的权，则向对应的单元的控制装置(机械学习装置的识别部和学习部)发送权。

[0155] 关于使用了管理控制器的学习信息选择部21的权的决定方式，关于第二实施方式进行说明。对商品α进行量产。关于特定的人物(例如F)没有商品α的作业经验，例如工序3所附带的情况进行叙述。多人(例如A、B、C)具有商品α、工序3的作业的经验，在管理控制器20的作业信息、学习信息保存部23保存作业信息、学习信息。

[0156] 准备F相对于商品α、工序3的各作业的输入图像(如果有可能则带教师)。从作业信息、学习信息保存部23读取商品α、工序3的A的学习信息(权)，向学习信息选择部21的识别部28输入。将相对于所准备的F的各作业的图像输入图像输入26，进行前处理27，由识别部28进行识别(分类)，并向比较部29输入。由于各作业中的神经网络的输出的值清楚，因此，计算误差的合计(在有教师学习的情况下。由于误差的计算是周知的事实，因此省略)。另外，可以观察与各作业对应的识别部的输出的值是否为某值以上且与其他输出的差是否为某值以上，另外输出的值与其他的输出的差是否为某程度。如果A结束且接下来B、C结束，则C与A相同地进行并输出相对于各作业的神经网络的输出的值，由比较部29对A、B、C的各权的情况的结果进行比较，例如选择误差的合计最小的人的权。所选择的权与商品α、工序3、F的信息一起保存在作业信息、学习信息保存部23。如果是马上使用的权，则向对应的单元的控制装置(机械学习装置的识别部和学习部)发送权。

[0157] 关于未使用学习信息选择部21的情况下的权的决定方式，关于第三实施方式进行说明。对商品α进行量产。关于特定的人物(例如F)没有商品α的作业经验，例如工序3所附带的情况进行叙述。多人(例如A、B、C)具有商品α、工序3的作业的经验，在管理控制器20的作业信息、学习信息保存部23保存作业信息、学习信息。从管理控制器向对应的单元的控制装置的学习部和识别部发送A的权，观察F进行了各作业的结果(例如对应的输出的值与其他输出的差)。接着，发送B的权，同样观察F的各作业的结果。接下来，发送C的权，同样观察进行了F的各作业的结果。将其中的、识别度最高的人的权用作F的商品α、工序3的权。

[0158] 可以将商品α、工序3的A、B、C的权总括为一个权，将总括的一个权用作商品α、工序3的权。总括后的权与商品α、工序3的信息一起保存在作业信息、学习信息保存部23中。另外，能将总括后的一个权用于上述第一第三～实施方式。另外，能在分散学习、转移学习总括多人的权。例如，在第一实施方式中，将总括后的权输入学习信息选择部21的识别部28。
读取保存在作业信息、学习信息保存部23的A的图像并向图像输入26输入，进行前处理27，由识别部28进行识别，并向比较部29输入。另外，关于B、C也同样地进行。

[0159] 由比较部29选择总括为一个的权、A的权、B的权、C的权中最好的权。所选择的权作为商品α、工序3中的最好的权与商品α、工序3的信息一起保存在作业信息、学习信息保存部23中。另外，关于权的决定方式，作业人员在第一实施方式中作为不特定的人物进行说明，在第二、第三实施方式中作为特定的人物进行说明，但在将已经具有作业经验的人(例如A)的自身(A)的权从控制器发送到控制装置2的情况下，也能例如使用学习信息选择部21判断例如总括了商品α、工序3中的多人的权的权和A的权哪个好，发送更好的权。另外，例如在控制装置2的机械学习装置5设置学习部54，但也可以设置在单元控制器、管理控制器中。另外，将图像向图像输入26输入，但如果是进行了前处理的图像，则当然能输入识别部28。

[0160] 根据本发明的控制装置、机器人系统及生产系统，起到能识别人的行动，学习人的行动并控制机器人的行动的效果。

[0161] 以上说明了实施方式，但在此记载的全部的例子、条件是以帮助效果及应用于技术的发明的概念的理解而记载的，特别记载的例子、条件并未限制发明的范围。另外，说明书那样的记载并不表示发明的优点及缺点。详细地记载了发明的实施方式，但当然能不脱离发明的精神及范围地进行各种改变、置换、变形。

标题	发布/更新时间	阅读量
一种柔性协作机器人的控制方法及控制系统	2020-05-08	520
用于将轴固定到安装部件的固定装置和机器人的驱动器	2020-05-14	367
一种基于协作机器人的智能热敏灸系统	2020-05-08	587
一种基于形状记忆合金的柔性机械手	2020-05-11	33
一种应用于传感器网络的分布式协作算法和数据融合机制	2020-05-12	498
童车前叉组件装配设备	2020-05-15	29
用于训练相互依赖的自主机器的方法和设备	2020-05-14	756
一种用于双移动机器人刚体协作搬运的协同定位方法	2020-05-14	644
一种变电运行协作机器人防撞装置	2020-05-13	878
一种仿生四足机器人	2020-05-15	280

控制装置、机器人系统及生产系统

控制装置、机器人系统及生产系统

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：