基于强化学习的复杂薄壁结构物体3D打印路径规划方法专利检索-强化学习机器学习人工智能人工智能专利检索查询-专利查询网

基于 强化学习的复杂薄壁结构物体3D打印路径规划方法

阅读：520发布：2020-05-12

专利汇可以提供基于强化学习的复杂薄壁结构物体3D打印路径规划方法专利检索，专利查询，专利分析的服务。并且本发明属于人工智能及3D打印领域，涉及一种基于强化学习的复杂薄壁结构物体3D打印路径规划方法。本发明首先建立路径规划的仿真环境，然后基于强化学习中的Q‑learning 算法，建立回报矩阵R，由回报矩阵R生成状态‑动作矩阵Q；再通过对状态‑动作矩阵Q的数据进行分析，得到打印的路径规划仿真结果；最后由仿真结果，结合实际打印机参数，完成实际打印过程。本发明借助Q‑learning算法，对3D打印的路径进行智能的学习，通过学习训练，使计算机能够智能的找到适合打印的一条路径，能够大大的提高打印的效率，成形的效果也明显好于传统的路径规划算法。本发明对于复杂薄壁图形具有通用性。，下面是基于强化学习的复杂薄壁结构物体3D打印路径规划方法专利的具体信息内容。

权利要求

1.一种基于强化学习的复杂薄壁结构物体3D打印路径规划方法，其特征在于，首先建立路径规划的仿真环境，然后基于强化学习中的Q-learning 算法，建立回报矩阵R，由回报矩阵R生成状态-动作矩阵Q；再通过对状态-动作矩阵Q的数据进行分析，得到打印的路径规划仿真结果；最后由仿真结果，结合实际打印机参数，完成实际打印过程；
具体步骤如下：
第一步，建立3D打印路径规划的仿真环境
根据需要打印的已知目标物体三维模型，并且目标物体三维模型被切片为K层，得到层i i
目标物体C，其中，i＝1,…,K；为每层的层目标物体C建立一个离散二维空间作为其打印仿真环境Ii；以层目标物体Ci的左下角为坐标原点O(0,0)，从左下角向上建立离散的二维打印环境坐标系；横轴X和纵轴Y的刻度范围为(0,…,N)，模拟打印头在打印仿真环境中最小移动距离为单位1；
i i
在打印仿真环境中，令C 上需要打印的坐标点值为1，其他非C上的点代表不需要打印的点，值为0；模拟打印仿真过程是从打印仿真环境Ii中一个值为1的点出发，按照约束条件，遍历打印仿真环境中所有值为1的点；
第二步，路径规划核心计算
(1)建立状态-动作矩阵Q
建立一个N×N的打印状态-动作矩阵Q(s,a)，状态-动作矩阵Q的行s代表打印头在目标物体上的坐标位置Is(xi,yj)的状态，动作a代表从状态s打印头当前位置Is(xi,yj)打印到目标物体上另一个坐标Ia(xp,yq)的动作；
并将状态-动作矩阵Q中的所有元素值都进行初始化为0，如公式(1)，
(2)建立打印回报矩阵R，并设置打印约束条件
建立一个N×N的R(s,a)回报矩阵，回报矩阵R的值表示当打印头从状态s选择动作a后的奖励值，将回报矩阵R中所有的元素首先初始化为-1，然后加入打印约束条件：
①减少打印头抬起次数约束：在打印仿真环境Ii中，已知现在状态s打印头所在位置为点(xi,yj)，则考察其上下左右四临域方向的点(xi,yj-1)、(xi,yj+1)、(xi-1,yj)、(xi+1,yj)，如果有一个点的值为1，则令打印头从当前点(xi,yj)到值为1的邻域点的动作的回报值为R(s,a)＝1；
②减少打印头的拐弯次数：在打印仿真环境Ii中，已知现在状态s打印头所在位置为点(xi,yj)，如果当前位置上、下相邻点(xi,yj-1)和(xi,yj+1)的和大于左、右相邻点(xi-1,yj)和(xi+1,yj)的和，则令从当前位置到上、下相邻点动作的回报值为R(s,a)＝2；如果当前位置左、右相邻点(xi-1,yj)和(xi+1,yj)的和大于上、下相邻点(xi,yj-1)和(xi,yj+1)的和，则分别令从当前位置到左、右相邻点对应的动作的回报值R(s,a)＝2；
(3)状态-动作矩阵Q迭代学习
Q-learning状态转移方程：
其中，γ为贪婪因子，0<γ<1，s表示当前状态，a表示当前动作，表示下一状态，表示下一动作；
状态-动作矩阵Q迭代学习过程如下：
步骤一：设置当前状态s为初始状态；根据建立的目标物体三维模型大小设置循环次数；
步骤二：在当前状态s的所有可能行为中随机选择一个行为a；
步骤三：利用行为a得到下一状态
步骤四：按照公式(2)进行计算，得到Q(s,a)的值；
步骤五：令之后回到步骤二进行循环；
(4)路径选择
在3D打印路径规划中需要对路径的完全遍历，具体步骤如下：
对状态-动作矩阵Q的数据分析，进行数据的选择：
步骤一：选择打印头的起始位置为状态s；
步骤二：利用状态-动作矩阵Q中状态s对应的最大值动作a，得到下一状态
步骤三：令重复步骤二N次，当状态s下没有大于0的对应的动作时，对状态-动作矩阵Q进行遍历找到一个大于0的值令

说明书全文

基于强化学习的复杂薄壁结构物体3D打印路径规划方法

技术领域

[0001] 本发明属于人工智能及3D打印领域，涉及一种基于强化学习的复杂薄壁结构物体3D打印路径规划方法。

背景技术

[0002] 3D打印技术又称为增材制造技术，最初在工业设计及模具制造领域中用来制造零件模具模型，而后使用于产品的直接制造生产。经过近十年的迅速发展，3D打印技术已在医疗，航空航天，教育等领域都有了广泛的应用。目前应用最广泛的是层积式3D打印方法，通过对目标物体模型进行分层，并从底而上逐层累积打印，最终得到目标实体。

[0003] 其中，对目标物体模型分层后，每一层的打印头运动路径规划是3D打印的重要步骤。选择合适的路径能够很大程度上减少打印过程中的启停次数以及拐弯次数，从而增加打印的平稳性以及打印的效率。因此，为了提高打印的精度与效率，3D打印路径规划问题越来越引起相关研究者的重视。

[0004] 近些年来，3D打印的路径规划取得了很大进步，如Z字形扫描算法、偏置轮廓算法等在对一般物体的打印中都取得了一定的效果。但对于外部、内部结构为薄壁的物体(常用于工业生产轻量化)，现有传统的路径规划方法存在着一定的局限性，例如：Z字形扫描算法因近距离平行往返容易因材料密集散热而产生应力过于集中，降低材料散热效果，直接导致产品出现变形、裂纹等现象。偏置轮廓算法打印出的模型轮廓由于打印跨度较大容易断开连接，形成断开的“口袋”，而且打印的中断次数也较多，在终点会出现“拔丝”现象，即产生多余的固化毛刺。因此急需更适合复杂薄壁物体的路径规划方法。

[0005] 强化学习(Reinforcement Learning)在近些年来的发展极为迅速，是一种新颖的人工智能方法，主要应用在智能控制机器人及分析预测等领域。强化学习包括环境、智能体(Agent)和控制策略三要素。强化学习目的是构造一个控制策略，使得Agent行为性能达到最大，从而通过学习选择能达到其目标的最优动作。目前增强学习在机器人避障，走迷宫游戏等以及迷宫等方面取得了一系列的进展。3D打印路径规划问题属于全路径遍历问题，可以和强化学习结合起来进行提高复杂薄壁结构物体的打印效率。

发明内容

[0006] 为解决上述问题，本发明提出了一种基于强化学习的复杂薄壁结构物体3D打印路径规划方法。

[0007] 本发明的技术方案：

[0008] 一种基于强化学习的复杂薄壁结构物体3D打印路径规划方法，首先建立路径规划的仿真环境，然后基于强化学习中的Q-learning算法，建立回报矩阵R，由回报矩阵R生成状态-动作矩阵Q；再通过对状态-动作矩阵Q的数据进行分析，得到打印的路径规划仿真结果；最后由仿真结果，结合实际打印机参数，完成实际打印过程；

[0009] 具体步骤如下：

[0010] 第一步，建立3D打印路径规划的仿真环境

[0011] 根据需要打印的已知目标物体三维模型，并且目标物体三维模型被切片为K层，得到层目标物体Ci，其中，i＝1,…,K；为每层的层目标物体Ci建立一个离散二维空间作为其打印仿真环境Ii；以层目标物体Ci的左下角为坐标原点O(0,0)，从左下角向上建立离散的二维打印环境坐标系；横轴X和纵轴Y的刻度范围为(0,…,N)，模拟打印头在打印仿真环境中最小移动距离为单位1；

[0012] 在打印仿真环境中，令Ci上需要打印的坐标点值为1，其他非Ci上的点代表不需要i打印的点，值为0；模拟打印仿真过程是从打印仿真环境I中一个值为1的点出发，按照约束条件，遍历打印仿真环境中所有值为1的点；

[0013] 第二步，路径规划核心计算

[0014] (1)建立状态-动作矩阵Q

[0015] 建立一个N×N的打印状态-动作矩阵Q(s,a)，状态-动作矩阵Q的行s代表打印头在目标物体上的坐标位置Is(xi,yj)的状态，动作a代表从状态s打印头当前位置Is(xi,yj)打印到目标物体上另一个坐标Ia(xp,yq)的动作；

[0016] 并将状态-动作矩阵Q中的所有元素值都进行初始化为0，如公式(1)，

[0017]

[0018] (2)建立打印回报矩阵R，并设置打印约束条件

[0019] 建立一个N×N的R(s,a)回报矩阵，回报矩阵R的值表示当打印头从状态s选择动作a后的奖励值，将回报矩阵R中所有的元素首先初始化为-1，然后加入打印约束条件：

[0020] ①减少打印头抬起次数约束：在打印仿真环境Ii中，已知现在状态s打印头所在位置为点(xi,yj)，则考察其上下左右四临域方向的点(xi,yj-1)、(xi,yj+1)、(xi-1,yj)、(xi+1,yj)，如果有一个点的值为1，则令打印头从当前点(xi,yj)到值为1的邻域点的动作的回报值为R(s,a)＝1；

[0021] ②减少打印头的拐弯次数：在打印仿真环境Ii中，已知现在状态s打印头所在位置为点(xi,yj)，如果当前位置上、下相邻点(xi,yj-1)和(xi,yj+1)的和大于左、右相邻点(xi-1,yj)和(xi+1,yj)的和，则令从当前位置到上、下相邻点动作的回报值为R(s,a)＝2；如果当前位置左、右相邻点(xi-1,yj)和(xi+1,yj)的和大于上、下相邻点(xi,yj-1)和(xi,yj+1)的和，则分别令从当前位置到左、右相邻点对应的动作的回报值R(s,a)＝2；

[0022] (3)状态-动作矩阵Q迭代学习

[0023] Q-learning状态转移方程：

[0024]

[0025] 其中，γ为贪婪因子，0<γ<1，s表示当前状态，a表示当前动作，表示下一状态，表示下一动作；

[0026] 状态-动作矩阵Q迭代学习过程如下：

[0027] 步骤一：设置当前状态s为初始状态；根据建立的目标物体三维模型大小设置循环次数；

[0028] 步骤二：在当前状态s的所有可能行为中随机选择一个行为a；

[0029] 步骤三：利用行为a得到下一状态

[0030] 步骤四：按照公式(2)进行计算，得到Q(s,a)的值；

[0031] 步骤五：令之后回到步骤二进行循环；

[0032] (4)路径选择

[0033] 在3D打印路径规划中需要对路径的完全遍历，具体步骤如下：

[0034] 对状态-动作矩阵Q的数据分析，进行数据的选择：

[0035] 步骤一：选择打印头的起始位置为状态s；

[0036] 步骤二：利用状态-动作矩阵Q中状态s对应的最大值动作a，得到下一状态[0037] 步骤三：令重复步骤二N次，当状态s下没有大于0的对应的动作时，对状态-动作矩阵Q进行遍历找到一个大于0的值令

[0038] 本发明的有益效果：

[0039] 本发明基于强化学习算法，完成对复杂薄壁结构物体的打印的路径规划，目前传统的路径规划算法难以应用在复杂薄壁结构物体，在本发明中创新的借助了Q-learning算法，对3D打印的路径进行智能的学习，通过学习训练，使计算机能够智能的找到适合打印的一条路径，能够大大的提高打印的效率，成形的效果也明显好于传统的路径规划算法。相对于传统算法，在打印不同此类物体的时候只需要对切片后的二维模型重新建立坐标系，完成对Q矩阵和R矩阵的初始化，其他条件不变，就可以通过本发明中的算法完成对新事物的学习与训练，本发明中的算法对于此类复杂薄壁图形具有通用性。附图说明

[0040] 图1为本发明整体流程图；

[0041] 图2为三维几何模型A及其层截面示意图；

[0042] 图3为模型A的层对象的路径规划仿真环境示意图；

[0043] 图4为用Z字形扫描方法对模型A的层对象的路径规划结果示意图；

[0044] 图5为基于本发明方法的对模型A层对象的路径规划结果示意图；

[0045] 图6为三维几何模型B及其层截面示意图；

[0046] 图7为模型B的层对象路径规划仿真环境示意图；

[0047] 图8为利用偏置轮廓算法对模型B的层对象打印路径规划结果示意图；

[0048] 图9为基于本发明方法对模型B的层对象的路径规划结果示意图。

具体实施方式

[0049] 以下结合附图和技术方案，进一步说明本发明的具体实施方式。

[0050] 本发明的流程图如图1所示。以下针对实际打印物体，对本发明做进一步的详细说明，并与传统算法进行对比。

[0051] Step1：前期的准备工作，完成对所需要的矩阵以及模型的初始化。

[0052] (1)为打印模型A，建立3D仿真模型，见图2，并对此三维模型进行切片，之后得到每个打印层的二维层目标物体Ci(i＝1,…,50)，并为每层建立打印路径规划仿真环境。由于模型A每层对象结构一致，以下就以某一层为例，来详述本发明实施过程。

[0053] (2)在仿真环境中，设打印头出料宽度为单位1，实际打印中需要根据实际物体壁的厚度和打印头的出料宽度，进行设置其对应仿真模型的壁厚，如本例中图形壁厚宽度为2，图形中最外圈正方形的长度为30个单位，如图3。因此该层目标物体Ci需要打印(访问)的坐标点的个数为456个，对应点在坐标系I(i)中的值置为1，其他非Ci上的点值置为0。

[0054] (3)建立一个456×456的状态-动作矩阵Q，对矩阵中所有元素进行初始化为0。

[0055] (4)建立一个456×456的回报矩阵R，对矩阵中所有元素进行初始化为-1。

[0056] Step2：设置打印约束条件。

[0057] 主要对回报条件进行设置：

[0058] (1)减少打印头抬起次数约束：在Ii中，已知现在状态s打印头所在位置为点(xi,yj)，则考察其上下左右四临域方向的点(xi,yj-1)、(xi,yj+1)、(xi-1,yj)、(xi+1,yj)，如果有一个点的值为1，则令打印头从当前点(xi,yj)到那个值为1的邻域点的动作的回报值为R(si,a)＝1；

[0059] (2)减少打印头的拐弯次数：在Ii中，已知现在状态s打印头所在位置为点(xi,yj)，如果当前位置上下相邻点(xi,yj-1)和(xi,yj+1)的和大于其左右相邻点(xi-1,yj)和(xi+1,yj)的和，则令从当前位置到上下相邻点动作的回报值为R(s,a)＝2；或者如果当前位置左右相邻点(xi-1,yj)和(xi+1,yj)的和大于相邻点(xi,yj-1)和(xi,yj+1)的和，则分别令从当前位置到左右相邻点对应的动作的回报值R(s,a)＝2；

[0060] Step3：利用强化学习完成对模型路径的训练。

[0061] 根据Q-learning转移方程，见公式(2)，Q-learning学习过程如下：

[0062] (1)设置当前状态s为初始状态，s选取为图形左上角1的位置对应坐标点(0,50)；

[0063] (2)根据建立的模型设置80000次的训练次数

[0064] ①在当前状态s的所有可能行为中随机选择一个行为a

[0065] ②利用这个选择的行为a，由此得到了下一状态

[0066] ③按照公式(2)进行计算，得到Q(s,a)

[0067] ④令之后回到步骤(2)进行循环，次数为c

[0068] Step4：完成对打印路径的分析与提取。

[0069] 经过训练生成了一个新的状态-动作矩阵Q，对状态-动作矩阵Q的数据分析，进行数据的选择：

[0070] (1)选择打印头的起始位置(0,50)

[0071] (2)将状态-动作矩阵Q中状态s(0,50)下对应的列为0，之后选择状态-动作矩阵Q中状态s下选择大于0的最大值动作a，得到下一状态

[0072] (3)令重复步骤(2)456次，当状态s下没有大于0的对应的动作时，对矩阵进行遍历找到一个大于0的值令

[0073] 采用传统Z字形打印的方式来完成对这个图形进行打印(见图4，按照1、2、3、4、5的路径顺序进行打印)，从左上角开始，从右下角结束。采用这种路径，打印机拐角100次，起抬打印头62次，总打印行程长度1700。打印机在打印的时候要少走拐角，拐角太多会使打印的成形效果变差，而在这种打印方式中，很明显的可以看到极多的拐角，成形的效果也是极差。

[0074] 而基于本发明输出打印路径(见图5)。经过了增强学习的训练，打印拐角明显变少，需要抬起打印头5次，拐角数为22次，打印行程总长度为490，最终的成形效果也是要明显优于Z字形的路径规划。最终使用3D打印机对50层对象进行打印，形成实物。

[0075] 基于上述图形打印结果，对结构类似的另外一个复杂薄壁模型B(见图6)进行了实验。

[0076] 首先建立层对象的路径规划仿真环境，如图7，令该仿真模型的壁厚为单位1，打印头输出宽度为单位1。

[0077] 采用偏置轮廓的传统路径规划算法，从左下角起点处开始，先对最外一圈的图案进行打印，之后向内进行的打印，如图8，共转弯12次，起抬打印头1240次，总打印行程长度48000。

[0078] 采用本发明提出的智能路径规划方法算法，针对不同模型，只要对Q矩阵重新初始化，在约束条件不变的基础上重新建立R矩阵，其他算法参数不变即可完成对新路径的学习与训练。训练结果如图9所示，按照1、2、3、4、5的路径顺序进行打印；打印头转弯69次，起抬打印头5次，总打印行程长度3432。

[0079] 由此可见利用本发明，抬打印头的次数大大降低，在成形效果以及效率上明显要优于传统算法。最终使用3D打印机对100层对象进行打印，形成实物。

标题	发布/更新时间	阅读量
一种基于深度强化学习的异构网络选择方法	2020-05-08	113
视频摘要模型的训练方法、视频摘要生成方法及装置	2020-05-13	605
基于强化学习和双线性卷积网络的车型识别方法	2020-05-11	923
基于深度增强学习的预观控制仿人机器人步态规划方法	2020-05-12	704
基于改进直流潮流算法的电网无功潮流调整方法及装置	2020-05-12	393
一种用辩证法研究钢琴教学的方法	2020-05-13	164
一种基于相似上下文和强化学习的中文词向量生成方法	2020-05-13	585
基于强化学习的波动鳍推进水下作业机器人追踪控制方法	2020-05-11	144
一种基于强化学习的人脸识别方法	2020-05-11	825
一种电力信息通信设备自动化测试资源调度方法	2020-05-13	665

基于强化学习的复杂薄壁结构物体3D打印路径规划方法

基于强化学习的复杂薄壁结构物体3D打印路径规划方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：