首页 / 专利库 / 钓鱼与渔业 / 拖网渔船 / 一种基于多步聚类的拖网渔船行为判别方法

一种基于多步聚类的拖网渔船行为判别方法

阅读:693发布:2020-05-17

专利汇可以提供一种基于多步聚类的拖网渔船行为判别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于多步聚类的 拖网 渔船 行为判别方法。本发明综合考虑速度、 角 度、经纬度、时间等 时空 数据建立多维距离模型,并采用时序近邻计算准则计算轨迹点间相似度距离矩阵,大幅降低了矩阵计算时间,使用OPTICS 算法 与ξ-steep自动识别簇方法实现基于非全局参数的轨迹划分,得到轨迹段,再基于轨迹段之间相似度距离使用k-means算法实现轨迹段再次聚类,从而实现轨迹点的分类,再通过对分类进行特征提取,建立拖网渔船行为判别模型,实现拖网渔船行为的快速判别。实验表明,本发明具有低参数敏感性、高 精度 、高通用性、耗时少等优点,可应用于大批量拖网渔船行为的快速判定。,下面是一种基于多步聚类的拖网渔船行为判别方法专利的具体信息内容。

1.一种基于多步聚类的拖网渔船行为判别方法,其特征在于该方法包括如下步骤:
步骤1.建立轨迹点间相似度距离模型;
所述的轨迹点间相似度距离模型,是对两轨迹点间速度距离、度距离、时间距离以及空间距离的加权和,其中,速度距离为两点间速度差值的平方,角度距离为两点船只航行角度的夹角平方,时间距离为两点之间毫秒时间差值的平方,空间距离为两点经纬度距离的平方;
步骤2. 按照时序近邻计算准则计算轨迹点间相似度矩阵;
拖网渔船轨迹数据具有状态一致性,时序近邻计算准则不计算所有任意两点间的相似度距离,而仅计算时间相邻n个点之间的相似度距离,其他距离直接取值无穷大;
步骤3.使用OPTICS算法获得轨迹点有序可达图;
步骤4.使用ξ-steep自动识别簇算法将有序可达图切分得到轨迹子段,实现对轨迹点初步聚类;
拖网渔船状态具有状态一致性,相邻时间段内同一状态的拖网渔船轨迹点的聚集状态明显,其对应的有序可达图内部平缓边缘陡立的特征,利用ξ-steep自动识别簇算法对陡峭边缘点的识别与切割,从而完成对轨迹子段的切割,实现轨迹点的初步聚类;
步骤5. 计算轨迹子段的速度平均值,使用k-means算法实现轨迹段再次聚类,从而实现轨迹点的状态判别;
切分后的轨迹子段内部状态一致,取轨迹子段内部所有轨迹点的速度平均值,以消除轨迹段内的波动数据影响,使用k-means算法实现对轨迹子段的聚类;
步骤6.对于多步聚类结果,建立Fisher判别模型,实现拖网渔船轨迹点处行为的快速判别。

说明书全文

一种基于多步聚类的拖网渔船行为判别方法

技术领域

[0001] 本发明属于渔业领域与数据挖掘技术领域,具体涉及一种基于多步聚类的拖网渔船行为判别方法。

背景技术

[0002] 渔船监控系统(VMS)是基于卫星导航系统地理信息系统、互联网、移动通信网络等的综合信息服务平台。在中国,随着北斗卫星定位系统的应用推广,北斗卫星系统可以每隔10min获取一条记载有渔船航速、航向、时间、位置、舰艏方向、报警等信息的轨迹数据,这为海上船舶导航、渔业生产、海上监控、海上救援等应用场景提供数据支持。受技术限制,VMS系统无法直接获取渔船实时行为状态,因而利用渔船时序轨迹数据实现拖网渔船行为判别成为主要的研究方法。
[0003] 渔船捕捞状态轨迹点判定在渔场识别、捕捞强度计算、渔业资源评估、渔业生态保护等场景中有着重要的应用价值,是核心技术之一。在渔场识别方面,通过识别所有渔船的捕捞轨迹点,统计一定时间内捕捞状态轨迹点的在海图中的热分布,热力值高的区域即为渔场区域。在捕捞强度计算方面,通过统计某区域内捕捞轨迹点个数,结合拖网渔船的功率,计算累计捕捞量,从而得到捕捞强度。在渔业资源评估方面,通过计算捕捞强度,进而得到渔业资源消亡量的动态信息,为渔业资源的动态评估提供支撑。在渔业生态保护方面,通过对拖网渔船捕捞行为的判别,进一步评估捕捞努力量的时空分布,加强渔业资源的管理与养护,这对渔业生态可持续发展具有重要意义。
[0004] 本发明的研究对象为拖网拖网渔船。拖网渔船行为状态可以通过捕捞日志获得,也可以通过拖网渔船轨迹数据分析获得。捕捞日志是由船员手动记录放网收网时刻等数据,可以获取精确的行为状态,但这种方式存在因手动登记的不规范,存在漏记、捕捞时刻记录不精确等问题,另外由于近海拖网渔船并没有被强制记录捕捞日志的要求,因而无法得到大量近海拖网渔船的捕捞日志,因而基于拖网渔船轨迹数据分析获得船只行为状态的方法成为主流研究方法。现有基于轨迹数据的研究主要包括三个方面:基于轨迹点的分类方法、基于轨迹段的分类方法和其他的识别方法。
[0005] 基于轨迹点的行为判别方法是以单个轨迹点为研究对象,利用轨迹点分布特征,实现轨迹点的分类。一条轨迹点数据中包含船只ID、航速、方向、longitude、latitude、positionDate、mmsi等,研究人员利用其中一种或几种特征来挖掘其与拖网渔船行为状态的关系,其中利用速度特征加以研究的最多。
[0006] 拖网渔船主要有三种行为状态:停泊、捕捞和航行。拖网渔船不同行为状态下速度与度存在较明显不同。在速度方面,停泊状态的轨迹点船速最低,捕鱼时的船速次之,航行状态时的船速最高。在角度方面,相邻轨迹点处航向转角较小时,拖网渔船行为几乎不发生改变,而在行为改变时,相邻轨迹点间航向转角较大。与此同时,不同行为状态下,轨迹点的经纬度分布也具有不同的特性,停泊状态下的轨迹点的经纬度几乎不改变。通过利用以上不同行为状态下速度、角度经纬度的分布特征,研究人员实现了多种船舶工作的判别。
[0007] 现有的基于轨迹点的方法,以速度为主,角度、轨迹点研究为辅。而在对速度的处理方法中,主要是获取捕捞状态下的速度的上下阈值,尽可能地使捕捞状态轨迹点的速度落入阈值区间内,先后出现了手动设置速度阈值区间,基于EM算法的GMM自动设置速度阈值的方法。
[0008] 基于轨迹点的分类方法简单且具有较好的分类效果。但这些分析都是基于以下两种假设:(1)船只行为状态稳定且速度、角度等区分明显,但由于海洋文状态不稳定,会导致船只轨迹状态的波动,易于造成误判;(2)拖网渔船在不同行为下的速度分布已知,但一定时间段内轨迹速度值并非服从独立同分布,轨迹数据具有明显的时空局部性特征,尤其当数据量较少时,其速度的分布并不总是服从同一分布特征,先验分布并不明显,基于速度分布的方法的效果就会变差。
[0009] 相对于轨迹点的研究方法,基于轨迹段的研究方法是针对拖网渔船行为的连续性,将相邻轨迹点整体考虑的方法。现有基于轨迹段的研究方法可分为两类,一类为基于轨迹点分类的采用移动滑窗方式对分类结果进行的二次调整,另一类为引入时间变量,突出轨迹点之间的时序关系。
[0010] 利用移动滑窗方法是在基于轨迹点分类结果,进行的分类再调整过程。基于轨迹点分类的方法会因偶然数据造成该点处拖网渔船行为的误判,考虑到误判点数量较少,因而可以通过移动滑窗的方式,对比各轨迹点前后一定时间段内的所有轨迹点的状态,若周围点属于同一类,则将该点状态进行调整。
[0011] 引入时间变量的方法是利用轨迹数据的时间局部性,将轨迹整体考虑,从而将问题的重点由轨迹点的分类转为轨迹段分割与聚类上。研究方法主要有三步:(1)构建轨迹点距离模型(2)将轨迹划分为子轨迹段(3)对子轨迹段再进行聚类。
[0012] 在拖网渔船行为的判别研究方向上,2018年Zhang等人提出MSC-FBI,该方法首先建立时空距离模型,然后采用基于DBSCAN的多步聚类算法识别捕鱼行为。其中多步聚类环节中采用DBSCAN算法将状态相似度高的轨迹点进行第一次聚类,然后再使用K-means算法将轨迹段二次聚类,从而完成轨迹段的分类。MSC-FBI算法的优点是简单、可解释性强,但是该方法仍存在以下问题:(1)分类的好坏直接取决于DBSCAN算法中全局变量邻域半径以及邻域内最小数目的选取,不仅调参困难,且可能造成批量误判;(2)算法存在耗时高、通用性不佳等缺点,不适合批量船只的快速分类。
[0013] 除了上述两种方法以外,还有其他基于轨迹特征的分类方法,例如基于数学形态学和基于概率分布的分类方法。基于数学形态学的方法,主要针对拖网渔船在不同行为下轨迹呈现出的线与团等不同形态,使用数学形态学的处理方法加以区分,如1987年Yuan Zong等人对轨迹图加以膨胀、腐蚀处理,从而达到消除航行与停泊轨迹点只保留捕捞轨迹的目的。数学形态学方法操作简单,但无法区分出捕捞区域中其他行为的轨迹点。
[0014] 基于概率的拖网渔船行为判别方法主要通过确定拖网渔船各个状态之间的转换概率,从而确轨迹点对应的拖网渔船的行为。2008年D.L.Borchers基于拖网渔船速度的变化,建立隐式尔科夫模型,通过大量已标注的样本来训练模型,求出状态转换的概率矩阵,利用概率的方式来预测拖网渔船的状态。2010年Gerritsen Hans等人建立了一个基于隐式马尔科夫的贝叶斯层次模型(HBM),通过分析拖网渔船轨迹数据,进而区分拖网渔船在捕鱼过程中的不同状态。
[0015] 这些基于概率转换的方法虽然具有很强的鲁棒性,不受速度等轨迹点属性分布的影响,但是依然存在以下两个方面的缺点:(1)训练这些模型需要大量的先验数据;(2)这些模型只是基于当前轨迹点状态,输入概率矩阵后判断下一个轨迹点处的状态,并没有考虑拖网渔船轨迹的时空局部性,会带来判别误差。

发明内容

[0016] 本发明针对现有技术的不足,提出一种基于多步聚类的拖网渔船行为判别方法。
[0017] 本发明首先综合考虑速度、角度、经纬度、时间等时空数据建立多维距离模型,并采用时序近邻计算准则(TSNCP)计算轨迹点间相似度距离矩阵,以降低了矩阵计算时间,再使用OPTICS算法与ξ-steep自动识别簇方法实现基于非全局参数的拖网渔船轨迹划分,得到轨迹子段,然后基于轨迹段之间相似度距离使用k-means算法实现轨迹段再次聚类,从而实现轨迹点的行为分类,最后对不同聚类簇的进行特征提取,并建立拖网渔船行为判别模型,实现拖网渔船行为的快速判别。
[0018] 本发明具有低参数敏感性、高精度、高通用性、耗时少等优点,可实现大批量拖网渔船行为的快速判定。附图说明
[0019] 图1本发明方法流程图
[0020] 图2拖网渔船轨迹数据有序可达图;
[0021] 图3拖网渔船轨迹子段平均速度分布图。

具体实施方式

[0022] 如图1所示,本发明方法的具体步骤是:
[0023] 步骤1.建立轨迹点间相似度距离模型,其为两轨迹点间速度距离、角度距离、时间距离以及空间距离的加权和,具体如下:
[0024] (1)速度距离:两轨迹点之间的速度距离为两点速度差值的平方,记为V(i,j);
[0025] (2)角度距离:两轨迹点之间的角度距离为两点航向的夹角大小,记为D(i,j);
[0026] (3)时间距离:两轨迹点之间的时间距离为两点毫秒时间的差值绝对值,记为T(i,j);
[0027] (4)空间距离:两轨迹点之间的空间距离为两点经纬度差值的平方和,记为S(i,j);
[0028] 将两点间相似度距离模型取为上述四种距离的加权和,记为
[0029] D(i,j)=θV×V(i,j)+θD×D(i,j)+θT×T(i,j)+θS×S(i,j)
[0030] 其中,θ={θV,θD,θT,θS}为权重矩阵,所有的权重和为1。轨迹点相似度距离模型通过加权求和的方式实现了速度、角度与时间、位置属性的融合,并可以通过调节权重的方式调整各参数对轨迹点相似度距离的影响比重。
[0031] 步骤2.按照时序近邻计算准则(TSNCP)计算轨迹点间相似度矩阵。在增大时间距离权重后,仅计算时序相邻n个点之间的相似度距离,其他距离直接以无穷大表示。
[0032] 本发明提出了一种矩阵计算准则——时序近邻计算准则(Time Series Neighbor Computer principle,TSNCP)准则。该准则指出,在时序数据相似度矩阵计算中,若后续计算只与时序相近的点有关,则可以不用计算时序时间距离较大的点之间的相似度距离。在计算两点间相似度距离时,通过加大时序距离的权重,在后续OPTICS算法等中,可以做到,对后续计算有影响的相似度距离仅出现在在时序相邻点之间。因而对于任意一个轨迹点,仅需计算与该点时序相邻的n个轨迹点的相似度距离即可,其他数据可直接标定为无穷大INF。假设有m条轨迹点数据,按时序相邻计算准则,相似度距离矩阵计算的范围为如下式表示:
[0033]
[0034] 其计算次数为 次,其中k
[0035] 步骤3.使用OPTICS算法获得轨迹点有序可达图。
[0036] 在基于密度的聚类方法的核心思想是用一个点ε邻域内邻居数衡量该点所在空间的密度。常见的基于密度的聚类算法有DBSCAN算法和OPTICS算法,后者是前者的高级演化。DBSCAN聚类的思想,即由密度可达关系导出的最大密度相连的样本集合,即一个簇。算法无须指定聚类个数,可以对任何形状的实现聚类。但DBSCAN存在高参数敏感问题,原因在于,DBSCAN通过手动输入全局参数ε(邻域的最大半径)与MinPts(核心对象的邻域中要求的最少点数),它把选择能产生可接受的聚类结果的参数值的责任留给了用户。全局参数造成算法的参数高敏感性,设置的细微不同可能导致聚类的批量误判。现有针对拖网渔船轨迹进行切分的MSC-FBI算法即是基于DBSCAN算法。
[0037] OPTICS兼具了DBCSAN的优点,并克服了高参数敏感性缺点。OPTICS算法从任意一个数据对象开始,尽量向着密度大的地方扩张。它并不显示地产生数据集聚类,而是得到的是每个数据对象的可达距离及扩张顺序图,即有序可达图,该排序代表了各数据对象基于密度的聚类簇结构,可达距离数值越大,表明该点处越稀疏,可达距离越小,意味着点处越密集,每个凹陷代表一个聚类,聚类问题转换为有序可达图的凹陷截取问题。
[0038] 从拖网渔船轨迹数据有序可达图可知,见图2,它有着以下特征,凹陷区域内部较低且较平整、凹陷边缘较为陡峭。这说明相同行为拖网渔船的轨迹点的内聚程度很高,主要原因在于拖网渔船行为状态的稳定性与时空局部性,拖网渔船在同种行为下速度、角度基本不变,时间与经纬度距离也相差较小,因此相似度距离相差不大。反之,拖网渔船行为的切变使得切变点与相邻轨迹点之间的距离陡然增大,使得该点在有序可达图中值很大。因此通过识别陡然增大的点,可以实现有序可达图的凹陷分割。
[0039] 若设置参数ε截取有序可达图,其得到的聚类效果,与DBSCAN算法设置全局参数ε得到聚类的效果相同,换句话说,DBSCAN算法是OPTICS算法的一种特例。本发明采用OPTICS算法旨在获得有序可达图,在聚类的过程并不设置全局参数ε,而是采取ξ-steep自动识别簇的方式截取每个凹陷(聚类簇),以得到更好的聚类效果。因此采用非全局参数的OPTICS克服了现有基于轨迹段聚类方法的强参数依赖问题。
[0040] 步骤4.使用ξ-steep自动识别簇算法将有序可达图切分得到轨迹子段,实现对轨迹点初步聚类;
[0041] OPTICS算法并没有显式地给出聚类结果,而是用有序可达图来反映簇结构,因此如何在其得到的有序可达图中识别出各个簇也是很重要的一方面。拖网渔船轨迹数据点的有序可达图,它有着以下特征,凹陷区域内部较低且较平整、凹陷边缘较为陡峭。这说明相同行为拖网渔船的轨迹点的内聚程度很高,主要原因在于拖网渔船行为状态的稳定性与时空局部性,拖网渔船在同种行为下速度、角度基本不变,时间与经纬度距离也相差较小,因此相似度距离相差不大。反之,拖网渔船行为的切变使得切变点与相邻轨迹点之间的距离陡然增大,使得该点在有序可达图中值很大。因此通过识别陡然增大的点,可以实现有序可达图的凹陷分割。
[0042] 问题由有序可达图凹陷的识别转换为陡峭点的识别。因此本发明针对有序可达图中陡峭边缘的特点,设计了一种自动识别簇算法,下面引出的定义:
[0043] 定义1:有序可达图中,若点p∈{1,...,n-1}可达距离r(p)与r(p+1)差值大于可达距离均值avr_r的ξ倍,则称点p为ξ-steep point,记为Pointξ(p),其中,若前者大则称p为ξ-up point,若前者小,则称p为ξ-down point。
[0044]
[0045] 由上式可知,有序可达图中,所有陡峭点程度大于一定值的点将被记录为ξ-steep point,这些是聚类簇的边界。
[0046] 稀疏点是聚类簇边缘的可达距离较大的点,稀疏点与密集区内的轨迹点同样具有三种行为状态,需要通过二次聚类实现状态的划分,因此本发明将稀疏轨迹点按长度为1的轨迹段处理。下面在有序可达图中给出稀疏点的定义:
[0047] 定义2有序可达图中,若点p∈{1,...,n}的可达距离r(p)大于可达距离均值avr_r的η倍,或点p∈{2,...,n}前一个值为ξ-up point,且r(p)不小于r(p-1),则称p点为sparse point。
[0048] 在轨迹切割中,按ξ-steep point和sparse point将完整轨迹段切割成轨迹子段,即实现了拖网渔船轨迹子段的切割。
[0049] 步骤5.计算轨迹子段的速度平均值,使用k-means算法实现轨迹段再次聚类,从而实现拖网轨迹点的分类;
[0050] 通过对轨迹子段的切分,将轨迹子段整体考虑,从而减少了波动数据对状态判断的影响。研究发现,在不同行为状态的轨迹子段在平均速度方面存在明显差异。航行状态下的轨迹子段的平均速度较大,捕鱼轨迹子段中平均速度较慢,而停泊状态时的平均速度最低。因此,本发明采用基于子轨迹段平均速度的K-means算法完成子轨迹段的聚类,实现了拖网渔船轨迹点的分类。
[0051] 从拖网渔船轨迹子段平均速度分布图中可以看出,见图3,在不同行为状态的轨迹子段在平均速度方面存在明显差异。航行状态下的轨迹子段的平均速度较大,捕鱼轨迹子段中平均速度较慢,而停泊状态时的平均速度最低。区别明显,可使用聚类算法加以区分。
[0052] 步骤6.对于多步聚类结果,建立Fisher判别模型,实现拖网渔船轨迹点处行为的快速判别。
[0053] 为了能实现对轨迹数据的实时判别,OMSC-FBI算法需要建立一个拖网渔船行为判别模型。
[0054] 假设通过OMSC-FBI算法,将一条长度为n的拖网渔船的轨迹TR的轨迹点分为k组,分别记为G1,G2,…Gk,且每组轨迹的长度分别为n1,n2,…,nk,满足n=n1+n2+…+nk。每个轨迹点由一个p维的向量(如速度、方向、时间、经纬度等)x=(x1,x2,…xp)T表示。根据轨迹点的p维属性信息,构造拖网渔船行为判别函数如下:
[0055]
[0056] 其中,判别系数向量a=(a1,a2,…,ap)T待求,且能够使得同组内的离差最小。
[0057] 为了表达的方便,假设 代表第i类行为的第a个样品的观测向量。m代表所有轨迹点的均值向量,mi代表第i组Gi的样本均值。组间平方和为SSG,组内平方和为SSE,则在k>1的情况下,Fisher判别准则就是选取合适的判别系数向量a,使得
[0058]
[0059] F取最大值。即求a,使得 为保证取得唯一性,设aTEa=1。因而构造辅助函数得:
[0060] χ(a)=aTBa-λ(aTEa-1)
[0061] 求导可得:
[0062]
[0063] 即得
[0064]
[0065] 这说明λ和a分别为矩阵E-1B的特征根与相应的特征向量。由此可知,拖网渔船行为判别模型总共由m个判别是组成,这m个公式利用轨迹点数据共同完成拖网渔船行为的判别。
[0066] 依据上述设计,本发明的主要部分伪代码如下所示:
[0067]
[0068]
[0069] 应该理解到的是:上述实施例只是对本发明的说明,而不是对本发明的限制,任何不超出本发明实质精神范围内的发明创造,均落入本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈