专利汇可以提供一种基于网格搜索的支持向量机行程时间预测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于网格搜索的 支持向量机 行程时间预测方法,属于智能交通领域,包括:1、基于 船舶 自动识别系统数据,依照缺失数据的排查、上下行船舶的划分以及冗余数据的剔除三大步骤进行数据的预处理工作;2、构建基于历史时段的内河船舶行程时间 预测模型 ,并根据模型得到 训练数据 集;3、基于支持向量机网格搜索法寻找预测模型的最优参数;4、基于最优参数,实现对内河船舶行程时间的预测;5、预测结果评价。本发明可用于对船舶自动识别系统数据运用 数据挖掘 理论方法进行挖掘及分析,实现对内河船舶行程时间的预测,其应用将有助于提高航务管理部 门 的管理 水 平,促进内河航运的迅猛发展。,下面是一种基于网格搜索的支持向量机行程时间预测方法专利的具体信息内容。
1.一种基于网格搜索的支持向量机行程时间预测方法,包括以下几个步骤:
步骤一、船舶自动识别系统(Automatic Identification System,AIS)数据预处理;
首先需要对AIS数据中的缺失数据进行排查;采集到的AIS数据主要包括MMSI号、归档时间、经度、纬度、对地航速、对地航向、船舶类型;在原始数据中,某一时刻的某一船舶可能存在有上述信息不完整的情况,对于此类不完整信息,应该予以排查及去除;
其次,根据船舶对地航向角不同进行上下水的划分,将原始AIS数据分为上行船舶及下行船舶两大部分;根据内河船舶航行特点可知,在内河上行驶的船舶,其航行速度会受到上下水不同的影响,下水船舶航行速度明显高于上水船舶,会对行程时间产生影响,进而在建立的预测模型中会产生不同的参数;根据船舶航行对地航向角的不同,将原始数据导入地图中,得到船舶上下行区分图,从而对上行船舶和下行船舶进行划分;
最后再剔除冗余航段;在原始数据中,会出现例如船舶未行驶、经纬度数据错误、船舶位于长江航道以外的错误数据,除了剔除上述错误数据之外;有部分船舶位于支流航段,还有部分船舶为轮渡船,并未沿着内河的上下行方向航行,因此,上述类似船舶也应在原始数据中剔除;
步骤二、构建基于历史时段的内河船舶行程时间预测模型
本发明利用支持向量机(Support Vector Machine,SVM)的自学习能力,自我学习各项因素之间的复杂函数关系;内河船舶当前时段的行程时间与该时段的前几个时段的行程时间有着一定的函数关系,即:
TK=f(Tk-1,Tk-2,...,Tk-n) (1)
其中,TK代表在当前时段符合预测航段的各个船舶实际行程时间的平均值;Tk-n代表预测时段k的前几个时段符合预测航段的各个内河船舶实际行程时间,n=1,2,…,n;
在预测航段内选取定点A和定点B,A、B之间的航段L即为预测航段;其中,为保证每一组训练数据的起点及终点位置基本相同,需要做如下限定,即假设所选取的起点A的坐标为(x,y),那么实际起点A’的坐标需要满足一定的精度要求,即:|x-x'|≤ε,|y-y'|≤ε;同理,终点B也需要满足以上精度要求;
在基于历史时段的预测模型中,因为越靠近当前时段的时段与预测时段的相关程度越大,因此训练集中的每组数据要包含适当数量时段的船舶行程时间,又因为船舶航行速度是影响内河船舶行程时间的又一个重要因素,因此要采用与内河船舶行程时间密切相关的历史时间序列及该时段各船舶航行的平均速度作为预测的特征值;首先将数据分为上行情景一和下行情景二两种情况,然后第一维输入向量为T1第二纬输入向量为T2,第三维输入向量为T3、第n维输入向量为Tn,平均速度向量为V,输出向量为Tn+1;之后,将构造的训练数据导入SVM程序中,SVM通过历史数据进行自我学习,找到输入值与输出值之间的复杂函数关系,即可实现对内河船舶行程时间的预测;
步骤三、基于SVM网格搜索法寻找预测模型的最优参数
对于径向基核函数的参数C、σ、ε的选择,本发明采用网格搜索中的k折交叉验证法;k折交叉验证是将训练样本平均分成k份,每次拿出k-1份作为训练数据,剩下的一份作为测试数据,这样重复做k次,获得k次的平均交叉验证准确率作为结果,进行k折交叉验证之后会返回一个效率值,效率最大值所对应的cost和gamma参数就是径向基核函数的最优参数;在下一步使用SVM函数的预测工作中,将上述参数的值定位寻优获得的最优值,即可达到相对较好的预测小效果;
步骤四、基于最优参数,实现对内河船舶行程时间的预测
首先编写程序,在R中导入训练数据集,并设定好输入数据集合x,输出数据集合y;在调用svm函数时,需要设定SVM支持向量机核函数的类型,以及gamma和cost的最优值;其次需要对训练数据进行测试,采用上述预测模型,对输入集合x预测,得到预测值,并与真实值进行对比;最后,通过attr()函数确定对象属性,得出各因子权重;
步骤五、预测结果评价
首先对测结果进行可视化,以实际的观测值为横坐标,以所建立的SVM模型产生的预测值作为纵坐标,绘制相关散点图来进行对比;为了便于比较,也可以建立一组观测值与预测值完全相同的情况,与上述散点图进行对比,可以更加直观的看出预测值的分布;最后,计算预测模型的评价指标,对内河船舶行程时间预测模型的预测结果进行量化与评价。
2.根据权利要求1所述的一种基于网格搜索的支持向量机行程时间预测方法,所述的步骤二中,模型参数的确定方法如下:
本发明所建立的内河船舶行程时间预测模型选用高斯径向基核函数 和
ε-不敏感损失函数;其中σ为核参数,ε为不敏感损失函数参数;
σ表示在LIBSVM软件包中的参数gamma,反映了训练数据集的分布或范围特性,局部邻域宽度由它来决定;
ε表示在LIBSVM软件包中的参数epsilon控制着不敏感带的宽度,并会影响着对支持向量的个数;ε的值较小时,回归精度较高,支持向量数则较多,相反,ε的值较大时,回归精度较低,但支持向量数会变少;
C表示在LIBSVM软件包中的参数cost,同时也被称为正则化参数,它对达到误差上限的样本的惩罚程度进行控制,当取值增大时,样本的惩罚随之增大。
3.根据权利要求1所述的一种基于网格搜索的支持向量机行程时间预测方法,所述的步骤三中,寻找预测模型最优参数的具体方法如下:
1)、设定搜索范围:首先调用R统计软件的e1071函数包,选择所建立的训练数据集,设定输入及输出数据,并设定gamma参数cost参数的搜索范围后进行搜索,同时设定set.seed(10)来保证每次对训练集的划分及选取一致;
2)、最优值的判断:当经过搜索后所得到的gamma参数cost参数值为上下界的临界值时,此时搜索值不一定是最优值,需要重新设定搜索范围,获取新的参数值;
3)、获取最优值:经过上述几次搜索后,当搜索后得到的参数值介于上下界之间时,证明所设定的搜索范围正确,此时搜索到的参数值即为最优值。
4.根据权利要求1所述的一种基于网格搜索的支持向量机行程时间预测方法,所述的步骤五中,四种误差指标计算方法如下:
1)、平均绝对误差(MAD)为:
2)、平均相对误差绝对值(MAPE)为:
3)、最大绝对误差(MAE)为:
MAE=max|实际值-预测值| (4)
4)、最大相对误差(MRE)为:
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于容器技术动态适应软硬件运行环境的软件部署方法 | 2020-05-11 | 741 |
一种智慧教育服务管理方法 | 2020-05-11 | 491 |
内容处理方法、装置、计算机设备及存储介质 | 2020-05-12 | 557 |
一种通信设备软件升级方法及操作维护装置 | 2020-05-08 | 909 |
一种航空摄影一体化方法 | 2020-05-11 | 887 |
基于虚拟筛选的Bevantolol作为AIBP抑制剂方面的应用 | 2020-05-12 | 175 |
一种软件包仓库按需镜像方法、装置及系统 | 2020-05-13 | 769 |
大数据集群管理控制方法、装置、计算机设备及存储介质 | 2020-05-08 | 517 |
一种化合物毒性预测模型建模方法、装置及其应用 | 2020-05-13 | 13 |
一种拼接屏同步处理装置 | 2020-05-12 | 681 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。