首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 明显错误 / 一种基于北斗车联网的货车预警信息提取与风险识别方法

一种基于北斗车联网的货车预警信息提取与险识别方法

阅读:140发布:2021-02-25

专利汇可以提供一种基于北斗车联网的货车预警信息提取与险识别方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于北斗车联网的货车预警信息的提取与 风 险识别的方法,包括:步骤1,通过设有北斗 定位 系统的车联网车载终端获取车辆预警相关的原始数据,步骤2,对原始数据进行预处理,步骤3,货车预警信息的关键变量提取,步骤4,车辆安全风险的聚类,步骤5,判别分析,步骤6,风险识别。本发明可以对某一车辆/驾驶员,给出其单位行驶里程预警频次和单位行驶时间的预警频次,就可基于车联网的历史数据给出判别分析的判断函数,实现对其风险的识别或预测。,下面是一种基于北斗车联网的货车预警信息提取与险识别方法专利的具体信息内容。

1.一种基于北斗车联网的货车预警信息的提取与险识别的方法,其特征在于,包括以下几个步骤:
步骤1,通过设有北斗定位系统的车联网车载终端获取车辆预警相关的原始数据,原始数据包括:里程信息、安全预警信息、状态数据,所述状态数据包括车辆ID、ACC状态、上传时间;
步骤2,对原始数据进行预处理
运用Python编程技术对原始数据进行预处理与筛选;在对原始数据进行分析之前,需要对原始数据进行清洗和整理,提高数据质量;数据清洗包括:填补数据中的缺失值、识别数据中的异常值和冗余数据;结合车载终端存储数据的特点,对原始数据进行预处理,具体做法如下:
步骤2.1,数据缺失值的操作:运用Python进行编程操作,引入Python之中的os、numpy模,定义所需函数,执行main函数,对车载终端存储的文本文件进行操作,删除缺少属性值的文本文件,保证属性的完整性;
步骤2.2,数据异常值的操作:数据异常值包括里程异常、预警状态异常、上传时间异常;
1)里程异常处理:首先,遍历所有数据文件,计算车辆当日行驶里程,其次,做出车辆当日行驶里程累计分布图,确定车辆当日行驶里程的过大值点和过小值点;最后,剔除车辆当日行驶里程中数值过大或者过小的出行记录;
2)预警状态异常处理:对各个预警位的预警持续时长进行统计,求出预警位单次预警的持续时间,删除明显错误的预警状态;
3)上传时间异常处理:计算相邻上传点的时间差,剔除相邻“上传时间”差值不变点或者小于零的记录点;
步骤2.3,冗余数据的操作:遍历车辆当日出行的所有记录,对重复上传和当日数据规模较小的记录进行删除,具体为:对上传记录进行比对,删除重复上传的记录,重复执行直到遍历所有数据文件;对数据规模较小的记录,统计车辆当日出行时长,对小于15min的出行记录进行删除;
步骤3,车辆预警信息的关键变量提取
根据车辆历史出行数据,提取车辆行驶预警信息中两个关键变量:车辆单位行驶里程的预警频次、车辆单位行驶时间的预警频次;首先,统计时段T天内每辆车的特定预警位的总预警频次,T为正整数;其次,统计时段T天内每辆车的总行驶里程;再次,统计时段T天内每辆车的总行驶时间;然后,计算每辆车在单位行驶里程的预警频次和单位行驶时间的预警频次;以车辆ID为唯一识别码,把同一ID车辆在不同时段的出行记录信息进行统计汇总;
具体步骤为:
步骤3.1,统计时段T天内每辆车在特定预警位的预警频次
以车辆的出行预警记录为对象,首先以车辆ID为唯一识别码,对每辆车在一天内的各个预警位的预警频次进行统计,再对选定的几个特定预警位进行累加,得到每辆车在一天内特定预警位的预警总频次,最后再对时段T天内同一ID车辆每天在特定预警位的预警频次进行累加,得到时段T天内每辆车在特定预警位的预警总频次;
步骤3.2,统计时段T天内每辆车的总行驶里程
行驶里程是记录车辆仪表盘的里程变化,反映车辆的行驶距离;以车辆ID号为唯一识别码,对同一ID车辆的行驶里程进行累加,最终获得时段T天内每辆车的总行驶里程;
步骤3.3,统计时段T天内每辆车的总行驶时间
车辆行驶时间不包含车辆因等待或者延误所损失的时间,车辆行驶时间提取的原理是:先计算车辆出行的总时间,然后计算停车时间,二者的时间差即为车辆的总行驶时间;
然后,以车辆ID为唯一识别码,对时段T天内同一ID车辆的行驶时间进行累加,得到时段T天内每辆车的总行驶时间;
步骤3.4,基于步骤3.1得到的时段T天内每辆车在特定预警位的预警频次和步骤3.2得到的时段T天内每辆车的总行驶里程,两者相除,得到车辆单位行驶里程的预警频次;基于步骤3.1得到的时段T天内每辆车在特定预警位的预警频次和步骤3.3得到的时段T天内每辆车的总行驶时间,两者相除,得到车辆单位行驶时间的预警频次;
步骤4,车辆安全风险的聚类
把车辆单位行驶里程的预警频次和车辆单位行驶时间的预警频次作为聚类对象,进行风险等级的划分;基于AGNES层次聚类算法对二维数据进行聚类;
具体为:
1)确定输入样本集O={(WFM1,WFT1),(WFM2,WFT2),...,(WFMn,WFTn)}以及聚类数目Z值,其中WFMi和WFTi分别代表是车辆i单位行驶里程的预警频次和单位行驶时间的预警频次,其中i=1,2,…,n,n为样本个数,即车辆或驾驶员的总数量;
2)采用自底向上的聚类策略,以样本集O中每个对象Oi作为一个样本簇Φi,计算任意两个样本簇Φc和Φv之间的距离并比较各个距离,其中c≠v,寻找距离最近的两个样本簇Φh、Φc作为新的样本簇的集合,Φh=Φh∪Φc,其中c、v、h为正整数,取值均小于等于n;
3)聚类簇距离度量函数
其中两个簇之间的邻近度大小,由两个簇共同决定,采用平均距离计算任意两个样本簇之间的聚集度,聚集度用来表示两个样本簇的相似度;
G=(WFMg,WFTg),Q=(WFMq,WFTq)      (6)
式中:Φh,Φc分别代表某个样本簇,|Φh|、|Φc|分别表示样本簇Φh,Φc中元素的个数,G,Q分别代表样本簇Φh,Φc中的某个样本,WFMg表示车辆g单位行驶里程的预警频次,WFTg表示车辆g单位行驶时间的预警频次,WFMq表示车辆q单位行驶里程的预警频次,WFTq表示车辆q单位行驶时间的预警频次,dist(G,Q)表示G,Q两个样本之间的欧氏距离;
4)比较3)中计算得到的每个样本簇之间的平均距离,基于聚类合并原则合并两个距离最近的簇,不断更新合并形成新的簇,重新进行簇划分;
5)终止条件判断
根据设定的聚类数目Z值,若聚类簇数等于Z值,则无需再进行聚类,聚类终止,得到Z类风险等级;
步骤5,判别分析
步骤5.1,确定类别变量和判别变量
以车辆所处的风险程度进行风险等级划分,按照步骤4的聚类结果来划分,分为1级、2级、…Z级,将车辆单位行驶里程的预警频次和车辆单位行驶时间的预警频次作为判别分析的判别变量,将车辆的风险等级作为判别分析的类别变量;
步骤5.2,判别函数的建立,根据样本数据确定类别变量与判别变量之间的数量关系,运用Fisher判别准则,建立Fisher判别函数;
步骤6,风险识别
根据建立的Fisher判别函数,对新样本进行分类判别
1)计算Y空间中样本点所属类别的中心;(2)对于新样本,计算其Fisher判别函数值Y0,构建Y0与各个类别中心的距离函数W(Y0),并计算Y0与各个类别中心的距离;(3)利用距离判别法,判定其所属类别。
2.如权利要求1所述的基于北斗车联网的货车预警信息的提取与风险识别的方法,其特征在于,步骤2.2中里程的过小值以日行驶里程累计分布来确定,按照不足总体样本的
2%来确定;里程的过大值判断方法依据统计学基本知识3σ原则来确定。
3.如权利要求1所述的基于北斗车联网的货车预警信息的提取与风险识别的方法,其特征在于,步骤3.2中,时段T天内每辆车的总行驶里程计算公式如下所示:
其中,Mi是车辆i在时段T天内的总行驶里程;mij是车辆i在第j天的当日行驶里程,i=
1,2…n;j=1,2…T。
4.如权利要求1所述的基于北斗车联网的货车预警信息的提取与风险识别的方法,其特征在于,步骤3.3中,车辆出行的总时间:是车载仪器从记录开始至结束的持续时间,车辆当日记录起点开始时刻和停止记录结束时刻的时间差就是车辆出行的总时间;停车时间:
里程连续不变的位置就是车辆静止的位置,寻找里程记录连续不变点,统计连续不变点持续时间,得到车辆的停止时间。
5.如权利要求1所述的基于北斗车联网的货车预警信息的提取与风险识别的方法,其特征在于,步骤5.2中,Fisher判别函数为:
y=b1x1+b2x2+…+bpxp                 (8)
式中,bα为判别系数,α=1,2,…,p,y是样本在低维Y空间中的某个维度。
6.如权利要求5所述的基于北斗车联网的货车预警信息的提取与风险识别的方法,其特征在于,步骤6中,所述距离函数W(Y0)如下所示:
式中, 分别表示Y空间中第e、f类样本的中心点, 表示Y空间中第e类和f类所有样本的中心点, ∑-1表示第e、f类协方差矩阵的逆矩阵;其中e=1,
2,…,Z,f=1,2,…,Z,e≠f;
当W(Y0)>0时,新样本点属于第e类。

说明书全文

一种基于北斗车联网的货车预警信息提取与险识别方法

技术领域

[0001] 本发明属于交通安全应用领域,应用于交通运输行业,具体为一种基于北斗车联网的货车预警信息提取与风险识别方法。

背景技术

[0002] 2019年4月12日交通运输部公布了2018年交通运输行业发展统计公报,数据表明2018年我国全年完成公路货运量395.69亿吨,增长7.3%,公路货物周转量71249.21亿吨公里,增长6.7%。近年来,我国公路货运量和货物周转量仍在逐渐上升,但道路交通安全问题日益凸显,道路交通安全事故仍是我国交通事业发展的一大隐患。据公安部交管局统计,
2016年底全国汽车保有量1.94亿辆,其中载货汽车(简称货车)1351.77万辆,占汽车总量的
7.0%;2016年全国共发生货车责任道路交通事故5.04万起,占全国汽车责任事故总量的
30.5%,这个比例远远高于货车保有量占汽车总量的比例。由此可见,货车的交通安全问题尤为重要,如何减少货车交通事故的相关研究迫在眉睫。
[0003] 传统的道路交通安全研究多以交通事故数据为基础,构建事故频次或事故严重程度模型,从人、车、路、环境四个方面来揭示交通事故特征及其关键影响因素。随着互联网和计算机技术的快速发展,交通数据采集手段更加多元化和智能化,车联网技术在交通安全方面的应用得到相应发展。现有基于车联网的交通安全研究大多涉及的是车辆预警的模型方法、装置及系统。例如,专利CN109615879A为基于车联网的车速异常预警模型,专利CN109584630A为基于车联网的车辆变道预警装置及预警方法,CN109147279A为基于车联网的疲劳驾驶监测预警方法及系统,专利CN105869439B、CN108986544A、CN109559559A、CN109584631A为基于车联网的防碰撞预警方法及系统等。但是,现有文献鲜有涉及如何基于车联网利用货车车载装置的预警信息来提升道路交通安全的相关技术。
[0004] 当前针对车联网技术在交通领域的运用前景广阔,交通运输部规定城际货运车辆必须联网,通过车联网对货车运行进行实时监管监控,据此来提升道路交通安全。目前多个省市货运车辆运用的是北斗车联网系统,并要求货车安装相应的安全预警装置。北斗车联网系统通过采用先进的北斗定位导航、传感、控制等技术,构建起以车辆为节点的车联网系统,实时监控和存储车辆的行驶轨迹、速度、时间、里程以及行驶状态中的报警预警信息等,其中,车辆预警信息主要包括超速预警、疲劳驾驶预警、碰撞预警、侧翻预警等。但目前仍缺少如何提取和利用这些预警信息来提升道路交通安全的相关技术。预警多发生在车辆违章之前,表明已存在一定的潜在风险,预警是为了提示驾驶员规范其驾驶行为,减少交通事故和违章事件的发生。驾驶员交通事故或违章事件属于确定性的危险行为,发生概率相对较低,事件是否发生的随机性较强;而预警属于潜在危险行为,发生概率更高,数据量更大,预警信息能更全面深入地反映驾驶员的驾驶风险。据此,本发明提出一种基于北斗车联网的货车预警信息提取与风险识别方法,基于车联网技术获取车辆预警相关的原始数据,对数据进行处理,提取预警信息的关键变量,在此基础上对车辆/驾驶员的风险程度进行聚类与判别分析,精准识别出高风险的车辆/驾驶员,可督促驾驶员养成良好的驾驶习惯,提升道路交通安全。

发明内容

[0005] 针对现有技术中存在的缺陷,本发明提出了一种基于北斗车联网的货车预警信息提取与风险识别方法。
[0006] 为达到以上目的,本发明采取的技术方案是:
[0007] 一种基于北斗车联网的货车预警信息的提取与风险识别的方法,包括以下几个步骤:
[0008] 步骤1,通过设有北斗定位系统的车联网车载终端获取车辆预警相关的原始数据,原始数据包括:里程信息、安全预警信息、状态数据,所述状态数据包括车辆ID、ACC状态、上传时间等;
[0009] 步骤2,对原始数据进行预处理
[0010] 运用Python编程技术对原始数据进行预处理与筛选;在对原始数据进行分析之前,需要对数据进行清洗和整理,提高数据质量;数据清洗包括:填补数据中的缺失值、识别数据中的异常值和冗余数据;缺失值主要表现为缺少属性值,异常值主要表现为某单个属性的值过大或者过小,结合车载终端存储数据的特点,对原始数据进行预处理,具体做法如下:
[0011] 步骤2.1,数据缺失值的操作:运用Python进行编程操作,引入Python之中的os、numpy模,定义所需函数,执行main函数,对车载终端存储的文本文件进行操作,删除缺少属性值的文本文件,保证属性的完整性;
[0012] 步骤2.2,数据异常值的操作:数据异常值包括:里程异常、预警状态异常、上传时间异常;
[0013] 1)里程异常处理:首先,遍历所有数据文件,计算车辆当日行驶里程,其次,做出车辆当日行驶里程累计分布图,确定车辆当日行驶里程的过大值点和过小值点;最后,剔除车辆当日行驶里程中数值过大或者过小的出行记录;
[0014] 2)预警状态异常处理:对各个预警位的预警持续时长进行统计,求出预警位单次预警的持续时间,删除明显错误的预警状态;
[0015] 3)上传时间异常处理:计算相邻上传点的时间差,剔除相邻“上传时间”差值不变点或者小于零的记录点;
[0016] 步骤2.3,冗余数据的操作:遍历车辆当日出行的所有记录,对重复上传和当日数据规模较小的记录进行删除,具体为:对上传记录进行比对,删除重复上传的记录,重复执行直到遍历所有数据文件;对数据规模较小的记录,统计车辆当日出行时长,对小于15min的出行记录进行删除;
[0017] 步骤3,车辆预警信息的关键变量提取
[0018] 根据车辆历史的出行数据,提取车辆行驶预警信息中两个关键变量:车辆单位行驶里程的预警频次、车辆单位行驶时间的预警频次;首先,统计时段T天内每辆车的特定预警位的总预警频次,T为正整数;其次,统计时段T天内每辆车的总行驶里程;再次,统计时段T天内每辆车的总行驶时间;然后,计算每辆车在单位行驶里程的预警频次和单位行驶时间的预警频次;以车辆ID为唯一识别码,把同一ID车辆在不同时段的出行记录信息进行统计汇总;具体步骤为:
[0019] 步骤3.1,统计时段T天内每辆车在特定预警位的预警频次
[0020] 以车辆的出行预警记录为对象,首先以车辆ID为唯一识别码,对每辆车在一天内的各个预警位的预警频次进行统计,再对选定的几个特定预警位进行累加,得到每辆车在一天内特定预警位的预警总频次,最后再对时段T天内同一ID车辆每天在特定预警位的预警频次进行累加,得到时段T天内每辆车在特定预警位的预警总频次;
[0021] 步骤3.2,统计时段T天内每辆车的总行驶里程
[0022] 行驶里程是记录车辆仪表盘的里程变化,反映车辆的行驶距离;以车辆ID号为唯一识别码,对同一ID车辆的行驶里程进行累加,最终获得时段T天内每辆车的总行驶里程;
[0023] 步骤3.3,统计时段T天内每辆车的总行驶时间
[0024] 车辆行驶时间不包含车辆因等待或者延误所损失的时间,车辆行驶时间提取的原理是:先计算车辆出行的总时间,然后计算停车时间,二者的时间差即为车辆的总行驶时间;然后,以车辆ID为唯一识别码,对时段T天内同一ID车辆的行驶时间进行累加,得到时段T天内每辆车的总行驶时间;
[0025] 步骤3.4,基于步骤3.1得到的时段T天内每辆车在特定预警位的预警频次和步骤3.2得到的时段T天内每辆车的总行驶里程,两者相除,得到车辆单位行驶里程的预警频次;
基于步骤3.1得到的时段T天内每辆车在特定预警位的预警频次和步骤3.3得到的时段T天内每辆车的总行驶时间,两者相除,得到车辆单位行驶时间的预警频次;
[0026] 步骤4,车辆安全风险的聚类
[0027] 把车辆单位行驶里程的预警频次和车辆单位行驶时间的预警频次作为聚类对象,进行风险等级的划分;基于AGNES层次聚类算法对二维数据进行聚类;
[0028] 具体为:
[0029] 1)确定输入样本集O={(WFM1,WFT1),(WFM2,WFT2),...,(WFMn,WFTn)}以及聚类数目Z值,其中WFMi和WFTi分别代表是车辆i单位行驶里程的预警频次和单位行驶时间的预警频次,其中i=1,2,…,n,n为样本个数,即车辆或驾驶员的总数量;
[0030] 2)采用自底向上的聚类策略,以样本集O中每个对象Oi作为一个样本簇Φi,计算任意两个样本簇Φc和Φv之间的距离并比较各个距离,其中c≠v,寻找距离最近的两个样本簇Φh、Φc作为新的样本簇的集合,Φh=Φh∪Φc,其中c、v、h为正整数,取值均小于等于n;
[0031] 3)聚类簇距离度量函数
[0032] 其中两个簇之间的邻近度大小,由两个簇共同决定,采用平均距离计算任意两个样本簇之间的聚集度,聚集度用来表示两个样本簇的相似度;
[0033]
[0034] G=(WFMg,WFTg),Q=(WFMq,WFTq)  (6)
[0035]
[0036] 式中:Φh,Φc分别代表某个样本簇,|Φh|、|Φc|分别表示样本簇Φh,Φc中元素的个数,G,Q分别代表样本簇Φh,Φc中的某个样本,WFMg表示车辆g单位行驶里程的预警频次,WFTg表示车辆g单位行驶时间的预警频次,WFMq表示车辆q单位行驶里程的预警频次,WFTq表示车辆q单位行驶时间的预警频次,dist(G,Q)表示G,Q两个样本之间的欧氏距离;
[0037] 4)比较3)中计算得到的每个样本簇之间的平均距离,基于聚类合并原则合并两个距离最近的簇,不断更新合并形成新的簇,重新进行簇划分;
[0038] 5)终止条件判断
[0039] 根据设定的聚类数目Z值,若聚类簇数等于Z值,则无需再进行聚类,聚类终止,得到Z类风险等级;
[0040] 步骤5,判别分析
[0041] 步骤5.1,确定类别变量和判别变量
[0042] 以车辆所处的风险程度进行风险等级划分,按照步骤4的聚类结果来划分,分为1级、2级、…Z级,将车辆单位行驶里程的预警频次和车辆单位行驶时间的预警频次作为判别分析的判别变量,将车辆的风险等级作为判别分析的类别变量;
[0043] 步骤5.2,判别函数的建立,根据样本数据确定类别变量与判别变量之间的数量关系,运用Fisher判别准则,建立Fisher判别函数;
[0044] 步骤6,风险识别
[0045] 根据建立的Fisher判别函数,对新样本进行分类判别
[0046] 1)计算Y空间中样本点所属类别的中心;(2)对于新样本,计算其Fisher判别函数值Y0,构建Y0与各个类别中心的距离函数W(Y0),并计算Y0与各个类别中心的距离;(3)利用距离判别法,判定其所属类别。
[0047] 在上述方案的基础上,步骤2.2中里程的过小值以日行驶里程累计分布来确定,按照不足总体样本的2%来确定;里程的过大值判断方法依据统计学基本知识3σ原则来确定。
[0048] 在上述方案的基础上,步骤3.2中,时段T天内每辆车的总行驶里程计算公式如下所示:
[0049]
[0050] 其中,Mi是车辆i在时段T天内的总行驶里程;mij是车辆i在第j天的当日行驶里程,i=1,2…n;j=1,2…T。
[0051] 在上述方案的基础上,步骤3.3中,车辆出行的总时间:是车载仪器从记录开始至结束的持续时间,车辆当日记录起点开始时刻和停止记录结束时刻的时间差就是车辆出行的总时间;停车时间:里程连续不变的位置就是车辆静止的位置,寻找里程记录连续不变点,统计连续不变点持续时间,得到车辆的停止时间。
[0052] 在上述方案的基础上,步骤5.2中,Fisher判别函数为:
[0053] y=b1x1+b2x2+…+bpxp  (8)
[0054] 式中,bα为判别系数,α=1,2,…,p,y是样本在低维Y空间中的某个维度。
[0055] 在上述方案的基础上,步骤6中,所述距离函数W(Y0)如下所示:
[0056]
[0057] 式中, 分别表示Y空间中第e、f类样本的中心点, 表示Y空间中第e类和f类所有样本的中心点, ∑-1表示第e、f类协方差矩阵的逆矩阵;其中e=1,2,…,Z,f=1,2,…,Z,e≠f;
[0058] 当W(Y0)>0时,新样本点属于第e类。附图说明
[0059] 本发明有如下附图:
[0060] 图1为本发明的流程图
[0061] 图2为数据异常值筛选流程图;
[0062] 图3为车辆风险的聚类结果图;
[0063] 图4为判别函数中样本点空间分布图。

具体实施方式

[0064] 以下结合附图1-4对本发明作进一步详细说明。
[0065] 步骤1,数据的获取。
[0066] 通过北斗定位系统的车联网车载终端获取车辆ID、更新上传时间、车辆安全预警情况、行驶里程记录。
[0067] 步骤2,数据的预处理
[0068] 步骤2.1遍历所有数据文件,对不符合要求的出行记录进行删除,删除缺少属性值的文本文件,保证属性的完整性,删除车载终端重复上传的记录;
[0069] 步骤2.2遍历所有数据文件,计算车辆当日行驶里程、当日各个预警位累计预警频次、当日起讫点时间差。根据所有车辆的行驶里程累计分布图,确定车辆行驶里程的过大值以及过小值点;剔除当日行驶里程过大或者过小的记录(数值过小点按照当日行驶里程频数不足总体样本的2%来确定,而数值过大点根据统计学基本知识运用3σ原则来定义),另外,剔除当日起讫点时间差值小于0的出行记录;
[0070] 步骤3,货车出行关键变量的提取
[0071] 步骤3.1,统计时段T内每辆车的预警频次。以车辆每天的出行日志为单位,预警频次的统计根据预警类型(超速预警、疲劳驾驶预警、碰撞预警等)进行分别统计,获得车辆每天的各个预警位预警频次,根据需求对选定预警位进行累加计算当天在选定预警位的预警总频次。假设车联网数据针对每辆车一天中记录了S条长度为L的预警信息,其中L为预警的总位数,即车载设备可预警种类的总数量,则预警信息可表述为:
[0072]
[0073] 其中, s=1,2,…,S,l=1,2,…,L,
[0074] 若统计一辆车一天内在第l预警位的预警频次al,则有: 即为车辆当天出行记录下第l位的预警频次。再对选定的几个特定预警位的预警频次进行累加,得到每辆车当天在选定预警位的预警总频次。假如选定的是前三位预警位,则车辆一天内在选定预警位的预警总频次为 最后,再对相同ID车辆时段T天内每天(在选定预警位的)预警频次进行累加,得到T天内该车辆(在选定预警位的)预警总频次。
[0075] 步骤3.2,统计时段T内每辆车的总行驶里程。行驶里程的变化是记录车辆仪表盘的里程变化,反映车辆的行驶距离。具体的说,按车辆ID号为唯一识别码将相同的车辆ID的当日行驶里程进行累加,最终获得时段T内每个车辆的总行驶里程;其中当日行驶里程可由车辆的“里程”属性字段计算得到,即基于当日的行驶里程记录起点和里程记录终点的里程数的差值。
[0076] 步骤3.3,统计时段T天内每辆车的总行驶时间。车辆行驶时间不包含车辆因等待或者延误所损失的时间。车辆行驶时间提取的原理是:先计算车辆出行的总时间,然后计算停车时间,二者的时间差即为车辆的行驶时间。1)车辆出行的总时间:车辆出行的总时间是车载仪器从记录开始至结束的持续时间,车辆当日记录起点开始时刻和停止记录结束时刻的时间差就是车辆出行的总时间;2)停车时间:里程连续不变的位置就是车辆静止的位置,寻找里程记录连续不变点,统计连续不变点持续时间,得到车辆的停止时间;3)车辆当日行驶时间:将得到的总出行时间减去停车时间就得到车辆当日行驶时间;4)车辆T天内的总行驶时间:与车辆总里程统计类似,以车辆ID为主键,对相同的ID车辆行驶时间累加就得到车辆的总行驶时间。
[0077] 步骤3.4,单位行驶里程的预警频次和单位行驶时间的预警频次,根据每辆车的总行驶里程、总行驶时间和选定预警位的预警总频次来计算单位行驶里程的预警频次(WFM)和单位行驶时间的预警频次(WFT);
[0078] WFM=TW/TM  (3)
[0079] WFT=TW/TT  (4)
[0080] 其中,WFM(Warning Frequency per Mileage)—单位行驶里程的预警频次,WFT(Warning Frequency per Travel Time)—单位行驶时间的预警频次,TW(Total Warning Frequency)—预警总次数,TM(Total Mileage)—总行驶里程,TT(Total Travel Time)—总行驶时间。
[0081] 步骤4,车辆安全风险的聚类,基于AGNES(AGglomerativeNESting)层次聚类算法对样本车辆划分预警等级。具体有:1)确定输入样本集O={(WFM1,WFT1),(WFM2,WFT 2),...,(WFMn,WFTn)}以及聚类数目Z,其中(WFMi,WFTi)(i=1,2,…,n)分别代表是车辆i单位行驶里程下的预警频次和单位行驶时间下的预警频次。2)采用自底向上的聚类策略,以样本集O中每个对象Oi作为一个样本簇Φi,计算任意两个样本簇Φc和Φv之间的距离(c≠v)比较各个距离,寻找距离最近的两个样本簇Φh、Φc作为新的样本簇的集合,Φh=Φh∪Φc。3)聚类簇距离度量函数。其中两个簇之间的邻近度大小,由两个簇共同决定,本次采用平均距离(又称average-linkage法)计算任意两个样本簇之间的聚集度,用来表示两个样本簇相似度度量方式。
[0082]
[0083] G=(WFMg,WFTg),Q=(WFMq,WFTq)  (6)
[0084]
[0085] 式中:Φh,Φc分别代表某个样本簇,|Φh|、|Φc|分别表示样本簇Φh,Φc中元素的个数,G,Q分别代表样本簇Φh,Φc中的某个样本,dist(G,Q)表示G,Q两个样本之间的欧氏距离;
[0086] 4)比较3)中计算得到的每个样本簇之间的平均距离,基于聚类合并原则合并两个距离最近的簇,不断更新合并形成新的簇,重新进行簇划分。例如簇Φ1和簇Φ2之间的距离是所属不同簇之间距离最小的,则Φ1和Φ2就会被合并形成新的簇。5)终止条件判断。根据设定的聚类数目Z值,若聚类簇数等于Z值,则无需再进行聚类,聚类终止,得到Z类风险等级。
[0087] 步骤5,判别分析
[0088] 步骤5.1,均值检验和协差阵齐性检验,为保证判别分析的效果较为理想,多个类别总体下的各判别变量的均值应存在显著差异,否则给出错误的判别结果的概率会较高,通常,应首先进行总体的均值检验,即判别各类别总体下判别变量的组间差是否显著。
[0089] Fisher判别分析的基本思想是先投影再判别,判别分析中投影是判别分析的关键,按照最大化类间离散度和最小化类内离散度的原则,将高维数据点投影到低维数据点,达到样本最大类间的分离。将p维X空间样本点投影到r(r<=p)维Y空间中。Fisher判别的判别函数的函数形式如下:
[0090] y=b1x1+b2x2+…+bpxp  (8)
[0091] 其中,系数bα称为判别系数,是各个输入变量对判别函数的影响,可由组间离差最大、组内离差最小原则来确定。y是样本在低维Y空间中的某个维度。
[0092] 通过对原数据坐标系统的转化,将高维空间中的样本点转化到低维空间中。通过坐标转换尽可能将将总体的样本点分开,判别时首先计算Y空间中样本点所属类别的中心,对于新样本,计算其Fisher判别函数值Y0,以及Y空间中Y0与各个类别中心的距离,利用距离判别法(氏距离),判别其所属类别,构建Y0与各个类别中心的距离函数W(Y0),[0093]
[0094] 其中, 分别表示Y空间中第e、f类样本的中心点, 表示Y空间中第e类和f类所有样本的中心点, ∑-1表示第e、f类协方差矩阵的逆矩阵。
[0095] 当W(Y0)>0时,新样本点属于第e类。
[0096] 步骤5.2,确定判别因子。按照步骤4的聚类结果,车辆的风险等级分为1级、2级、…Z级,选定预警信息的两个关键变量(车辆单位行驶里程的预警频次和单位行驶时间的预警频次)作为判别因子或判别变量,将车辆的风险等级作为判别分析的类别变量。
[0097] 步骤5.3,判别函数的建立。通过步骤4确定的风险等级,将其作为判别分析的类别变量,车辆单位行驶里程的预警频次和单位行驶时间的预警频次作为判别变量,根据已有的样本数据确定类别变量与判别变量之间的数量关系,运用Fisher判别函数,建立判别准则;
[0098] 步骤5.3上述Fisher判别分析可以通过SPSS软件之中的判别分析进行操作,求出判别函数。
[0099] 步骤5.4,模型结果检验,通过混淆矩阵的频数百分比或各样本点在Fisher判别函数空间中的分布和位置情况来判断模型的解释程度。
[0100] 步骤6,风险识别。通过判别函数实现对新数据未知类别的判定和预测。对于新数据的样本点而言,基于判别函数,实现对新样本(车辆/驾驶员)进行风险识别。
[0101] (1)计算Y空间中样本点所属类别的中心;(2)对于新样本,计算其Fisher判别函数值,以及Y空间中与各个类别中心的距离;(3)利用距离判别,判别其所属类别。
[0102] 本发明可以对某一车辆/驾驶员,给出其单位行驶里程预警频次和单位行驶时间的预警频次,就可基于历史数据给出判别分析的判断函数,实现对其风险的识别或预测。
[0103] 1案例数据介绍
[0104] 本发明所使用的数据来自某企业提供的2017年9月至2017年10月的车联网数据,包含动态数据项:预警标志、行驶里程、更新上传时间,以及静态数据项:车辆ID(终端号)等。首先对原始数据进行数据的预处理和筛选。最终11139条原始记录经过筛选和处理得到10039条有效记录。将不同天数相同ID车辆进行数据的合并,以一个ID作为一个样本,得到
862个车辆样本,对车辆/驾驶员实现风险的评估。最终整理得到的数据样式如下表1所示:
[0105] 各变量的解释定义如下:
[0106] 第1列ID代表车辆的编码,是识别车辆的唯一编码。不同车辆具有不同的车辆ID,一个车辆ID对应同一辆车。
[0107] 第2列WFM代表车辆在单位行驶里程(每10km)下的预警频次。
[0108] 第3列WFT代表车辆在单位行驶时间(每小时)的预警频次。
[0109] 表1整理样本数据的基本格式(部分)
[0110]
[0111] 2基于案例数据进行聚类分析
[0112] 将数据处理为表1所示的格式,基于案例数据中第二列单位行驶里程的预警频次和第三列单位行驶时间的预警频次进行聚类,首先导入我们的数据如表1所示,输入预设的Z值(Z=3),结合公式(5)和公式(6)计算样本点之间距离,根据各个样本点之间的平均距离进行聚类可以得到其聚类的结果。聚类分析得到的部分结果展示如表2所示,前3列数据的含义与表1中的一致,最后一列RL(Risk Level)为车辆的聚类结果,标志着车辆的风险等级。
[0113] 表2样本数据的聚类结果
[0114]
[0115] 图3给出了样本数据的聚类分析结果。如图所示,样本点可以分成三类,WFM和WFT的值越大,表明车辆的预警频次越高,即车辆所处风险等级越大,因此基于WFM和WFT值聚为三类时,它们的风险可分别定义为:1—安全、2—一般、3—危险。图中用圆圈标识的样本点,其WFM和WFT值都很小,因此这一类样本的风险等级最低,为安全状态;菱形代表的是WFM和WFT值都较大的样本点,它们的风险等级最高,为危险状态;三形代表的是风险等级为一般状态的样本点。
[0116] 2基于聚类结果进行判别函数建立
[0117] 通过上一步确定的车辆的风险等级,将其作为判别分析的类别变量,车辆单位行驶里程的预警频次和单位行驶时间的预警频次作为判别变量,根据已有的数据确定类别变量与判别变量之间的数量关系,运用Fisher判别准则,建立判别函数。
[0118] (1)确定判别因子
[0119] 选取预警信息的两个关键变量作为判别因子,即将车辆单位行驶里程的预警频次和单位行驶时间的预警频次作为判别变量。
[0120] (2)建立判别函数
[0121] 建立判别函数实现对风险车辆的识别与判断,依据各个车辆的驾驶风险指标和风险预警等级建立相关判别函数。将车辆的风险等级作为判别分析的类别变量,将车辆单位行驶里程的预警频次和单位行驶时间的预警频次作为判别变量,建立Fisher判别函数分析每辆车辆的风险强度,从而实现了车辆的风险评估。本文依据Fisher判别法建立风险判别函数,实现风险等级判定。
[0122] 1、建立的判别函数
[0123] 表3判别式函数系数
[0124]
[0125] 得到判别函数:
[0126]
[0127] 式中:x1—WFM(单位行驶里程的预警频次);x2—WFT(单位行驶时间的预警频次)。
[0128] 2、计算类别中心位置
[0129] 计算三类样本点的类别中心位置如下:
[0130] 表4类别中心处的函数
[0131]
[0132] 3、判别能的检验
[0133] 为了检验Fisher判别函数的投影能否将各类样本很好的分开,进一步判断哪个判别函数对判别结果的解释程度更重要,需要计算两个特征值、所解释方差的百分比、解释方差的累计百分比。
[0134] 表5计算结果汇总
[0135]
[0136] 可以看出第一判别函数解释方差的能力是100%,而第二判别函数解释方差的能力是0%,所以,可以略去第二判别函数。得到最终的判别函数是:
[0137] y=-1.019-2.619x1+5.426x2  (10)
[0138] 对于新样本点带入Fisher判别函数,然后计算与各个类别中心的距离,利用距离判别,判别其所属类别。
[0139] 若通过数据获取,得到一个新样本(新的车辆或驾驶员出行行为数据,或原样本最近一个月新的出行行为数据),新样本的数据如下:单位行驶里程的预警频次WFM为0.735次/10km,单位行驶时间的预警频次WFT为3.101次/h。
[0140] 以新样本(0.735,3.101)为例,首先带入判别函数式(10)中,计算其值为13.882,即新样本映射到一维空间样本集Y中的值为13.882。然后,由于最终的判别函数是公式(10)的单函数形式,根据表4的函数1可知各类别中心点映射到一维空间Y中的值分别为-0.700,10.893,27.826。计算映射到Y中,新样本点与各个类别中心点的距离,利用公式(8)的距离判别,由于判别函数是单函数形式,距离可直接计算得出,分别为14.582,2.988,-13.946。
可知,映射后新样本点与第二类的中心点最近,最终判定该新样本的风险类别属于第二类,即风险等级为一般。
[0141] (4)结果分析
[0142] 各样本点在Fisher判别函数空间中的分布和位置情况,如图4所示。从样本点在Fisher判别函数空间中的分布和位置来看,各类别的分布较为集中,所以判别效果较为理想。
[0143] 本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈