技术领域
[0001] 本
发明涉及智能交通技术领域,具体而言涉及一种智慧交通黑车识别方法。
背景技术
[0002] 所谓黑车,是指没有在交通运输管理部
门办理任何相关手续、没有领取营运牌证 而以有偿服务实施非法运营的车辆。黑车在空间跨度、与时间跨度上与出租车相似,但是却 没有运营牌照。近年来,随着经济的发展,黑车的数量也在逐年上升,黑车的存在不仅严重 扰乱了正常的运输市场秩序,导致严重的交通事故发生,损害乘客的合法权益,而且由于有 些黑车车主的强揽旅客、敲诈勒索的行为,严重影响出行安全,给社会带来了不稳定的因 素。黑车的治理工作具有车辆难以识别、数量庞大、调查取证困难等特点,且目前尚无一种 有效的方法或系统可实现对其的自动识别,故如何正确识别黑车已成为运管处急需解决的 问题。
发明内容
[0003] 本发明目的在于提供一种黑车识别方法,可快速地识别出黑车。
[0004] 本发明的上述目的通过独立
权利要求的技术特征实现,
从属权利要求以另选或有 利的方式发展
独立权利要求的技术特征。
[0005] 为达成上述目的,本发明提出一种黑车识别方法,包括以下步骤:
[0006] 步骤1、车辆采集点频次计算,以天为计算周期,计算设定范围内RFID采集点的车 辆出入频次特征汇总数据,每个数据项包括进次数、出次数、进最早时间以及出最迟时间;
[0007] 步骤2、空间特征提取,对于设定范围内的复数个RFID采集点,把一定时间跨度的 数据根据车辆ID做分组统计,统计出车辆在每一个RFID采集点的出现次数,记录形成车辆 ID-RFID采集点标识ID以及出现次数的数据项,并进一步汇总统计形成csv格式的数据文 件,记录每辆车在一定时间跨度的出现次数;
[0008] 步骤3、时间特征提取,以天为单位,把一天时间分成48个时间段,半个小时作为一 段,统计出每辆车在每个时间段内,被所有的RFID采集的次数,记录车辆ID-时间段序号-出 现次数-时间的数据项,并累积统计7天的数据,按天平均,求每个时间段出现次数的平均 值;最后
整理成CSV格式的数据文件,记录每一辆车在一天中每个时间段平均出现的次数;
[0009] 步骤4、黑车聚集点
时空特征提取,将黑车聚集点周围的RFID采集点标记出来,分 析这些RFID采集点记录的车辆数据,形成采集点标识ID-车辆ID-时间段序号-出现次数-日 期的数据记录,并累积最近7天的数据,在某个时间段的累积出现次数,最后整理形成 CSV数据文件;
[0010] 步骤5、数据归一化与
降维处理,包括将前述步骤2、步骤3和步骤4所得到的数据进 行归一化处理,使其范围在[-1,1]之间以及采用主成分分析法进行降维,把空间特征数据 减为3个维度,时间特征数据减为2个维度,时空特征数据减为4个纬度;
[0011] 步骤6、采用kmean
算法分别对步骤5得到的三种数据做
聚类分析,得到每辆车的综 合黑车嫌疑指数、判定黑车聚集点附近的可疑车辆。
[0012] 由以上技术方案可知,本发明与
现有技术相比,其显著优点在于:通过对车辆的时 间特征、空间特征以及黑车常见聚集地的时空特征的处理和分析,获得用于判断的参考依 据,并据此结合kmean算法实现对黑车的嫌疑识别,识别率高,
定位准确,以将私家车运用 Uber等
软件接单,长时段运行,或者在火车站、城乡公交站台附近定点等客,行使目的地相 对固定的黑车准确识别,为运管部门提供依据和参考。
[0013] 应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这 样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保 护的主题的所有组合都被视为本公开的发明主题的一部分。
[0014] 结合
附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实 施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面 的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
[0015] 附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组 成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。 现在,将通过例子并参考附图来描述本发明的各个方面的
实施例,其中:
[0016] 图1是根据本发明某些实施例的黑车识别方法的总体流程示意图。
[0017] 图2是根据本发明某些实施例的黑车识别方法的一个具体实施例的流程示意图。
具体实施方式
[0018] 为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
[0019] 在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。 本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实 施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实 施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一 些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
[0020] 结合图1所示,根据本发明的实施例,一种智能交通黑车识别方法,包括:
[0021] 步骤1、车辆采集点频次计算,以天为计算周期,计算设定范围内RFID采集点的车 辆出入频次特征汇总数据,每个数据项包括进次数、出次数、进最早时间以及出最迟时间;
[0022] 步骤2、空间特征提取,对于设定范围内的复数个RFID采集点,把一定时间跨度的 数据根据车辆ID做分组统计,统计出车辆在每一个RFID采集点的出现次数,记录形成车辆 ID-RFID采集点标识ID以及出现次数的数据项,并进一步汇总统计形成csv格式的数据文 件,记录每辆车在一定时间跨度的出现次数;
[0023] 步骤3、时间特征提取,以天为单位,把一天时间分成48个时间段,半个小时作为一 段,统计出每辆车在每个时间段内,被所有的RFID采集的次数,记录车辆ID-时间段序号-出 现次数-时间的数据项,并累积统计7天的数据,按天平均,求每个时间段出现次数的平均 值;最后整理成csv格式的数据文件,记录每一辆车在一天中每个时间段平均出现的次数;
[0024] 步骤4、黑车聚集点时空特征提取,将黑车聚集点周围的RFID采集点标记出来,分 析这些RFID采集点记录的车辆数据,形成采集点标识ID-车辆ID-时间段序号-出现次数-日 期的数据记录,并累积最近7天的数据,决定在某个时间段的累积出现次数,最后整理形成 csv数据文件;
[0025] 步骤5、数据归一化与降维处理,包括将前述步骤2、步骤3和步骤4所得到的数据进 行归一化处理,使其范围在[-1,1]之间以及采用主成分分析法进行降维,把空间特征数据 减为3个维度,时间特征数据减为2个维度,时空特征数据减为4个纬度;
[0026] 步骤6、采用kmean算法分别对步骤5得到的三种数据做聚类分析,得到每辆车的综 合黑车嫌疑指数、判定黑车聚集点附近的可疑车辆。
[0027] 结合图2所示,下面的内容将结合一些具体的城市作为示例,对前述方法的示例性 实现进行更加具体的描述。
[0028] 在每个RFID采集点所采集的数据中,包括以下信息:采集点编号、车辆标识ID、采 集时间、方向以及车道号。
[0029] 步骤1、车辆采集点频次计算,以天为计算周期,计算设定范围内RFID采集点的车 辆出入频次特征汇总数据,每个数据项包括进次数、出次数、进最早时间以及出最迟时间。
[0030] 1、计算周期要求:
[0031] 2、计算数据项要求:
[0032] 3、数据存储表
[0033]
[0034]
[0035] 步骤2、空间特征提取,对于设定范围内的复数个RFID采集点,把一定时间跨度的 数据根据车辆ID做分组统计,统计出车辆在每一个RFID采集点的出现次数,记录形成车辆 ID-RFID采集点标识ID以及出现次数的数据项,并进一步汇总统计形成csv格式的数据文 件,记录每辆车在一定时间跨度的出现次数。
[0036] 以一个城市作为范围,假定全城约有400个RFID采集点,把一定时间跨度的数据根 据车辆ID做分组统计,统计出车辆在每一个RFID采集点的出现次数。时间跨度初设为一周, 根据实验结果,跨度大小可调。
[0037] 数据结构:
[0038] 数据结构2:
[0039] 进一步整理成csv格式的数据文件,记录每辆车在一定时间跨度的出现次数[0040] 步骤3、时间特征提取,以天为单位,把一天时间分成48个时间段,半个小时作为一 段,统计出每辆车在每个时间段内,被所有的RFID采集的次数,记录车辆ID-时间段序号-出 现次数-时间的数据项,并累积统计7天的数据,按天平均,求每个时间段出现次数的平均 值;最后整理成csv格式的数据文件,记录每一辆车在一天中每个时间段平均出现的次数。
[0041] 把一天时间分成48段,并半个小时一段。统计出每辆车在每个时间段内,被所有的 RFID采集的次数。
[0042] 数据结构:
[0043] 累积统计7天的数据,按天平均,求每个时间段出现次数的平均值。
[0044] 数据输出:进一步整理成CSV格式的数据文件,记录每一辆车在一天中每个时间段 平均出现的次数。
[0045] 步骤4、黑车聚集点时空特征提取,将黑车聚集点周围的RFID采集点标记出来,分 析这些RFID采集点记录的车辆数据,形成采集点标识ID-车辆ID-时间段序号-出现次数-日 期的数据记录,并累积最近7天的数据,在某个时间段的累积出现次数,最后整理形成 csv数据文件。
[0046] 黑车聚集点周围的RFID标记出来。重点分析这些RFID记录的车辆数据。
[0047] 数据结构:
[0048]
[0049] 累积最近7天的数据,在某个时间段的累积出现次数
[0050]
[0051] 整理成如下的CSV格式:
[0052]
[0053]
[0054] 步骤5、数据归一化与降维处理,包括将前述步骤2、步骤3和步骤4所得到的数据进 行归一化处理,使其范围在[-1,1]之间以及采用主成分分析法进行降维,把空间特征数据 减为3个维度,时间特征数据减为2个维度,时空特征数据减为4个纬度。
[0055] 以上步骤2、3、4所得到的三种数据,维度都比较高。空间特征数据维度400,时间特 征数据维度48,时空特征数据维度为50。
[0056] 1)数据归一化
[0057] 为
数据处理方便,把每一维数据做归一化处理,使其范围在(-1,1)之间。
[0058] 归一化公式:y=(x-MinValue)/(MaxValue-MinValue)
[0059] 说明:x为某辆车在某一维的样本值、y为归一化后的输出,MaxValue、MinValue分 别为样本的最大值和最小值。
[0060] 降维
[0061] 2)降维采用PCA(主成分分析法)。把空间特征数据减为3个维度,时间特征数据减 为2个维度,时空特征数据减为4个纬度。
[0062] -空间特征的降维
[0063] 把空间特征整体数据集做为输入,通过主元分析,输出一个同样大小的数据集。输 出集也是400维特征。每一维特征的重要程度不同。从第1维开始,往后逐步递减。排在前面 的维度能表达更多的空间特征。这里,对每一行的数据保留前3维,用以替代前面400维数 据。以达到降维的效果。
[0064] -时间特征的降维
[0065] 时间特征的降维方式与空间特征类同。对数据集做主元分析,保留前2维的结果。
[0066] -时空特征的降维
[0067] 时空特征的50维中,包含48维的时间特征+2维的地理
位置特征。2维的地理位置特 征表示采集点的经度、纬度。降维部分把时间特征从48维降到2维。总共4维。
[0068] 步骤6、采用kmean算法分别对步骤5得到的三种数据做聚类分析,得到每辆车的综 合黑车嫌疑指数、判定黑车聚集点附近的可疑车辆。
[0069] 在本步骤中,我们采用kmean分别对以上三种数据做聚类分析。
[0070] 6-1、对时间特征和空间特征的处理
[0071] (1)kmean聚类:
[0072] 过滤出出租车部分的数据,用kmeans算法做聚类。
[0073] kmeans算法接受参数c;然后将事先输入的n个数据对象划分为c个聚类以便使得 所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类 相似度是利用各聚类中对象的均值所获得一个“中心对象”(引
力中心)来进行计算的。
[0074] 算法步骤描述如下:
[0075] (1)适当选择c个类的初始中心;
[0076] (2)在第k次
迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离 最短的中心所在的类;
[0077] (3)利用均值等方法更新该类的中心值;
[0078] (4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭 代结束,否则继续迭代。
[0079] 算法参数设定:
[0080] 设100个中心点,把数据分为100个类。每个类所占的空间范围又称为胞腔。每个类 的中心点叫做质心。
[0081] 用欧氏距离作为距离计算公式。
[0082] (2)计算车辆的非法运营嫌疑指数:离质心越近,嫌疑度越高。
[0083] 将所有非营运车辆的空间特征、时间特征投影到出租车聚类空间中,并计算出所 有非营运车辆到其对应质心的距离。得到的距离即为该车辆的非法运营嫌疑指数。数值越 小,表示其行为越接近运营车辆,嫌疑度越高。
[0084] (3)合并结果。
[0085] 用以上的方式分别对空间特征和时间特征做处理,每辆车得到一个嫌疑指数,然 后将两个结果平均,得到一个综合的嫌疑指数。
[0086] 6-2、对黑车聚集点时空特征的聚类
[0087] 考虑到黑车聚集点部分的数据,出租车和黑车的行为特征不太一样。黑车一般在 火车站,城郊公交站附近采用蹲点等客的方式。有时,黑车也会在不同的黑车点出现。
[0088] (1)过滤其中非营远车辆的数据,根据采集点做分组,统计每组数据中,出现
频率 最高的车,取出前1%的车辆设为高可疑车辆。
[0089] (2)过滤中非营运车辆的数据,做kmean聚类分析,设质心数为100。
[0090] (3)绘制二维投影图,观察这些高可疑车辆在投影空间中的位置,及胞腔的特性。 再进一步判断把哪些车辆设为中可疑车辆,及低可疑车辆。
[0091] 虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技 术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因 此,本发明的保护范围当视权利要求书所界定者为准。