首页 / 专利库 / 视听技术与设备 / 均值漂移过程 / 融合时空聚类和支持向量机的居民出行特征提取方法

融合时空聚类和支持向量机的居民出行特征提取方法

阅读:117发布:2020-05-14

专利汇可以提供融合时空聚类和支持向量机的居民出行特征提取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种融合 时空 聚类和 支持向量机 的居民出行特征提取方法,包括如下步骤:步骤一、出行过程手机 传感器 数据采集 与问卷调查填写;步骤二、查核线数据采集;步骤三、对出行过程手机 传感器数据 进行预处理,获取个体一日完整出行传感器数据;步骤四、出行特征识别:(1)利用时空聚类 算法 识别出行端点与出行时间;(2)利用支持向量机算法识别每次出行的出行方式;(3)利用查核线数据对识别结果进行验证。与 现有技术 相比,本发明的积极效果是:本发明方法具有识别 精度 高、动态性强、样本量大、调查 费用 较低等优势,通过循环识别即可获取该区域全部出行特征,为四阶段法预测提供良好的 基础 数据,为城市 交通规划 建设的发展提供有 力 保障。,下面是融合时空聚类和支持向量机的居民出行特征提取方法专利的具体信息内容。

1.一种融合时空聚类和支持向量机的居民出行特征提取方法,其特征在于:包括如下步骤:
步骤一、出行过程手机传感器数据采集与问卷调查填写;
步骤二、查核线数据采集;
步骤三、对出行过程手机传感器数据进行预处理,获取个体一日完整出行传感器数据;
步骤四、出行特征识别:
(1)利用时空聚类算法识别出行端点与出行时间;
(2)利用支持向量机算法识别每次出行的出行方式;
(3)利用查核线数据对识别结果进行验证。
2.根据权利要求1所述的融合时空聚类和支持向量机的居民出行特征提取方法,其特征在于:步骤三所述对出行过程手机传感器数据进行预处理的方法为:将采集的传感器数据按个体分类,按时间排序,删除重复数据、缺失数据、信号漂移数据,然后利用线性插值对信号缺失数据进行补充,利用高斯滤波与均值滤波对速度数据进行平滑。
3.根据权利要求2所述的融合时空聚类和支持向量机的居民出行特征提取方法,其特征在于:利用线性插值对信号缺失数据进行补充的方法为:
(1)补充经纬度:设置相应时空阈值,对缺失段按采样频率1s/点进行补充,同时补充序号、手机识别号、采集时间;
(2)补充速度:顺序计算轨迹点间距离及时间差,求得各点速度。
4.根据权利要求3所述的融合时空聚类和支持向量机的居民出行特征提取方法,其特征在于:利用高斯滤波与均值滤波对速度数据进行平滑的方法为:利用高斯滤波以5s为参数进行过滤,然后在SVM初始参数下,利用不同时间长度的均值滤波处理速度与加速度,通过交叉验证选择最优均值滤波参数,再用最优均值滤波参数替代初始参数,反复迭代直到均值滤波参数不再改变。
5.根据权利要求1所述的融合时空聚类和支持向量机的居民出行特征提取方法,其特征在于:利用时空聚类算法识别出行端点与出行时间的方法为:
(1)对时空聚类算法的三个参数聚类空间半径Eps、聚类时间距离ΔT及聚类个数阈值MinPts进行标定:
当某轨迹点空间半径Eps及时间距离ΔT内样本点数大于MinPts时,将该点视为核心点,再找寻与其密度相连的点进行聚类;通过计算不同停留时间累积分布,找寻95%出行的停留时间作为聚类时间距离ΔT;将所有的点间距排序,得到间距突变点的间距作为聚类空间半径Eps;根据GPS采集间隔,聚类个数阈值MinPts等于聚类时间距离ΔT;
(2)对出行端点及出行时间进行识别:
通过时空聚类算法识别时空间内的聚集轨迹点簇,并将聚集簇的第一个时间数据作为上一次出行的终点时间,聚集簇的最末时间数据作为下一次出行的开始时间;然后根据簇的平均经纬度将识别端点匹配到对应交通小区,完成出行端点及出行时间识别。
6.根据权利要求5所述的融合时空聚类和支持向量机的居民出行特征提取方法,其特征在于:利用支持向量机算法识别出行方式的方法为:在出行端点与出行时间识别后,每两次聚类的中间数据即个体一次出行,首先根据部分问卷调查结果,量化不同出行方式,利用交叉验证、遗传算法训练并标定相关参数,然后对每一次出行的数据进行识别,将所有轨迹点识别结果的众数作为该次出行的主要出行方式。

说明书全文

融合时空聚类和支持向量机的居民出行特征提取方法

技术领域

[0001] 本发明属于交通大数据传感器数据信息识别领域,尤其是针对城市居民出行端点与出行方式的识别。

背景技术

[0002] 交通规划是城市交通建设的基础,是指在城市总体规划的基础上利用科学的方法预测城市未来交通供需要求,并利用现有资源合理地组织建设工作。随着城镇化的迅速发展,城市功能愈加复杂,科学合理的交通规划有助于减小城市交通发展过程中的险,为城市交通建设提供依据。
[0003] 在常规的交通预测中,“四阶段预测法”是目前使用最为普遍,最为经典的方法,通过划分交通小区,将调查区域内所有人的出行按小区进行集计分析,但该方法要求庞大的居民个人基本信息及出行情况,需实施大规模综合出行调查。而随着人们生活平不断提高,出行次数逐渐增多,出行地点、出行方式等趋于多样化,传统调查方式例如问卷调查、家访调查、电话询问、明信片调查等长期存在信息遗漏、偏差甚至错误的情况,难以满足四阶段法应用所需样本精度要求,从源头限制交通规划的发展。随着调查总量的增加,还存在样本容量不足,调查经费高,数据更新时间过长等问题,而其他一些方法则在识别精度上普遍偏低,且无论哪种方法,大部分中小城市均难以负担。
[0004] 融合时空聚类和支持向量机的居民出行特征提取方法则解决了上述问题。智能手机的出现和普及以及网络技术的迅猛发展,智能手机根据内置传感器类型,能够有效采集自身运动状态,包括经时间、纬度、海拔、速度、三轴加速度、三轴陀螺仪、交互基站信息等,由于现代社会,人们在出行过程中难以离开手机,可将手机运动状态视为其携带者运动状态,因此个体出行中所有运动状态都以1s/次的频率被记录,为判断个体一日出行特征提供数据基础。
[0005] 因此本发明利用多日不同出行状态下的居民实际出行数据,对居民日常生活中出行端点、出行时间、出行方式等出行特征,利用时空聚类算法ST-DBSCAN与支持向量机算法SVM进行提取;同时基于线性插值、高斯滤波、均值滤波实现传感器数据预处理,利用交叉验证、遗传算法寻找最优参数,从而实现从海量GPS、加速度计等传感器数据中提取个体每条出行的出行特征信息,为把握城市居民出行特征,预测城市未来出行状态可靠性提供保障,为城市未来交通发展建设提供重要依据。

发明内容

[0006] 为了克服现有技术的上述缺点,本发明提出了一种融合时空聚类和支持向量机的居民出行特征提取方法,旨在解决真实环境下利用手机GPS、加速度计等传感器数据直接获取出行特征的问题,尤其是在真实出行环境多次驻足、加速等情况下的出行特征识别。本发明运用海量手机传感器数据,完成数据预处理和基础数据提取后,构造个体单日完整出行数据;利用交叉验证、遗传算法寻找最优参数,利用时空聚类算法ST-DBSCAN、支持向量机算法SVM识别个体单日全部出行特征信息,该方法可结合问卷调查数据与查核线数据校核识别结果。其中,特别分析了出行方式识别的数据预处理方法。
[0007] 本发明解决其技术问题所采用的技术方案是:一种融合时空聚类和支持向量机的居民出行特征提取方法,包括如下步骤:
[0008] 步骤一、出行过程手机传感器数据采集与问卷调查填写;
[0009] 步骤二、查核线数据采集;
[0010] 步骤三、对出行过程手机传感器数据进行预处理,获取个体一日完整出行传感器数据;
[0011] 步骤四、出行特征识别:
[0012] (1)利用时空聚类算法识别出行端点与出行时间;
[0013] (2)利用支持向量机算法识别每次出行的出行方式;
[0014] (3)利用查核线数据对识别结果进行验证。
[0015] 与现有技术相比,本发明的积极效果是:
[0016] 本发明针对目前居民出行调查方法中,存在的调查样本量小,调查数据精度难以提升,调查数据动态性差以及调查费用高昂的缺陷,提出了时空聚类和支持向量机的居民出行特征提取方法,利用线性插值、高斯滤波及均值滤波实现数据预处理,结合GPS数据时空聚集特性,利用时空聚类算法ST-DBSCAN实现出行端点识别、出行时间识别,利用支持向量机算法实现出行方式识别。
[0017] 具体包括:
[0018] 一、基于插值与滤波的手机传感器数据预处理
[0019] 由于数据采集频率高,手机传感器数据通常海量繁杂,处理前需对数据进行预处理。完成卫星数量过少数据、重复数据、缺失数据删除后,需按唯一识别号及采样时间对采集数据进行排序,然后根据1s/个的频率补充缺失数据经纬度,并计算相应速度数据。然后先后利用高斯滤波与均值滤波对速度数据进行平滑,去除速度突变特征。
[0020] 二、基于时空聚类算法ST-DBSCAN分析居民出行端点及出行时间
[0021] 根据居民出行过程中GPS轨迹点的聚集特性,利用时空聚类算法ST-DBSCAN对运动状态与停留状态的出行特征进行分析,标定时空聚类中的三个参数:聚类空间半径、聚类时间距离及聚类个数阈值并进行聚类。将每次聚类视为一次停留,每次聚类的起点即上次出行的终点,聚类的终点即下次出行的起点,聚类端点对应的时间即两次出行的出行时间。
[0022] 三、基于支持向量机算法SVM分析居民出行方式
[0023] 在出行端点与出行时间识别后,每两次聚类的中间数据即个体一次出行,首先根据部分问卷调查结果,训练并标定相关参数,然后对每一次出行的数据进行识别,将识别结果的众数作为该次出行的出行方式。
[0024] 本发明的优点在于:基于手机传感器数据方面,仅利用现有手机中常见的传感器数据进行识别,随着智能手机的不断发展,数据频率不断增多,数据精度逐步提高,识别效果将更优;基于时空聚类算法ST-DBSCAN方面,深入考虑个体在运动与停留状态下的轨迹点聚集时空差异,相比其他聚类算法考虑到个体出行的重复特征,可克服交通出行中重复路径、多次短暂停留、同一地点多次停留的识别问题。基于支持向量机算法SVM方面,深入考虑真实出行环境下个体运动并非匀速直线运动,常伴有短时驻足、突然加速等情况,先后利用高斯滤波、均值滤波对速度数据进行平滑,再利用交叉验证、遗传算法寻找最优参数,同时考虑传感器速度、加速度等特征数据与对应出行方式存在明显非线性对应关系,常用二分类方法无法直接进行识别。同时相比现有调查手段,该调查方法具有识别精度高、动态性强、样本量大、调查费用较低等优势,通过循环识别即可获取该区域全部出行特征,为四阶段法预测提供良好的基础数据,为城市交通规划建设的发展提供有保障。附图说明
[0025] 本发明将通过例子并参照附图的方式说明,其中:
[0026] 图1为高斯滤波过滤前后速度折线图;
[0027] 图2为均值滤波寻找最优步长过程;
[0028] 图3为ST-DBSCAN时间参数找寻过程;
[0029] 图4为ST-DBSCAN空间参数找寻过程;
[0030] 图5为SVM交叉验证找寻参数过程;
[0031] 图6为SVM遗传算法找寻参数过程;

具体实施方式

[0032] 首先对本发明涉及到的手机传感器数据的各个字段进行解析:手机传感器所产生的手机信令数据主要包括手机识别号、采集时间、采集经纬度、采集海拔、瞬时速度、卫星数量、三轴加速度、三轴陀螺仪、手机交互基站信息,手机传感器主要字段的具体含义如下。
[0033] (1)手机识别号
[0034] 区分不同手机的采集数据,通常为采集APP中所注册的号码,数据格式由采集APP确定。
[0035] (2)采集时间
[0036] 记录手机传感器数据的采集时间,通常为年/月/日,时/分/秒的24小时标准时间格式。
[0037] (3)采集经纬度
[0038] 手机GPS传感器数据的主要采集数据,其中经纬度均保留小数点后6位有效数字,常用坐标系为百度坐标系BD-09。
[0039] (4)采集海拔
[0040] 手机GPS传感器数据的主要采集数据,记录手机所在海拔数据,通常保留小数点后两位。
[0041] (5)瞬时速度
[0042] 记录手机运动过程中的瞬时速度,通常保留小数点后6位有效数字。
[0043] (6)卫星数量
[0044] 采集数据质量的主要标准,理论上卫星数越多,数据精度越高,实际中需保证卫星数量不少于4个,数据格式通常为整数。
[0045] (7)三轴加速度
[0046] 手机加速度计传感器数据的主要采集数据,包括xyz三轴加速度,通常保留小数点后6位有效数字。
[0047] (8)三轴陀螺仪
[0048] 手机陀螺仪传感器数据的主要采集数据,包括xyz三轴速度,通常保留6位有效数字,部分老式手机不含有此传感器。
[0049] (9)手机交互基站信息
[0050] 记录在数据采集时刻与手机进行交互的周围基站信息,通常包括MCC,MNC,LAC,CID等数据,数据格式与手机卡运用商相关,通常为整数。原始数据主要字段表如下。
[0051] 表1手机传感器原始数据表
[0052]
[0053] 以下以某区部分居民两周全日传感器数据、出行调查问卷数据和一日查核线数据为基础,在数据剔除、线性补点、均值过滤、高斯过滤等预处理上,利用交叉验证、遗传算法寻找最优参数,利用时空聚类算法ST-DBSCAN对该地区个体出行端点、出行时间进行识别,利用支持向量机SVM对个体出行方式进行识别。所述方法中主要包含以下步骤:
[0054] 步骤一:传感器数据与出行调查问卷数据采集
[0055] 通过对交通小区进行划分,抽选研究区域内部不同小区居住,不同小区工作的志愿者作为调查对象,通过志愿者安装现有数据采集APP,在出行开始前在手机端打开APP,在一日出行结束后上传至后台服务器完成传感器数据采集。同时在每日出行结束后,统一要求志愿者填写出行调查问卷。传感器数据及出行调查问卷数据采集直到数据采集周期结束。所述问卷调查数据主要包括:1)被调查者基础信息数据,2)被调查者每日出行数据,包括:出行次数,每次出行的出行时间、到达时间、出行地点、到达地点、出行目的、出行方式、换乘方式、换乘地点等。
[0056] 步骤二:查核线数据采集:在研究区域自然阻隔地带,在唯一通过路径记录24h经过的不同类型车辆数及行人数量。
[0057] 查核线数据用于从总量上校核传感器识别结果准确性,本发明选择调查区域内天然河道为查核线,并以仅能通过河道的5座桥为核查点,采集某工作日不同交通方式出行数据。
[0058] 步骤三:数据预处理
[0059] 3.1数据剔除
[0060] 数据剔除除考虑传感器采集本身特性外,还需考虑研究区域交通状态与特征,保证数据剔除的合理性,因此对以下数据进行剔除:
[0061] (1)建筑物遮挡将导致卫星信号不稳定,接收卫星数小于4,部分轨迹点经纬度及速度可能发生偏移,因此剔除卫星数小于4的数据。
[0062] (2)手机运行问题容易导致速度突变、数据重复与缺失,因此剔除连续速度差>20km·h-1的数据、两条完全相同的数据以及字段缺失的数据。
[0063] (3)研究区域内最高限速为20km/h,出行方式以步行、自行车为主,此外手机运行故障时存在部分数据重复与缺失,同时极少部分速度数据小于0,因此剔除速度<0km·h-1或>25km·h-1的数据。
[0064] 3.2数据补充
[0065] 剔除数据、在建筑物中穿行或短时间进入室内可能造成数据缺失,而外界干扰和系统影响将导致速度采集失败,补充经纬度和速度能够保证数据完整性。数据补充包括经纬度补充与速度补充。
[0066] (1)经纬度:设置相应时空阈值,对缺失段按采样频率1s/点进行补充以保障识别的准确性,同时补充序号、手机识别号、采集时间。
[0067] (2)速度:顺序计算轨迹点间距离及时间差,求得各点速度。
[0068] 3.3数据过滤
[0069] 真实出行环境中,个体出行行为通常复杂多变,短时驻足、避让他人、奔跑跳跃等行为常导致个体发生短时停留、突然变速等情况,直接应用该类数据容易造成识别错误。根据运动连续性,某时刻速度值与相邻时间的速度存在一定关联,且间隔时间越短关联性越强,据此利用高斯滤波以5s为参数进行过滤,过滤前后速度折线图如图1所示,然后在SVM初始参数下,利用不同时间长度的均值滤波处理速度与加速度,通过交叉验证选择最优均值滤波参数,再用最优参数替代初始参数,反复迭代直到均值滤波参数不再改变,图2为均值滤波参数选择过程。
[0070] 步骤四:出行特征识别
[0071] 4.1算法参数标定
[0072] (1)时空聚类算法ST-DBSCAN参数标定
[0073] ST-DBSCAN参数包括核心点空间半径Eps、时间距离ΔT及聚类个数阈值MinPts。当某轨迹点空间半径Eps及时间距离ΔT内样本点数大于MinPts时,将该点视为核心点,再找寻与其密度相连的点进行聚类。通过计算不同停留时间累积分布,找寻95%出行停留时间为参数ΔT,找寻过程如图3所示。所有的点间距排序可发现停留和运动状态下点间距存在明显差异,间距突变点间距为Eps,找寻过程如图4所示。根据GPS采集间隔,聚类最小样本点数MinPts应与时间参数ΔT相同,以此可标定三个参数。
[0074] (2)支持向量机SVM参数标定
[0075] SVM参数包括核参数g与惩罚系数c,通过组合验证与遗传算法可找寻最优参数,其中核参数g根据输入特征数量设为0.25,惩罚系数c为默认值1。先通过计算大尺度组合参数下交叉验证精度粗略确定参数取值,再利用遗传算法小范围求解最优参数。交叉验证寻优过程如图5所示,遗传算法寻优如图6所示。
[0076] 4.2时空聚类算法ST-DBSCAN识别出行端点及出行时间
[0077] 通过时空聚类算法可以识别时空间内的聚集轨迹点簇,并将聚集簇的第一个时间数据作为上一次出行的终点时间,聚集簇的最末时间数据作为下一次出行的开始时间。然后根据簇的平均经纬度将识别端点匹配到对应交通小区,完成出行端点及出行时间识别。
[0078] 4.3支持向量机SVM识别出行方式
[0079] 在出行端点与出行时间识别后,每两次聚类的中间数据即个体一次出行,首先根据部分问卷调查结果,量化不同出行方式,利用交叉验证、遗传算法训练并标定相关参数,然后对每一次出行的数据进行识别,将所有轨迹点识别结果的众数作为该次出行的主要出行方式。
[0080] 4.4识别结果验证
[0081] 全部采集数据完整实现出行端点、出行时间、出行方式三类出行特征识别后,将识别结果进行统计扩样,当经过设定查核线的统计扩样识别结果与查核线调查结果相似度达到75%及以上时,表示本次识别成功,否则应重新调整参数进行识别。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈