首页 / 专利库 / 城市规划 / 交通规划 / 一种基于信号处理的道路交通流数据集成方法与装置

一种基于信号处理的道路交通流数据集成方法与装置

阅读:281发布:2021-11-20

专利汇可以提供一种基于信号处理的道路交通流数据集成方法与装置专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于 信号 处理的道路交通流数据集成方法与装置。由于海量交通流数据在传输过程中通过了信号探测、传输、调制和解调等过程才到达交管中心,因此数据中不可避免地包含信号噪音。将 信号处理 理论中的小波技术等方法运用于交通流数据集成不但可以消除原始 数据采集 和传输过程带来的噪音,提高数据的准确度,而且可以分析数据中某一特定 频率 成份的性质。所发明的方法能够迅速处理海量数据,大幅提高集成效率,其运算效率远远高于传统的数理统计集成方法。根据数据序列的特性和 交通规划 者的需求,基于信号处理的道路交通流数据集成方法不但可以节约运算时间,而且能够提高数据集成的效率和准确性,更能够满足现有的和将来不断出现的交通需求。,下面是一种基于信号处理的道路交通流数据集成方法与装置专利的具体信息内容。

1.一种基于信号处理的道路交通流数据集成方法,其特征在于:包括 下面的步骤;
比较具有相同特性(如均为周二早高峰数据)的交通流数据在不同集 成度下信息之间的相似性,计算交通流数据的左侧集成度界限;
分析数据集成对数据信息损失所造成的影响,计算交通流数据的右侧 集成度界限;
最佳集成度介于左右侧集成度界限之间。
2.根据权利要求1所述的一种基于信号处理的道路交通流数据集成方 法,其特征在于其中所述左侧集成度界限确定方法,引入相异性指标来确 定集成度左边界,利用小波变换将多组原始交通流数据序列分解成为多个 分解尺度下的频率成份,比较具有共同特性的数据序列的相似性,对不同尺 度下的信号成份采用快速傅里叶变换进行谱分析和处理。
3.根据权利要求2所述的一种基于信号处理的道路交通流数据集成方 法,其特征在于,采用数学公式确定比较准则,计算每一个分解尺度的相 异性指标,根据相异性指标进行回归包括多项式回归和指数回归,确定最 佳回归函数;设定严格的参数α获取最佳小波分解尺度,通过选定回归函 数的相应截取值参数,判定予以保留的成分,根据香农采样定理,转换分 解尺度到对应的采样频率,并根据采样频率获取最佳集成度,确定最佳集 成度的左侧边界。
4.根据权利要求1所述的一种基于信号处理的道路交通流数据集成方 法,其中所述右侧集成度界限确定方法的特征在于,引入信息损失指标, 比较具有共同特性的数据序列的信息损失来确定集成度右边界,直接集成 原始数据,对数据在多种可能的集成度下进行集成,选择特定的小波尺度, 分别对这个尺度下的集成前后的数据进行连续小波分解,提取其中的近似 成分。
5.根据权利要求4所述的一种基于信号处理的道路交通流数据集成方 法,其特征在于,采用快速傅里叶变换对权利要求4中的近似成份进行谱 分析和处理,计算小波分解系数的功率谱
6.根据权利要求4所述的一种基于信号处理的道路交通流数据集成方 法,其特征在于,采用数学公式确定比较准则,计算每一个集成度的信息 损失指标,选定回归函数的相应截取值参数β,自动判定可接受的信息损 失程度,确定最佳集成度的右侧边界。
7.根据权利要求1所述的一种基于信号处理的道路交通流数据集成方 法,其特征在于,最佳集成度介于以两个指标相异性指标和信息损失指标 为依据得到的集成度边界之间,如果不存在最佳集成度的范围,改变两个 指标的初始参数重新进行计算。
8.一种基于信号处理的道路交通流数据集成装置,其特征在于:包括 原始数据读入装置、集成度左界限确定装置、集成度右界限确定装置、最 佳集成度判断装置和集成数据输出装置,原始数据读入装置设定读入数据 的参数,指明数据的类型,参数设定完成后,开始读入原始数据,在读入 数据以后,设定计算集成度界限的参数;集成度左界限确定装置和右界限 确定装置计算最佳集成度的左、右侧极限,最佳集成度判断装置自动判别 集成度的范围。
9.根据权利要求8所述的一种基于信号处理的道路交通流数据集成 装置,其特征在于:采用双侧最优化确定最佳集成度,采用集成后的数据 通过计算信息损失指标来评价集成的有效性,能够评价数据集成的效率。
10.根据权利要求8所述的一种基于信号处理的道路交通流数据集成 装置,其特征在于:采用权利要求2中的方法来确定集成度左界限。
11.根据权利要求8所述的一种基于信号处理的道路交通流数据集成 装置,其特征在于:采用权利要求4中的方法来确定集成度右界限。
12.根据权利要求8所述的一种基于信号处理的道路交通流数据集 成装置,其特征在于:自动判别集成度的范围,如果存在最佳集成度范围 就通知用户建议的集成度,如果不存在最佳集成度则通知用户重新设定左 右侧界限的参数,计算新的集成度范围。

说明书全文

技术领域

发明涉及道路交通流数据的处理方法,更具体地,涉及一种基于信号 处理的道路交通流数据集成方法及装置,这种方法可以在去除噪音的同时大 大提高数据集成的效率和准确性。

背景技术

原始道路交通流数据不仅可以直接用于实时交通控制(包括信号配时、 事故预测等),也用来满足交通规划等潜在应用需求。将原始信息进行有效 的数据集成,提取有用信息,实现数据压缩,可以更好地满足不同用户的需 求。例如:将短时间间隔的交通数据转化成为长时间间隔数据,能够满足规 划类用户需求;或者根据多个交通变量对用户重要程度的不同,对交通变量 选择加权平均,得到能够满足用户需求的最佳集成度,去除冗余信息,实现 信息压缩。
实际测量到的交通变量信号随时间变化十分剧烈,这使我们很难看清交 通变量的变化趋势,也无法对它进一步分析。传统的交通流的分析方法分为 三种:(1)数理统计;(2)流体学理论;(3)动力学理论。由于交通变量的 随机性和海量性,这些方法均未能对交通变量做出深入分析,目前对交通数 据的分析仅限于得到交通变量时间观测图、交通变量间的关系图等图像,而 不能提供完善的集成方法来确定不同交通用途所需要的最佳集成度,因此有 必要开发完备的用于道路交通流数据集成的方法和装置。
目前已经广泛应用的统计分析方法是通过对数据资料进行收集、整理、 描述和分析,来从中探索数据内在规律性。其基本思路是直接集成原始数据, 对所有可能集成度下的数据序列进行统计分析检验,根据设定的指标来验证 最佳集成度,据此集成度而得到的集成后数据序列既可以最好地代表原始数 据的信息,又可以在统计误差允许的范围内不丢失原始数据的特性。计算过 程中,集成度的选择范围将充分考虑不同的交通需求。
常用的确定道路交通流数据最佳集成度的数理统计方法主要有两类:互 验方法和F检验方法(B.Gajewski,S.Turner,W.Eisele and C.Spiegelman, Intelligent Transportation Systems Data Archiving:Statistical Techniques for Determining Optimal Aggregation Widths for Inductive Loop Detector Speed Data,Transportation Research Record 1719,TRB,National Research Council, Washington D.C.,2000.)。这两种最优化方法是基于集成数据序列和原始数 据序列的相似性而设计的,直观且容易运用,然而这种方法不能辨别出集成 的数据序列中所保留或舍弃的成份,所确定的数据序列包含无用信息(例如, 错误和噪音),是比较粗略的集成方法。
第一种数理统计领域的交通流数据集成方法为互验法,考虑到计算量问 题,互验方法主要用于确定一天中每小时的最佳集成度,因此,最大集成时 间间隔为3600秒(60分钟),最小的集成时间间隔为60秒(1分钟)。该 方法基本的思想是:从每组样本中取出一个样本值,计算取出样本值后剩余 样本均值与取出样本值之前样本均值差异的平方,然后计算小时内所有差异 平方值的平均值;再改变集成度,计算其它集成度下差异平方值的平均值, 得到最低平均值的对应集成度即为所求。
第二种数理统计领域的交通流数据集成方法为F检验方法,它采用了单 因素方差分析(one-way analysis of variance(ANOVA))的F检验。举例说明这 个方法:继续采用互验法中的数据源,假设问题是考虑按照i(i从1变化 到5)分钟集成的数据之间是否有显著差别,即不同集成度的数据可否认为 来自于相同总体?采用单因素方差分析方法的原假设:不同集成度的数据样 本均值相等;备择假设:这些均值不全相等。采用这种方法计算,如果没有 拒绝原假设,则可以建议选取5分钟或者更大的集成度。采用普通的F检验 方法,当考虑一小时的数据源,如果要比较集成度从1分钟到5分钟这5种 情况时,则需要12次F检验,计算量较大,同时单因素方差分析合并集中 了所有的误差,计算结果准确性有待提高。
数理统计的方法基于数据序列变化率的分析而设计,其运用的过程直观, 且方便使用;然而,它计算得到的集成数据序列包括了许多的无用信息(例 如:错误和噪音),导致无法分辨集成后的序列中包含或者丢弃了哪些信息; 计算得到的结果仅是基于数据自身特性的唯一最佳集成度,没有充分考虑不 同用户对数据的不同需求。与数理统计的方法相比较,基于信号处理的方法 集中于研究实际交通流数据序列的详细分解成份,采用信号处理理论中应用 广泛的小波除噪技术,能够有效地消除数据传输过程带来的噪音和错误;同 时,信号处理方法可以高效地处理海量数据,运算速度快;此外,数据集成 计算的结果是给出一个数据集成度的最佳范围,不同的用户需求可以选择不 同的最佳集成度,因此这种方法比以往的数理统计集成方法有较大的改进, 是道路交通流数据集成方法的一种提升,具有很好的发展前景。

发明内容

因此,本发明的目的在于提供一种基于信号处理的道路交通流数据集成 方法及装置,可以消除数据传输中带来的噪音,消除信号中的无用信息,提 高数据集成的效率和准确性,满足不同用户对数据集成的需求。
本发明解决其技术问题所采用的技术方案是:
本发明的一种基于信号处理的道路交通流数据集成装置由五部分组成: 原始数据读入装置、集成度左界限确定装置、集成度右界限确定装置、最佳 集成度判断装置和集成数据输出装置。这五个部分相互联系,按照数据流的 方向结合在一起按顺序使用。
当准备好需要分析的原始数据后,通过原始数据读入装置设定读入数据 的参数,指明数据的类型,参数设定完成后,开始读入原始数据。在成功地 读入数据以后,设定计算集成度界限的参数,完成参数输入以后,系统开始 计算集成度的左、右界限。通过集成度左界限确定装置和右界限确定装置计 算最佳集成度的左、右侧极限,再由最佳集成度判断装置自动判别集成度的 范围。如果存在最佳集成度范围就通知用户建议的集成度,如果不存在最佳 集成度则通知用户重新设定左右侧界限的参数,计算新的集成度范围。
一种基于信号处理的道路交通流数据集成方法,包括下面的步骤;
比较具有相同特性(如均为周二早高峰数据)的交通流数据在不同集成 度下信息之间的相似性,计算交通流数据的左侧集成度界限;
分析数据集成对数据信息损失所造成的影响,计算交通流数据的右侧集 成度界限;
最佳集成度介于左右侧集成度界限之间。
涉及信号处理理论中的小波变换、快速傅里叶变换、香农采样定理等相 关理论。小波变换可以去除信号中的噪音成份,提取用户需要分析的数据频 率成份;快速傅里叶变换可以将数据从时域转化到频域,更加准确直观地分 析信号;香农采样定理帮助实现了采样频率到集成度的转化。此外,发明中 还涉及了数学中的回归方法,主要采用了指数回归和多项式回归的方法,以 及相异性指标和信息损失指标的确定来辅助更为准确地分析信号。
方法的原则是比较具有相同特性(例如:都是周二早高峰数据)的交通 流数据在不同集成度下信息之间的相似性,以及分析数据集成对数据信息损 失所造成的影响这两个方面,因此方法将分别计算交通流数据的左侧集成度 界限和右侧集成度界限,最佳集成度介于二者之间。
左侧集成度界限通过相异性指标来确定。首先根据小波分解技术,将存 储的数据序列分解成为许多不同分解尺度的频率成份,根据具体的应用目的 去除信号中的无用成份,保留有用成份。然后,比较数据序列间的相似性, 对不同尺度下的信号成份进行谱分析和处理,采用数学公式确定比较准则, 并结合实际需要选定的相异性指标,自动判定应该分别予以保留或者舍弃的 成份。最后,根据著名的香农采样定理,可以确定最佳集成度的左侧边界;
右侧集成度界限通过信息损失指标来确定。为了准确地测量每个集成度 下具体的信息差异的大小,同样采用小波变换将原始和集成数据序列分解到 细节层次,运用最优化的算法比较它们相应成份的信息差异。信息损失指标 用于测量原始数据序列和集成数据序列的信息差异,以其作为参考可以确定 最佳集成度的右侧界限。通过信息损失指标分析的是集成前后的数据,充分 考虑了集成对原始数据带来的影响,客观的评价了集成方法的有效性,也进 一步丰富了数据集成理论。
左侧集成度界限的确定过程如下所述:
1)采用小波分解分析多组原始交通流数据序列。利用小波变换将存储的 数据序列分解成为许多不同分解尺度下的频率成份;
2)比较具有共同特性的存储数据序列(例如,都是周二早高峰数据)的 相似性。根据第一步计算出的信号频率成份,对不同尺度下的信号成份采用 快速傅里叶变换进行谱分析和处理,采用数学公式确定比较准则,计算每一 个分解尺度的相异性指标;
3)根据相异性指标进行回归(主要是采用多项式回归和指数回归),确 定最佳回归函数;
4)结合实际需要选定回归函数的相应截取值参数,自动判定哪些成份应 该保留,哪些成份可以放弃,即设定严格的参数α获取最佳小波分解尺度;
5)根据香农采样定理,转换分解尺度到对应的采样频率
6)根据采样频率获取最佳集成度,确定最佳集成度的左侧边界。
右侧集成度界限的确定过程如下所述:
1)直接集成原始数据,即对数据在不同可能的集成度下进行集成;
2)选择特定的小波尺度,分别对这个尺度下的集成前后的数据进行连续 小波分解,提取其中的近似成分;
3)比较具有共同特性的存储数据序列(例如,都是周二早高峰数据)的 信息损失。采用快速傅里叶变换对第二步的近似成份进行谱分析和处理,计 算小波分解系数的功率谱;采用数学公式(将在说明书中说明)确定比较准 则,计算每一个集成度的信息损失指标;
4)结合实际需要选定回归函数的相应截取值参数,自动判定可接受的信 息损失程度,设定严格的参数β获取最佳集成度;
最佳集成度的确定过程如下所述:
最佳集成度介于以两个指标(相异性指标和信息损失指标)为依据得到的集 成度边界之间,如果不存在最佳集成度的范围,建议改变两个指标的初始参数 重新进行计算。
本发明的有益效果是该装置充分考虑了用户的不同需求,如果用户不仅 需要最佳集成度下的数据,而且需要多个集成度下的数据,集成数据输出装 置也能够提供。数据集成装置一个突出特点是采用双侧最优化确定最佳集成 度,采用集成后的数据通过计算信息损失指标来评价集成的有效性,因此能 够评价数据集成的效率。
由于海量交通流数据在传输过程中通过了信号探测、传输、调制和解调 等过程才到达交管中心,因此数据中不可避免地包含信号噪音。将信号处理 理论中的小波技术等方法运用于交通流数据集成不但可以消除原始数据采 集和传输过程带来的噪音,提高数据的准确度,而且可以分析数据中某一特 定频率成份的性质。本发明的方法能够迅速处理海量数据,大幅提高集成效 率,其运算效率远远高于传统的数理统计集成方法。根据数据序列的特性和 交通规划者的需求,基于信号处理的道路交通流数据集成方法不但可以节约 运算时间,而且能够提高数据集成的效率和准确性,更能够满足现有的和将 来不断出现的交通需求。
附图说明
下面参照附图更详细地描述本发明,附图中:
图1显示交通流数据存储基本过程的图解
图2显示交通流数据信号的消噪过程。
图3显示交通流数据序列小波分解树图解
图4显示离散小波变换傅立叶变换分解
图5显示指数函数衰减为基础的最佳分解层次选择图示
图6显示原始信号和不同采样频率fp下的采样信号比较
图7显示集成前后数据
图8显示小波分解系数
图9显示功率谱系数
图10显示信息损失指标
图11显示基于双侧最优化的最佳分解尺度
图12(a)数据集成装置及数据流程图
图12(b)数据集成装置及流程图
图12(c)集成度左界限确定装置及流程图
图12(d)集成度右界限确定装置及流程图
图13显示不同集成方法对速度数据最佳集成度的影响
表1显示不同集成方法速度数据最佳集成度

具体实施方式

下文将给出实施例来说明发明的具体实施方式:
依据本发明方法的一种基于信号处理的道路交通流数据集成装置,其结 构或流程见图12(a),原始数据输入数据集成装置,数据集成装置接收用户 终端的信息和用户需求信息并输出最佳集成数据和集成度。
将图12(a)中数据集成装置展开可以得到图12(b)数据集成装置详图。这 个框架中数据集成装置主要由五部分组成:原始数据读入装置、集成度左界 限确定装置、集成度右界限确定装置、最佳集成度判断装置和集成数据输出 装置。原始数据读入原始数据读入装置,原始数据读入装置设定数据参数并 读入;原始数据读入装置连接集成度左界限确定装置和集成度右界限确定装 置,集成度左界限确定装置确定集成度左界限参数和计算集成度左界限;集 成度右界限确定装置确定集成度右界限参数和计算集成度右界限;集成度左 界限确定装置和集成度右界限确定装置连接最佳集成度判断装置,最佳集成 度判断装置连接集成度右界限确定装置,最佳集成度判断装置对输入的数据 进行判断,将满足条件的数据传给集成数据输出装置,将不满足条件的数据 通过用户终端返回传给集成度左界限确定装置和集成度右界限确定装置。
当准备好需要分析的原始数据后,通过原始数据读入装置设定读入数据 的参数,指明数据的类型,参数设定完成后,开始读入原始数据。在成功地 读入数据以后,设定计算集成度界限的参数,完成参数输入以后,系统开始 计算集成度的左、右界限。通过集成度左界限确定装置和右界限确定装置计 算最佳集成度的左、右侧极限,再由最佳集成度判断装置自动判别集成度的 范围。如果存在最佳集成度范围就通知用户建议的集成度,如果不存在最佳 集成度则通知用户重新设定左右侧界限的参数,计算新的集成度范围。该装 置充分考虑了用户的不同需求,如果用户不仅需要最佳集成度下的数据,而 且需要多个集成度下的数据,集成数据输出装置也能够提供。数据集成装置 一个突出特点是采用双侧最优化确定最佳集成度,采用集成后的数据通过计 算信息损失指标来评价集成的有效性,因此能够评价数据集成的效率。
数据集成装置的两个核心装置:集成度左、右界限确定装置,分别见图 12(c)和图12(d)。图中,成功地运用小波变换是这两个装置的核心技术。根 据双侧最优化集成度的定义,计算相异性指标可以获取不同样本数据之间的 相似程度;而计算信息损失指标,可以获取集成前后的信息差异。最优化过 程的目标是最大程度地获取两个相似性,即代表相同工作日数据的共同特 性,以及集成后需要保留的有用信息。
在集成度左侧界限确定装置中,首先通过信号变换装置采用连续小波变 换将样本数据分解成为各种频率成份,每一个频率成份对应着一定的频率带 宽;再采用该装置中的快速傅里叶变换将各个频率的信号成份从时域转化到 频域,观察信号的本质特性;然后通过相异性指标确定装置来计算频域里的 信号成份在每一个分解尺度下数据的相似程度,构建相异性指标;根据这个 相似程度通过回归方法选择装置进行多种函数的回归,选取最佳回归函数; 最后通过相异性指标及回归函数生成装置设定截取值,对应于这个截取值的 分解尺度(层次)即为最佳分解尺度的下限,最佳分解尺度对应着某一特定 的频率成份(伪频率),根据香农采样定理,采用小波的伪频率确定采样频 率,再将采样频率转化为采样周期,这个采样周期即为最佳集成度的左边界。
在集成度右侧界限确定装置中,首先根据用户设定的集成度参数通过集 成数据输出装置将数据样本直接集成;其次通过信号变换装置采用小波变换 分解集成前后的数据,提取出数据中某一特定的频率成份;然后采用快速傅 里叶变换将信号成份从时域转化到频域;计算集成前后信号成份的信息损 失;最后根据信息损失指标生成装置提供的截取值确定最佳集成度的右边 界,传递到集成度右界限输出装置。
通过发明的装置运行实施例来比较通过小波方法和统计领域中的 CVMSE方法确定的小时速度数据的最佳集成度。从表1中可以看出这两种 不同方法计算得到的最佳集成度完全不同,最佳集成度的值存在很大差异。
将表1的内容铺画在图13中,横轴代表了时间,纵轴代表最佳集成度, 分别对不同车道的最佳集成度进行了分析。从图13中可以看出,图中蓝色 曲线和紫红色的曲线虽然间隔较大,但是总体的变化趋势类似,因此这两种 方法确定的最佳集成度伴随时间段的变化不相同,但是这两种方法的结果有 着共同的变化趋势,即两种方法得到的最佳集成度同时增加或者减小,例如 在高峰时段两种方法计算得到的最佳集成度都较小,而在非高峰时段得到的 最佳集成度都较大。这是因为两种方法都体现了数据集成的目的,发现了数 据变化的内在规律,数据波动较大的时候采用较小的集成度尽量保留数据信 息,数据比较平缓的时候采用较大的集成度就能够很好的保留数据信息。
此外,通过仔细观察图13还发现两种方法的结果在高峰小时和非高峰小 时有特殊的变化规律,在高峰小时,小波方法确定的最佳集成度大于CVMSE 方法确定的最佳集成度,而非高峰时候正好相反,所以数理统计方法对数据 的波动更为敏感。出现这个现象是因为小波有信号除噪的功能,消除了数据 中的奇异值,这样使信号更接近于真实的交通数据,而数理统计方法追求单 个样本的相似性,不能排除噪音对数据集成的影响,所以小波方法确定的高 峰小时最佳集成度值更大。另一方面,使用小波方法分析多个样本的数据时, 它可以捕获数据共同部分的特性,即使在非高峰时候,也有一些相同的成份 可以被保留,因此在非高峰时候的最佳集成度小于CVMSE确定的最佳集成 度。
一种基于信号处理的道路交通流数据集成方法,包括下面的步骤;
1.相异性指标确定集成度左界限
1)小波分解
图1是交通流数据存储基本过程的图解。理想的存储数据序列Se应该是 道路上原始信号S的离散化数据Sd,然而由于噪音源的存在,数据序列Se包 含了各种各样的噪音e。数理统计方法计算最佳集成度的过程集中于寻找最 优集成数据序列Sa,而这个过程是以噪音数据Se为基础的,显然这种方法 获得的集成数据序列Sa包含了不需要的噪音e,因此这个方法是不完善的。 而采用小波分解数据的方法计算最佳集成度是以Sa和S为基础的,消除了 噪音对数据的影响,分析的结果更为准确。通过研究分析,不论什么样的用 户需求,集成后的数据序列都应该消除噪音。
图2描述了交通流数据作为一种信号时的消噪过程。根据数字信号处理 理论,快速傅里叶变换(FFT)是将信号由时域变到频域的良好工具。通过 FFT,所有信号都可以被分解为一系列的正弦波组合,而每一个正弦波对应 唯一的频率。将信号从时域转换到频域后,每一个代表正弦波振动频率的横 线代表着信号的一个组成。设想有一个包含噪音的交通信号Se,它包含了原 始信号S和噪音e,如图2(a)所示,图中横轴代表时间,纵轴代表信号的振 幅,在时域中可以观察原始信号S和不需要的噪音e,但是不能直接分离不 同频率的信号成份。
然而,当把信号从时域转化到频域后,如果知道噪音信号所有成份的频 率,如图2(b),就能够分辨出信号频率fs和噪音频率fe。图2(c)中解释了过 滤信号高频信息的过程,通常噪音的频率高于有用信息的信号频率,通过使 用某种类型的低通滤波器或者类似技术,就能够提取出原始信号的有用成 份,消除其中的噪音。
在小波分析中,高尺度低频率的成份被称为近似(交通研究人员通常需 要的部分,反映信号的总体变化趋势),而低尺度高频率的成份被称为细节 (是信号波动比较大的部分,通常需要去除)。通过连续地分解近似成份, 重复小波分解的过程,一个信号可以被分解成为许多低层成份,这就是小波 分解树,可以解释为:
S = A 1 + D 1 = A 2 + D 2 + D 1 = . . . = A n + Σ i = 1 n D i - - - ( 1 )
其中,An是第n层的近似;Di是第i层的细节。
与传统的集成技术不同,小波的重复分解过程产生了一个分层次的分解 树。在某一层次下选择一个合适的集成度依靠信号本身的性质和人们以往的 经验,通常,分解层次的选择是以按需要设计的低通滤波频率为基础的,即 低通滤波器的频率对应着某一特定的分解层次,而分解层次又可以确定信号 的集成度。在下面将会重点讲解如何选择最佳集成度。
图3是分解交通流数据序列的图示。存储数据序列绘制在图3(a)中,通 过应用小波变换进行逐层分解,如果选择第二个分解层次时,能够产生两个 细节成份和一个近似成份。图3(b)和图3(c)是小波分解树产生的细节D1(第 一层的细节成份)和D2(第二层的细节成份),图3(d)是分解产生的近似A2 (第二层近似成份)。
从图3中很容易看出,两种细节成份D1和D2比A2更大的波动性,因为细 节代表了信号的高频成份。数字信号处理中高频成份对应着信号剧烈变化的 频率部分,而在交通工程的大量应用中,细节(高频成份)通常不如近似(低 频成份)应用广泛。
在分解数据序列的结果过程中,需要提前选择特定的尺度。对于小波尺 度和信号频率之间的联系,称与小波尺度和采样频率相对应的信号频率成份 为伪频率。计算小波中心频率(由小波类型唯一确定)和伪频率关系的方法 如下:
f a = f c Δ · a - - - ( 2 )
其中α代表尺度,Δ代表采样间隔(单位秒),fc代表小波中心频率(单 位Hz),fa代表对应于尺度和采样间隔的伪频率(单位Hz)。
例如,如果选择db3(Daubechies)小波,该小波对应的中心频率fc是0.8 Hz,当选择第八个分解层次时,尺度a为28=256,采样周期Δ为20秒时, 对应的伪频率fa应该为0.8/(20×256)=0.00015625Hz,相应的周期Ta为1/fa= 106.7分钟。
计算连续小波变换采用尺度的变化,然而离散小波变换依靠层次的变化。 层次1对应于尺度21(尺度2),层次2对应于尺度22(尺度4),层次n对应 着尺度2n。连续小波变换的尺度连续变化均匀分布于时间轴,而离散小波变 换的层次的分布是离散的,因此,如果用户需要更加详细地分解信号,通常 采用连续小波变换。
连续小波分析和离散小波分析有它们各自的优点,离散小波分析节省了 空间代码,节约了分析时间,同时能够实现小波重构信号;而连续小波变换 更容易被解释,因为它的冗余信息往往强化了信号的特征信息,更加容易观 测信号的所有信息,对于细微信息的观测显得尤其真实。两种小波变换的应 用范围来看,如果需要应用于数据集成,考虑到集成需要分析各种尺度下的 信号频率成份这一显著特点来看,连续小波适合对交通数据进行分析和评 估,确定存档数据的最佳集成度;而交通数据的特性而言,如果交通研究人 员仅仅需要信号的近似信息以及要求分解后的信息能够重新构造信号,通过 离散小波分解就能够很好的满足这一需求。
2)相似性分析
当多于一天的交通流数据在同一个尺度下分解,就能够引入相似性分析 这个概念。这里的相似性分析是指比较多个信号序列(例如:十个周一的全 天交通速度数据)某一特定频率成份的相似性。小波分解的尺度作为主要频 率带宽,这个频率带宽能够代表来源于相同工作日或者周末的数据序列的普 通特性,但是对尺度的选择有一定的限制范围,要求这个尺度对应的频率带 宽低于无用信息的频率成份。
根据数字信号处理理论,频率是区别一个信号与其它信号不同的最重要 性质,所以比较多天数据在同一分解尺度下的相似性,首先可以采用傅里叶 变换将该尺度下的小波分解系数从时域转化到频域;将傅里叶变换的结果转 化成功率谱,通过式(3)对功率谱的计算可以计算数据的相异性指标,其中 相异性Li表示分解尺度i下多个数据序列的相异程度。
L i = Σ t n t Σ j = 1 n t ( p ij t - p ij ) 2 , p ij = 1 n t Σ t = 1 n t p ij t - - ( 3 )
式中Li代表了分解层次i下nt个数据序列的相异性指标,pij t是频谱能量, 即数据序列t在分解层次i下,在频率j处的能量; pij是nt个数据序列在频率 j处的pij t的平均值。
图4分别绘制了五个星期二早高峰流量数据通过离散小波变换(DWT)在 第四个分解层次下的近似成份和对应的傅里叶变换(FFT)后的图像。图4的 左方绘制了在时域的小波变换后的系数,直接观测无法看出数据信息的本质 特征,比较它们应该采用傅立叶变换的方法,分析它们变换后在频域的频率 特性,通过对近似成份采用快速傅里叶变换,再计算变换后的功率谱,可以 反映信号的频率能量分布特性,如图4的右侧所示,根据这个结果可以计算 信号的相异性指标,即得到了信号在特定的分解层次下的相异性指标值。
3)相异性指标的选取
如果只计算某一个特定的相异性指标Lt没有绝对的含义,然而将数据在 不同分解层次下的所有相异性指标放在一起比较,存在一个最小的相异,可 以通过采用某种数据算法来获取。但需要注意的是,在进行傅里叶变换和计 算相异性指标之前,不同分解层次的傅里叶变换值应该进行统一化和标准 化,这样不同分解层次下的相异性指标才具有可比性。根据相异性指标的定 义,最小相异性指标相应的分解层次对应着数据最相似的成份,也就是最后 确定最佳集成度的依据。
获取最佳分解层次。由于相异性指标与分解层次之间的各种联系,最小 的相异性指标不能够直接运用于确定最佳集成度。例如,当计算周二数据的 最佳集成度时,需要比较许多组周二的数据的相似性,对于每一组数据序列, 多可以获得一对相异性和分解层次的联系,因此就存在许多组联系,且每一 对联系都有它的最小相异性指标对应的分解层次。计算多组数据共同的最小 的相异性指标时,需要先进行统一化。
通过对大量数据进行计算发现,在低分解层次(低尺度)下分解信号时, 小波分解结果中包含了某些高频率成份,所以在低分解层次时的相异性指标 变化的相对快些,例如,天的交通变量特性变化,高峰小时的交通变量特性 变化;而在高分解层次(高尺度)下分解信号时,由于多个信号中存在一些 共同的低频信息,这时的相异性指标变化较慢,例如,月的交通变量特性变 化,季节的交通变量特性变化以及年的交通变量特性变化。
通过上述分析,在建立相异性指标和分解尺度联系的数学表示时,很容 易想到体现二者之间关系的函数应该具有这样的特征:在分解尺度较小时函 数衰减较快,分解尺度较大时函数衰减速度变缓。研究多种数学函数的变化 曲线发现,指数函数以及多项式函数能够满足这种关系,建立相异性指标的 有效回归。
设想Φ是一组能够反映这种联系的衰减函数,最佳回归函数f(t)=f*(t)∈Φ 满足以下要求:
f * ( t ) = arg min f ( f ( t g ) - L t g ) t , g - - ( 4 )
其中g代表数据序列的组号,Lt g代表在分解层次t下组号g的数据序列相 异性指标。
选择了合适的回归函数后,最佳分解层次就可以根据f(t)(相异性指标 函数)来选择。理论上看,当t→∞时衰减函数f(t)的最小值产生,然而数字 信号处理理论通常采用f(t)下降到某一指定的参数α(通常0≤α≤1.00)就可 以了,α称为相异性指标截取值,在这个相异性截取值下的多个信号已经具 有足够的相似性,在交通变量处理中也可以采用这种方法,选择回归曲线在 相异性指标对应的t值作为集成度。考虑α的取值时,可以参照其它一些工 程领域的取法,例如电子工程领域α通常选择0.05到0.10之间。
                y=keλt                       (5)
如果对相异性指标采用指数回归可以采用式(5),y表示时间t对应的指数 函数值,k和λ是根据数据校准后的参数。图5描绘了相异性指标和分解尺 度之间的联系,以及根据相异性指标函数的衰减如何选择合适的指数函数。
4)计算最佳集成度左侧界限
选取最佳分解尺度的原则是选择数据最相似成份对应的尺度,最佳分解 尺度与其它所有的分解尺度相比包含了更大的相似性,反之,其相异性指标 应该小于其它分解尺度。而数据分解中较低的分解尺度,尤其是包含了噪音 的最低分解尺度往往不能够准确的代表智能交通数据组的共同交通特性,因 此应该放弃低分解尺度的信息,保留高分解尺度的成份。
综上所述,较高的分解尺度才能够满足用户需求,所以有必要使用一种 方法来保存高分解尺度的所有信息,放弃低分解尺度的信息。著名的香农采 样定理(Shannon Theorem)能够满足这种需求,根据香农采样定理,为了能够 准确的再现信号,最小的采样频率必须大于等于被采样信号的最高频率的两 倍。简单的讲,即采样频率应该等于或者大于信号最高频率的两倍。
图6图示了对频率为fa的信号采取不同采样频率fp的结果。容易看出当 fp>>2fa时,采样信号能够准确地重构被采样信号;而当fp=2fa时,采样信 号基本上能够重构被采样信号;而当fp<2fa时,发生了两个信号混频的现象。
香农采样定理说明采样频率fp可以作为选取最佳集成度时的采样频率, 捕获信号中有用的频率成份,消除无用成份。
例如,继续采用式(5-14)计算得到的数据,如果算法中得出第八个层次 是最佳分解层次,采样频率fp应该大于等于fa=0.00015625Hz的两倍,即大 于等于0.0003125Hz,采样周期应该小于等于106.67/2=53.3分钟。将计算结 果取整数,采样周期选择50分钟。如果集成度选择这个值(50分钟),高 于第八个层次的所有分解信息就可以保留。
综上所述,单侧最优化可以确定最佳集成度的左侧界限,因此这是一个 单侧最优化的过程,有必要考虑再设定另外一个指标来实现双侧最优化。
2.相异性指标确定集成度右界限
正如基于单侧最优化的相异性指标讨论中所指出一样,相异性指标和分 解尺度之间的联系在于:伴随分解尺度的增加,数据之间的相似性也会增加。 相异性指标截取值α为放弃数据的不必要信息设定了一个左侧边界,但还有 必要设定一个右侧的边界。当追求数据的最大相似性时,可以设定右侧边界 来保留有用信息,通过右侧边界可以了解有多少有用的信息损失了,因此确 定集成度不能大于某一个值,这个集成度与相异性指标确定的集成度一起共 同确定及最佳集成度的范围,实现双侧最优化。
考虑到需要合成一个信息损失指标,定义这个指标用于测量原始数据序 列和集成数据序列的信息差异。为了准确地测量在哪个集成度下信息差异过 大,每个集成度下具体差异值的大小,同样采用小波变换将数据序列分解到 细节层次,比较它们相应成份的物理含义,运用最优化的算法。运用信息损 失指标分析的是集成前后的数据,充分考虑了集成对原始数据带来的影响, 客观的评价了集成方法的有效性,也进一步丰富了数据集成理论。
1)数据集成
为了构建信息损失指标,首先将原始数据序列按不同的集成度直接集成。 如图7所示,横轴为时间,纵轴为交通变量的值。集成后交通变量的峰值降 低,振动幅度变缓,变化趋势更加明显。
2)小波分解
与计算相异性指标的过程类似,同样采取了小波分解这个过程,因为小 波能够将信号分解到指定的尺度,提取信号中需要分析的成份。小波分解集 成前后数据到待分析的分解尺度,例如可以选用尺度8、尺度12、尺度20、 尺度30、尺度40、尺度60、尺度80、尺度120、尺度160、尺度200共10 个尺度的分解,其中较大的尺度对应着信号较低的频率成份。图8上半部分 描绘了原始数据的小波分解系数值,下半部分描绘了集成后的数据的小波分 解系数值。
3)计算功率谱
利用快速傅里叶变换将小波变换的结果转换到频域,计算原始数据和集 成数据功率谱,比较两者之间的能量损失。图9上半部分描绘了原始数据的 功率谱,下半部分描绘了集成后数据的功率谱。数据集成去除了噪音,消除 了信号的高频成份,但也降低了信号的部分能量。比较这两幅图可以看出集 成后数据功率谱的最大值从2000下降到600,集成后数据的功率谱明显小于集 成前数据相应的功率谱。因此数据集成损失了信号的能量,也损失了部分信息。
4)计算信息损失指标
对于每一个集成前后的数据序列,信息损失指标可以通过式6计算。在 公式中,损失指标Mi表示分解尺度i下的数据集成的信息损失比较:
M i = Σ t n t Σ j = 1 n t ( q ij t - a ij a ) 2 - - ( 6 )
其中Mi是数据序列nt在分解尺度i下的信息损失指标;qij t是功率谱中(用 于测量各个频率下的能量)数据序列t在分解尺度i下点j处的能量;qij a是 集成数据在分解尺度i下在点j处的能量。
较小的Mi值代表了在该分解尺度下集成后数据具有较小的信息损失。因 此,对于每一个集成后的数据序列,存在Mi来测量基于某一特定集成度的 信息损失,确定集成数据在哪个分解尺度下发生了差异以及具体差异值的大小。
通过计算不同分解尺度下的信息损失,可以得到图10信息损失指标随集 成度和小波分解尺度变化的关系图。图中横轴为集成度,纵轴为信息损失指 标,不同颜色的曲线分别代表了不同的小波分解尺度,尺度从8变化到200, 右下方的红线代表最小的小波分解尺度8,左上方的黑线代表最大的分解尺 度200。无论哪一条曲线,随着集成度的增加,信息损失指标都是逐渐增加; 当集成度一定,在高尺度下集成前后数据序列的信息损失大于低尺度下的信 息损失,这说明在低尺度下集成前后数据的能量分布更为相似。伴随分解尺 度的增加,信息损失指标增长的非常快,所以较大的集成度对数据的信息损 失有很大的影响。为了能够获取合理的集成度范围,参照相异性指标截取值 参数α的选取原则,也设定一个信息损失指标的截取值β,要求0.05<β<0.1。
5)计算最佳集成度右界限
当计算完各个分解尺度下的信息损失指标以后,需要选取待分析的小波 分解尺度,这个尺度下的曲线即为需要的信息损失曲线,当选择了分解尺度 8,即图中左下方的红线代表的信息损失指标,β选择0.1时,对应的集成度 右边界为14分钟。
3.确定最佳集成度
图11中绘制了相异性指标(包括指数回归曲线)和信息损失指标的变化 曲线。可以发现伴随分解尺度的增加(集成度增加),相异性指标会减少而 信息损失指标会增加。双侧最优化的目标是获取最佳集成度的左右界限,最 大程度地获取数据的相似性和有用的信息,可以采用设定截取值参数α和参 数β(0 ≤α≤1.00和,0≤β≤1.00),即当相异性指标和信息损失指标都下降到某一 特定值时,设定集成度的左右界限来实现这一目标。
  时间间隔(2)   车道   0   1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   20   22   小波方法(3)   L1(1)   23   20   23   18   14   11   11   6   9   13   14   15   10   12   11   10   7   6   8   12   17   18   15   L2   15   17   18   24   22   13   8   5   6   9   7   7   7   7   6   5   5   5   5   8   11   12   14   L3   10   23   26   23   17   13   11   7   9   13   9   11   10   11   10   10   8   7   11   14   13   15   17   CVMSE方法   L1   60+   60+   60+   60+   60+   30   1   1-   1-   15   15   30   30   30   30   1-   1   1-   1   30   15   30   30   L2   30   60+   60+   60+   60+   30   5   1-   1-   1   15   60+   30   30   5   1-   1-   1-   1   30   15   15   30   L3   60+   60+   60+   60+   60+   30   15   1-   1   30   30   30   30   30   30   1-   1   1-   5   1   5   15   15
注释:
(1)L1,L2和L3分别代表道路上的1车道、2车道、3车道
(2)时间间隔从0:00a.m.~10:00p.m.
(3)最佳集成度的单位分钟
                                    表1不同集成方法速度数据最佳集成度
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈