首页 / 专利库 / 诊断设备和程序 / Q-T间期 / 一种通过大数据进行轨交报警数据智能管理的方法

一种通过大数据进行轨交报警数据智能管理的方法

阅读:99发布:2023-02-27

专利汇可以提供一种通过大数据进行轨交报警数据智能管理的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及轨道交通维护技术领域,尤其是一种通过 大数据 进行轨交报警数据智能管理的方法;它包括以下步骤:S1确定用于警报排序的聚类;S2特征提取;S3建立 预测模型 ;S4绩效的定量评估;在固定时间或数量下压缩原始数据,这将提高 算法 的效率;根据历史信息自动调整未来警报的分数。因此,警报的类型更客观;可以自适应地更新每种类型的警报的 阈值 ,可以预先发出警报,并且阈值随着训练样本的增加而变化。,下面是一种通过大数据进行轨交报警数据智能管理的方法专利的具体信息内容。

1.一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:它包括以下步骤:
S1确定用于警报排序的聚类;
S2特征提取;
S3建立预测模型
S4绩效的定量评估。
2.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤1中,针对数据清理步骤中的确认延迟计算每个警报,延迟分为两列数据:确认的延迟和转换延迟,然后,计算它们之间的差,获得表示确切维修时间的新变量,此外,应用特征构造方法来创建包含前者的集成新变量:
Integrated_Delay=α*Acknowledged_Delay+β*Changeback_Delay
其中α和β是数值范围内的权重,Integrated_Delay为综合延迟,Acknowledged_Delay为确认的延迟,Changeback_Delay为转换延迟;
用上述步骤创建的延迟功能来确定警报的排名;
采用各种聚类方法,使用不同的机器学习方法进行测试,对结果进行比较,首先应用DBSCAN来发现可能获得多少级别的聚类,然后应用其他聚类方法通过设置由DBSCAN指示的簇数,比较由各种聚类方法生成的这些结果并确定最佳聚类方法,或者进一步创建由某些计算公式描述的组合结果;
对几个不同的变量分别进行聚类,并按列对比结果,得到了表明了警报的排名平的分类变量。
3.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤2中,应用单热编码,通过将具有N个可能值的分类特征,编码为一个长度为N的向量,并用一个非零元素将其转换为数值形式,对三个变量RGB(基本颜色)进行单热编码(One-Hot编码):
R→[1,0,0]T
G→[0,1,0]T
B→[0,0,1]T
显然,三个单热生成的向量是线性无关的,因此可以构建非奇异矩阵来描绘标称数据:
构建一个矩阵,对所有设备状态进行一次性编码,并添加所有测量值,包括我们刚刚在步骤1中生成的警报等级作为我们的预测目标。
4.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤3中:将警报等级(这是从步骤1生成的确切结果)视为因变量Y,以及将其他变量视为自变量X1,…,Xn,将机器学习算法拟合到具有通式的模型中:Y~X1+X2+...+Xn,将其中一种通用机器学习算法应用于结果矩阵,具体来说是使用XGBoost库中实现的Gradient Boosting方法;梯度提升以弱预测模型的集合形式生成预测模型,通常是决策树,它像其他增强方法一样以阶段方式构建模型,并通过允许优化任意可微分损失函数来推广它们;对于给定的数据集n例子和m特征D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),树集合模型使用K附加功能预测输出:
其中F={f(x)=wq(x)}(q:Rm→T,w∈RT)是回归树的空间;
对于给定的示例,将使用树中的决策规则将其分类为叶子,并通过总结相应叶子中的分数来计算最终预测;最小化以下正则化目标:
其中
这里l是一个可微的凸损函数,它测量预测之间的差异 和目标yi.第二个任期Ω惩罚模型的复杂性(回归树函数);让 是预测的i第一个例子t第二次迭代,我们需要添加ft尽量减少以下目标;
二阶近似可用于在一般设置中快速优化目标:
其中 和。
训练矩阵实现为稀疏矩阵,在预测之前完成特征选择的过程,以便减小模型的尺寸;
按型号选择:
1.通过Bootstrap方法进行采样
2.按型号选择特征。为每个样本空间应用集合方法以获得特征重要性。
3.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序,然后选择进一步培训所需的第一个要素,然后删除其余部分。
5.根据权利要求1所述的一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:步骤4中:对于故障诊断和报警检测,考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度,使用AUC作为模型精度的主要量化特征;
通过在各种阈值设置下绘制真阳性率(TPR,又称敏感性,回忆)与假阳性率(FPR)的关系来创建ROC曲线;分析以直接和自然的方式与诊断决策的成本/效益分析相关联;
AUC代表“ROC曲线下面积”,值在0和1之间变化,无信息分类器产生0.5;一般等式如下:
其中M是阳性样本数、N是阴性样本数。

说明书全文

一种通过大数据进行轨交报警数据智能管理的方法

技术领域

[0001] 本发明涉及轨道交通维护技术领域,尤其是一种通过大数据进行轨交报警数据智能管理的方法。

背景技术

[0002] 在轨道交通中,每一天都会产生大量的报警数据。例如电池过充、电压/电流异常、热失控、人流预警等等。这些报警数据都会记录在日志中,甚至会存储在数据库中,以备后续的查看和研究。现有的报警数据管理方法类似于智能看板,例如中国专利公开了警情大数据管理系统,申请号201711025502.X,其中记载:所述警情大数据管理系统包括:数据预处理子系统,用于预先处理警情数据以减少数据错误;数据汇聚子系统,用于将多路、多种警情数据汇集并存入至数据库;数据分析子系统,用于分析处理存入至所述数据库的警情数据;数据应用子系统,用于建立基于警情数据的算法模型,多个数据仓库并行数据分析和运算;数据展示子系统,用于显示需要展示的数据和信息;监测管理子系统,用于监测所述警情大数据管理系统的正常运行;所述数据预处理子系统,数据汇聚子系统,数据应用子系统和数据展示子系统之间构成数据连接。
[0003] 上述技术方案只能对海量的报警数据进行实时的排序和分类处理,而无法对未来可能出现的警报无法进行预测。

发明内容

[0004] 针对现有技术的不足,本发明提供一种高效的、客观的、可以预测警报的报警数据管理方法。
[0005] 本发明的技术方案为:
[0006] 一种通过大数据进行轨交报警数据智能管理的方法,其特征在于:它包括以下步骤:
[0007] S1确定用于警报排序的聚类;
[0008] S2特征提取;
[0009] S3建立预测模型
[0010] S4绩效的定量评估。
[0011] 其中,步骤1中,由于没有用于分类的标签,因此最初将其视为无监督的聚类过程。必要时,会针对数据清理步骤中的确认延迟计算每个警报。当然,延迟可以分为两列数据(两个变量):确认的延迟并改变延迟。然后,如果我们计算它们之间的差异,将获得表示确切维修时间的新变量。此外,还可以应用特征构造方法来创建包含前者的集成新变量,例如,考虑线性模型(假设前者是正相关的):
[0012] Integrated_Delay=α*Acknowledged_Delay+β*Changeback_Delay[0013] 其中α和β是数值范围内的权重,例如(0,1)。Integrated_Delay为综合延迟,Acknowledged_Delay为已经确认的延迟,Changeback_Delay为转换延迟。
[0014] 我们现在考虑上面刚刚创建的延迟功能来确定警报的排名。
[0015] 通常,我们可以从经典统计的度分别分析延迟特征。例如,我们可以轻松获得均值,方差,分位数,以及偏度和峰度。通过标准化,数据将由一般分布模型近似地描绘,其可以根据某个统计标准(例如,分位数)被划分为若干区间(排名级别)。此外,我们通过特征构造创建的集成延迟也将易于分析,因为数据可以适合混合分布模型。
[0016] 但是,对于大多数情况,应用机器学习方法来完成聚类更具说服。建议采用各种聚类方法,鼓励(如果效率允许)使用不同的机器学习方法进行测试,以便对结果进行比较。作为建议的过程,我们首先应用DBSCAN(基于密度的噪声应用的空间聚类)来发现可能获得多少级别的聚类(排名),然后应用其他聚类方法(如K-means,Gaussian Mixture,Agglomerative Clustering,Birch等)通过设置由DBSCAN指示的簇数。我们比较由各种聚类方法生成的这些结果并确定最佳聚类方法,或者进一步创建由某些计算公式(例如加权平均)描述的组合结果。
[0017] 考虑到我们有几个不同的变量可供分析,我们将分别对它们进行聚类,并按列对比结果。在考虑投票分类器之后,我们选择每个警报的大部分结果作为最终排名。因此,我们得到了新的分类变量,表明了警报的排名平。
[0018] 其中,步骤2中,特征提取是工作中最具创造性和最耗时的部分。由于以下困难而变得复杂:
[0019] ·一般来说,原始数据主要包含不同角度的所有分析(包括优先级,设备类型,站点等)由各种类型的分类的定性特征组成。我们最初将标称数据转换为数字(表示类别)是很自然的,但是对于“1,2,3”级别的简单转换器可能会导致原始数据实际上未指示的序列顺序。
[0020] ·为了避免如上所述的过度解释,最好的方法是应用单热编码,通过将具有N个可能值的分类特征,编码为一个长度为N的向量,并用一个非零元素将其转换为数值形式。
[0021] 例如,我们建议对三个变量RGB(基本颜色)进行单热编码(One-Hot编码):
[0022] R→[1,0,0]T
[0023] G→[0,1,0]T
[0024] B→[0,0,1]T
[0025] 显然,三个单热生成的向量是线性无关的,因此可以构建非奇异矩阵来描绘标称数据:
[0026]
[0027] 至于我们的情况,我们构建一个矩阵,对所有设备状态进行一次性编码,并添加所有测量值,包括我们刚刚在步骤1中生成的警报等级作为我们的预测目标。
[0028] 其中,步骤3中:由于需要使用所提供的所有类型的变量来预测警报的排名,因此这是监督学习的典型情况。我们将警报等级(这是从步骤1生成的确切结果)视为因变量Y,以及将其他变量视为自变量X1,…,Xn。现在的问题是将机器学习算法拟合到具有通式的模型中:Y~X1+X2+...+Xn。
[0029] 考虑到我们已经通过一个热编码将所有特征提取到数字矩阵中,它变得相当直接的计算。其中一种通用机器学习算法应用于结果矩阵。SVM,神经网络,随机森林和Boosting等方法是用于多级分类的监督学习的流行方法。在我们的例子中,我们建议使用XGBoost库中实现的Gradient Boosting方法。
[0030] ■XGBOOST
[0031] 梯度提升以弱预测模型的集合形式生成预测模型,通常是决策树。它像其他增强方法一样以阶段方式构建模型,并通过允许优化任意可微分损失函数来推广它们。
[0032] 对于给定的数据集n例子和m特征D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),树集合模型使用K附加功能预测输出:
[0033]
[0034] 其中F={f(x)=wq(x)}(q:Rm→T,w∈RT)是回归树的空间(也称为CART)。
[0035] 对于给定的示例,我们将使用树中的决策规则(由q)将其分类为叶子,并通过总结相应叶子中的分数来计算最终预测(由...给出)w).要了解模型中使用的函数集,我们最小化以下正则化目标。
[0036]
[0037] 其中 这里l是一个可微的凸损函数,它测量预测之间的差异和目标yi.第二个任期Ω惩罚模型的复杂性(回归树函数)。额外的正则化项有助于平滑最终权重以避免过度拟合。直观地,正则化目标将倾向于选择采用简单和预测函数的模型。
[0038] 正式,让 是预测的i第一个例子t第二次迭代,我们需要添加ft尽量减少以下目标。
[0039]
[0040] 二阶近似可用于在一般设置中快速优化目标:
[0041]
[0042] 其中 和。
[0043] 从技术上讲,XGBoost是Gradient Boosting的修订版,它通过惩罚损失函数的新型正则化以及计算步骤的优化。它被证明是多类分类任务中最有效的集合方法之一。
[0044] ■特征选择
[0045] 由于在我们的情况下,N可能非常大,我们必须将训练矩阵实现为稀疏矩阵。另外,如果考虑了许多变量,那么评估计算资源的效率和成本是至关重要的,因为训练矩阵往往是大规模的。因此,需要在预测之前完成特征选择的过程,以便减小模型的尺寸。
[0046] 有效完成特征选择过程的典型方法之一是测量特征重要性,正确估计特征是对最终性能的贡献。特征重要性在理论上是包含在每个集合方法中的基本函数。以下是功能的典型步骤
[0047] 按型号选择:
[0048] 1.通过Bootstrap方法进行采样(相对小规模以确保简单快速的计算)(或者,如果效率允许,则进行K折交叉验证)。
[0049] 2.按型号选择特征。为每个样本空间应用集合方法(XGBoost)以获得特征重要性。
[0050] 3.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序,然后选择进一步培训所需的第一个要素,然后删除其余部分。
[0051] 其中,步骤4中:对于故障诊断和报警检测的一般情况,我们主要考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度,因此我们使用AUC作为模型精度的主要量化特征。
[0052] 接收器操作特性曲线或ROC曲线是示出二元分类器系统的诊断能力的图形图,因为其辨别阈值是变化的。通过在各种阈值设置下绘制真阳性率(TPR,又称敏感性,回忆)与假阳性率(FPR)的关系来创建ROC曲线。分析以直接和自然的方式与诊断决策的成本/效益分析相关联。
[0053] AUC代表“ROC曲线下面积”,值在0和1之间变化,无信息分类器产生0.5。一般等式如下:
[0054]
[0055] 其中M是阳性样本数、N是阴性样本数。越接近1,模型的性能越好。
[0056] 本发明的有益效果为:本发明有三个亮点,即效率,适应性,客观性;在固定时间或数量下压缩原始数据,这将提高算法的效率;根据历史信息自动调整未来警报的分数。因此,警报的类型更客观;可以自适应地更新每种类型的警报的阈值,可以预先发出警报,并且阈值随着训练样本的增加而变化。附图说明
[0057] 图1为本发明的原理示意图。

具体实施方式

[0058] 下面结合附图对本发明的具体实施方式作进一步说明:
[0059] 首先,创建一种用于警报排名的新型机器学习模型。由于没有用于分类的标签,因此最初将其视为无监督的聚类过程。必要时,会针对数据清理步骤中的确认延迟计算每个警报。当然,延迟可以分为两列数据(两个变量):确认的延迟并改变延迟。然后,如果我们计算它们之间的差异,将获得表示确切维修时间的新变量。此外,还可以应用特征构造方法来创建包含前者的集成新变量,例如,考虑线性模型(假设前者是正相关的):
[0060] Integrated_Delay=α*Acknowledged_Delay+β*Changeback_Delay[0061] 其中α和β是数值范围内的权重,例如(0,1)。
[0062] 我们现在考虑上面刚刚创建的延迟功能来确定警报的排名。
[0063] 通常,我们可以从经典统计的角度分别分析延迟特征。例如,我们可以轻松获得均值,方差,分位数,以及偏度和峰度。通过标准化,数据将由一般分布模型近似地描绘,其可以根据某个统计标准(例如,分位数)被划分为若干区间(排名级别)。此外,我们通过特征构造创建的集成延迟也将易于分析,因为数据可以适合混合分布模型。但是,对于大多数情况,应用机器学习方法来完成聚类更具说服力。建议采用各种聚类方法,鼓励(如果效率允许)使用不同的机器学习方法进行测试,以便对结果进行比较。作为建议的过程,我们首先应用DBSCAN(基于密度的噪声应用的空间聚类)来发现可能获得多少级别的聚类(排名),然后应用其他聚类方法(如K)-means,Gaussian Mixture,Agglomerative Clustering,Birch等)通过设置由DBSCAN指示的簇数。我们比较由各种聚类方法生成的这些结果并确定最佳聚类方法,或者进一步创建由某些计算公式(例如加权平均)描述的组合结果。考虑到我们有几个不同的变量可供分析,我们将分别对它们进行聚类,并按列对比结果。在考虑投票分类器之后,我们选择每个警报的大部分结果作为最终排名。因此,我们得到了新的分类变量,表明了警报的排名水平。
[0064] 特征提取是工作中最具创造性和最耗时的部分。由于以下困难而变得复杂:
[0065] 一般来说,原始数据主要包含不同角度的所有分析(包括优先级,设备类型,站点等)由各种类型的分类的定性特征组成。我们最初将标称数据转换为数字(表示类别)是很自然的,但是对于“1,2,3”级别的简单转换器可能会导致原始数据实际上未指示的序列顺序。为了避免如上所述的过度解释,最好的方法是应用单热编码,通过将具有N个可能值的分类特征,编码为一个长度为N的向量,并用一个非零元素将其转换为数值形式。例如,我们建议对三个变量RGB(基本颜色)进行单热编码:
[0066] R→[1,0,0]T
[0067] G→[0,1,0]T
[0068] B→[0,0,1]T
[0069] 显然,三个单热生成的向量是线性无关的,因此可以构建非奇异矩阵来描绘标称数据:
[0070]
[0071] 至于我们的情况,我们构建一个矩阵,对所有设备状态进行一次性编码,并添加所有测量值,包括我们刚刚在步骤5.1中生成的警报等级作为我们的预测目标。
[0072] 由于需要使用所提供的所有类型的变量来预测警报的排名,因此这是监督学习的典型情况。我们将警报等级(这是从步骤1生成的确切结果)视为因变量Y,以及将其他变量视为自变量X1,...,Xn。现在的问题是将机器学习算法拟合到具有通式的模型中:Y~X1+X2+...+Xn。考虑到我们已经通过一个热编码将所有特征提取到数字矩阵中,它变得相当直接的计算。其中一种通用机器学习算法应用于结果矩阵。SVM,神经网络,随机森林和Boosting等方法是用于多级分类的监督学习的流行方法。在我们的例子中,我们建议使用XGBoost库中实现的Gradient Boosting方法。
[0073] 梯度提升以弱预测模型的集合形式生成预测模型,通常是决策树。它像其他增强方法一样以阶段方式构建模型,并通过允许优化任意可微分损失函数来推广它们。对于给m定的数据集n例子和m特征D={(xi,yi)}(|D|=n,xi∈R ,yi∈R),树集合模型使用K附加功能预测输出:
[0074]
[0075] 其中F={f(x)=wq(x)}(q:Rm→T,w∈RT)是回归树的空间(也称为CART)。
[0076] 对于给定的示例,我们将使用树中的决策规则(由q)将其分类为叶子,并通过总结相应叶子中的分数来计算最终预测(由...给出)w).要了解模型中使用的函数集,我们最小化以下正则化目标。
[0077]
[0078] 其中
[0079] 这里l是一个可微的凸损函数,它测量预测之间的差异 和目标yi.第二个任期Ω惩罚模型的复杂性(回归树函数)。额外的正则化项有助于平滑最终权重以避免过度拟合。直观地,正则化目标将倾向于选择采用简单和预测函数的模型。
[0080] 正式,让 是预测的i第一个例子t第二次迭代,我们需要添加ft尽量减少以下目标。
[0081]
[0082] 二阶近似可用于在一般设置中快速优化目标:
[0083]
[0084] 其中
[0085] 从技术上讲,XGBoost是Gradient Boosting的修订版,它通过惩罚损失函数的新型正则化以及计算步骤的优化。它被证明是多类分类任务中最有效的集合方法之一。
[0086] 由于在我们的情况下,N可能非常大,我们必须将训练矩阵实现为稀疏矩阵。另外,如果考虑了许多变量,那么评估计算资源的效率和成本是至关重要的,因为训练矩阵往往是大规模的。因此,需要在预测之前完成特征选择的过程,以便减小模型的尺寸。有效完成特征选择过程的典型方法之一是测量特征重要性,正确估计特征是对最终性能的贡献。特征重要性在理论上是包含在每个集合方法中的基本函数。以下是功能的典型步骤[0087] 按型号选择:
[0088] 4.通过Bootstrap方法进行采样(相对小规模以确保简单快速的计算)(或者,如果效率允许,则进行K折交叉验证)。
[0089] 5.按型号选择特征。为每个样本空间应用集合方法(XGBoost)以获得特征重要性。
[0090] 6.计算平均特征重要性作为最终结果。按降序对要素重要性进行排序,然后选择进一步培训所需的第一个要素,然后删除其余部分。
[0091] 对于故障诊断和报警检测的一般情况,我们主要考虑TPR(真阳性率)和FPR(假阳性率)以及预测精度,因此我们使用AUC作为模型精度的主要量化特征。接收器操作特性曲线或ROC曲线是示出二元分类器系统的诊断能力的图形图,因为其辨别阈值是变化的。通过在各种阈值设置下绘制真阳性率(TPR,又称敏感性,回忆)与假阳性率(FPR)的关系来创建ROC曲线。分析以直接和自然的方式与诊断决策的成本/效益分析相关联。
[0092] AUC代表“ROC曲线下面积”,值在0和1之间变化,无信息分类器产生0.5。一般等式如下:
[0093]
[0094] 其中M是阳性样本数、N是阴性样本数。越接近1,模型的性能越好。
[0095] 上述实施例说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈