首页 / 专利库 / 人工智能 / 关联性分析 / 数据降维方法、画像构建方法及系统、可读存储介质

数据降维方法、画像构建方法及系统、可读存储介质

阅读:57发布:2020-05-12

专利汇可以提供数据降维方法、画像构建方法及系统、可读存储介质专利检索,专利查询,专利分析的服务。并且本 发明 提供的数据 降维 方法、画像构建方法及系统、可读存储介质,其中的数据降维方法中,采用如下步骤:(1)确定映射关系;(2)定义核函数和核矩阵;(3)构造拉格朗日函数;(4)计算比例系数;(5)得到降维时的投影向量,从而实现数据降维;(6)得降维后的数据样本和;(7)计算样本中和的关联程度;(8)计算任意 节点 的传播能 力 ;(9)计算节点的度,并构建了复杂网络。本发明采用了将复杂网络(CN)与核典型关联分析(KCCA)的方式,融合了二者的优势,弥补了各自的不足之处,采用数据降维等 大数据 分析方法,剔除了冗余数据,并着重考虑了系统间的关联性。采用本发明提供的以上技术方案,建立企业安全生产画像构建方法是有效的,为我国各企业调整产业结构、强化监管工作重点提供了准确的分析依据。,下面是数据降维方法、画像构建方法及系统、可读存储介质专利的具体信息内容。

1.一种数据降维方法,利用KCCA算法对数据样本进行降维处理,其特征在于,包括如下步骤:
选择用于实现画像构建的数据样本,所述数据样本隶属于不同系统;
确定画像构建维度,构建样本矩阵,所述样本矩阵中的行数等于数据样本的数量,所述样本矩阵的列数等于维度数量;
选择任意两个样本矩阵,确定二者的映射关系;
根据所述映射关系得到样本矩阵的核函数和核矩阵;
根据所述核函数和核矩阵构造拉格朗日函数;
根据所述拉格朗日系数得到降维时的投影向量,得到降维后的数据样本。
2.根据权利要求1所述的数据降维方法,其特征在于,所述选择任意两个样本矩阵,确定二者的映射关系的步骤中,通过以下方法计算映射关系:
ΦX(X)=(ΦX(X1),...,ΦX(XN));
ΦY(Y)=(ΦY(Y1),…,ΦY(YN));
其中,X、Y为两组样本矩阵,Xp×N=(X1,...XN),Yq×N=(Y1,...,YN);
ΦX、ΦY表示作用于X、Y上的变换,变换后为n×N维矩阵;
p表示样本X中的数据样本量;q表示样本Y中的数据样本量;N表示维度的数量。
3.根据权利要求2所述的数据降维方法,其特征在于,所述根据所述映射关系得到样本矩阵的核函数和核矩阵的步骤中,通过以下方法计算核函数和核矩阵:
核函数K(X,Y)为高斯函数,其表示为:
KX(i,j)=KX(Xi,Xj)=ΦX(Xi)TΦX(Xj);
KY(i,j)=KY(Yi,Yj)=ΦY(Yi)TΦY(Yj);
其中,X、Y为输入样本对,ΦX、ΦY表示作用于X、Y上的变换。
4.根据权利要求3所述的数据降维方法,其特征在于,根据所述核函数和核矩阵构造拉格朗日函数的步骤中,通过如下方式构造拉格朗日函数:
式中,α、β为样本对X、Y的比例系数,λα、λβ为拉格朗日系数,KX、KY为核矩阵;
其中,比例系数α、β的计算方式如下:
令λα=λβ=λ代入上式,可得到求解广义特征值的形式,具体如下:
以上求得比例系数α、β。
5.根据权利要求4所述的数据降维方法,其特征在于,根据所述拉格朗日函数求得的比例系数的步骤中,通过如下方式得到降维后的数据样本:
X′=(α1,α2,...,αk)TXK(X,Y)
Y′=(β1,β2,...,βk)TYK(X,Y)
以上求得降维后的数据样本X′和Y′,实现KCCA方法的数据降维。
6.一种画像构建方法,其特征在于,包括如下步骤:
通过分析降维后的数据样本之间的关联性建立复杂网络模型,所述复杂网络模型为CN模型;计算数据样本中X′和Y′的关联程度,所述关联程度由相关系数衡量:
式中, 和 分别表示X′和Y′的均值;
根据p的大小,筛选出关联程度高于设定值的样本点作为复杂网络中的构造节点I(i1,i2,...,ij),计算任意节点ij的传播能
N(ij)是节点ij的最近邻居节点集, 是节点ij的聚类系数;
根据传播能力的大小选择数据作为中心节点,计算中心节点的度,所述中心节点的度为与中心节点有连接的节点的数量:
构建CN网络,完成CN-KCCA模型的构建并得到画像结果。
7.一种可读存储介质,其特征在于,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行权利要求1-5任一项所述的数据降维方法。
8.一种可读存储介质,其特征在于,所述存储介质中存储有程序指令,计算机读取所述存储指令后执行权利要求6所述的画像构建方法。
9.一种数据降维系统,其特征在于,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个处理器读取所述程序指令后执行权利要求1-5任一项所述的数据降维方法。
10.一种画像构建系统,其特征在于,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个处理器读取所述程序指令后执行权利要求6所述的画像构建方法。

说明书全文

数据降维方法、画像构建方法及系统、可读存储介质

技术领域

[0001] 本发明涉及机器学习数据挖掘技术领域,具体涉及一种数据降维方法、画像构建方法及系统、可读存储介质。

背景技术

[0002] 目前针对企业安全生产画像构建问题,大多数都是针对单一企业或者用户,在对规模以上企业安全生产构建画像方面的研究涉及较少。而且在对单一企业用户进行画像构
建时,不用考虑用户之间的关联性信息以及安全生产等因素,因此不涉及多个个体的问题,而且这种画像构建更偏重应用推荐方面,不用考虑后续的安全生产状态监管问题。而在刻
画规模以上企业安全生产画像时,往往需要考虑企业自身各项基本指标和其他一些外部影
响因素,尤其是和安全生产相关的指标,这些指标和因素并不相互孤立,而是存在一种催
生、转换、抵制等多种关系,这些关系会构成一个复杂网络。由于是对规模以上的企业构建画像,所以每个安全生产影响因素数据巨大,而这些因素都在不同程度上反映了所研究问
题的某些信息,但实际上所得数据反映的信息在一定程度上存在重复和冗余,因此需要提
供一种画像方法以解决上述问题。

发明内容

[0003] 本发明实施例旨在提供一种数据降维方法、画像构建方法及系统、可读存储介质,以解决现有技术对大规模企业安全生产画像时存在的数据重复和冗余的技术问题。
[0004] 本发明提供一种数据降维方法,包括如下步骤:
[0005] 选择用于实现画像构建的数据样本,所述数据样本隶属于不同系统;
[0006] 确定画像构建维度,构建样本矩阵,所述样本矩阵中的行数等于数据样本的数量,所述样本矩阵的列数等于维度数量;
[0007] 选择任意两个样本矩阵,确定二者的映射关系;
[0008] 根据所述映射关系得到样本矩阵的核函数和核矩阵;
[0009] 根据所述核函数和核矩阵构造拉格朗日函数;
[0010] 根据所述拉格朗日系数得到降维时的投影向量,得到降维后的数据样本。
[0011] 可选地,上述的数据降维方法中,所述选择任意两个样本矩阵,确定二者的映射关系的步骤中,通过以下方法计算映射关系:
[0012] ΦX(X)=(ΦX(X1),...,ΦX(XN));
[0013] ΦY(Y)=(ΦY(Y1),...,ΦY(YN));
[0014] 其中,X、Y为两组样本矩阵,Xp×N=(X1,...XN),Yq×N=(Y1,...,YN);ΦX、ΦY表示作用于X、Y上的变换,变换后为n×N维矩阵;
[0015] p表示样本X中的数据样本量;q表示样本Y中的数据样本量;N表示维度的数量。
[0016] 可选地,上述的数据降维方法中,所述根据所述映射关系得到样本矩阵的核函数和核矩阵的步骤中,通过以下方法计算核函数和核矩阵:
[0017] 核函数K(X,Y)为高斯函数,其表示为:
[0018] KX(i,j)=KX(Xi,Xj)=ΦX(Xi)TΦX(Xj)
[0019] KY(i,j)=KY(Yi,Yj)=ΦY(Yi)TΦY(Yj)
[0020] 其中,X、Y为输入样本对,ΦX、ΦY表示作用于X、Y上的变换。
[0021] 可选地,上述的数据降维方法中,根据所述核函数和核矩阵构造拉格朗日函数的步骤中,通过如下方式构造拉格朗日函数:
[0022]
[0023] 式中,α、β为样本对X、Y的比例系数,λα、λβ为拉格朗日系数,KX、KY为核矩阵;
[0024] 其中,比例系数α、β的计算方式如下:
[0025]
[0026]
[0027] 令λα=λβ=λ代入上式,可得到求解广义特征值的形式,具体如下:
[0028]
[0029] 以上求得比例系数α、β。
[0030] 可选地,根据所述拉格朗日函数求得的比例系数得到降维后的数据样本;
[0031] X′=(α1,α2,...,αk)TXK(X,Y)
[0032] Y′=(β1,β2,...,βk)TYK(X,Y)
[0033] 以上求得降维后的数据样本X′和Y′,实现KCCA方法的数据降维。
[0034] 通过分析降维后的数据样本之间的关联性建立复杂网络模型,所述复杂网络模型为CN模型;计算数据样本中X′和Y′的关联程度,所述关联程度由相关系数衡量:
[0035]
[0036] 式中, 和 分别表示X′和Y′的均值。
[0037] 根据p的大小,筛选出关联程度高于设定值的样本点作为复杂网络中的构造节点I(i1,i2,...,ij),计算任意节点ij的传播能
[0038]
[0039] N(ij)是节点ij的最近邻居节点集, 是节点ij的聚类系数;
[0040] 根据传播能力的大小选择数据作为中心节点,计算中心节点的度,也就是与中心节点有连接的节点的数量:
[0041]
[0042] 根据上述步骤构建CN网络。以上便完成CN-KCCA模型的构建并得到画像结果。
[0043] 本发明还提供一种可读存储介质,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行以上所述的数据降维方法。
[0044] 本发明还提供一种可读存储介质,所述存储介质中存储有程序指令,计算机读取所述存储指令后执行以上所述的画像构建方法。
[0045] 本发明还提供一种数据降维系统,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个处理器读取所述程序指令后执行以上任一项
所述的数据降维方法。
[0046] 本发明还提供一种画像构建系统,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个处理器读取所述程序指令后执行以上所述的
画像构建方法。
[0047] 与现有技术相比,本发明实施例提供的上述技术方案至少具有以下有益效果:
[0048] 本发明提供的数据降维方法、画像构建方法及系统、可读存储介质,其的数据降维方法中,采用如下步骤:(1)确定映射关系ΦX(X)、ΦY(Y);(2)定义核函数K(X,Y)和核矩阵KX、KY;(3)构造拉格朗日函数L(α,β,λα,λβ);(4)计算比例系数α、β;(5)得到降维时的投影向量,从而实现数据降维;(6)得降维后的数据样本X′和Y′;(7)计算样本中X′和Y′的关联程度;(8)计算任意节点的传播能力;(9)计算节点的度,并构建了复杂网络。本发明采用了将复杂网络(CN)与核典型关联分析(KCCA)的方式,融合了二者的优势,弥补了各自的不足之处,采用数据降维等大数据分析方法,剔除了冗余数据,并着重考虑了系统间的关联性。采用本发明提供的以上技术方案,建立企业安全生产画像构建方法是有效的,为我国各企业
调整产业结构、强化监管工作重点提供了准确的分析依据。
附图说明
[0049] 图1为本发明一个实施例所述数据降维方法的流程图
[0050] 图2为本发明一个实施例所述画像构建方法的流程图;
[0051] 图3为本发明一个实施例所述各企业场所的检查次数统计图;
[0052] 图4是本发明一个实施例所述办公区等场所等的执法检查内容关联网络;
[0053] 图5是本发明一个实施例所述库房等场所的执法检查内容关联网络。

具体实施方式

[0054] 下面将结合附图进一步说明本发明实施例。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明的简化描述,而不是指示或暗示所指的装置或组件必需具有特定的方位、以特定的方位构造和操作,因此不能理解为对
本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。其中,术语“第一位置”和“第二位置”为两个不同的位置。
[0055] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个组件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0056] 实施例1
[0057] 本实施例提供一种数据降维方法,如图1所示,包括如下步骤:
[0058] S1:选择用于实现画像构建的数据样本,所述数据样本隶属与不同系统;以北京市所有企业安全生产数据为例,选用的数据样本包括安全生产事故、安全生产隐患、执法检查、行政许可、企业台账等11个系统数据,总共322万条数据记录,其中隐患数据311万条。
[0059] S2:确定画像构建维度,构建样本矩阵,所述样本矩阵中的行数等于数据样本的数量,所述样本矩阵的列数等于维度数量;表1是北京市各企业安全检查次数统计情况,检查记录中全部企业个数为16712家;最高检查记录次数为33次,最少为1次。由表中可以看出检查次数前十名的企业均为工程建筑公司,这说明企业的安全检查次数的多少和公司性质可能存在某种联系。由此,本实施例以北京市各企业的总体状况、区域/街道分布和企业类型三个方面进行画像构建。总体状况包括隐患上报时间统计、隐患密度类型分布等,区域/街道分布包括行业分布、场所面积等,企业类型包括行业类型、从业人数和注册资金等。
[0060] 表1各企业检查次数统计情况
[0061]北京矿建建设集团有限公司 33
北京建筑第八工程局有限公司 29
中建一局集团建设发展有限公司 25
北京八达岭金宸建筑有限公司 24
北京城建集团有限责任公司 24
中石化第四建设有限公司 23
北京市中良实业总公司 21
中建三局集团有限公司 20
北京市建雄建筑集团有限公司 19
北京市农达丰农生产资料有限公司(本部) 19
[0062] S3:选择任意两个样本矩阵,确定二者的映射关系;具体步骤如下:
[0063] 首先,计算ΦX(X)、ΦY(Y):
[0064] ΦX(X)=(ΦX(X1),...,ΦX(XN))=(ΦX(X1),...ΦX(X12));
[0065] ΦY(Y)=(ΦY(Y1),...,ΦY(YN))=(ΦY(Y1),...,ΦY(Y9));
[0066] 其中,X、Y为两组样本矩阵,即Xp×N=(X1,...,XN),Yq×N=(Y1,...,YN),本例中Xp×N=(X1,...XN)包含的数据样本有执法情况总体分布、执法检查影响因素、执法检查工作量、执法检查内容规律等12项,因此此处N=12,Yq×N=(Y1,...,YN)包含的数据样本有隐患分布、自查自报记录、隐患上报系统中的整改情况、举报投诉分布等9项,因此此处N=9。剔除内容为空的记录以后,剩余1478523条数据记录。所以X是1478532×12维矩阵,Y是1478532×9维矩阵。ΦX、ΦY表示作用于X、Y上的变换,变换后均为1478532×10维矩阵。
[0067] S4:根据所述映射关系得到样本矩阵的核函数和核矩阵;具体步骤如下:
[0068] 定义核函数K(X,Y)和核矩阵KX、KY:
[0069] K(X,Y)为高斯函数。
[0070]
[0071]
[0072] 其中,X,Y为输入数据样本,分别为Xp×N=(X1,...,X12)和Yq×N=(Y1,...,Y9),ΦX、ΦY表示作用于X,Y上的变换。
[0073] S5:根据所述核函数和核矩阵构造拉格朗日函数;具体步骤包括:
[0074] 构造拉格朗日函数L(α,β,λα,λβ):
[0075]
[0076] 式中,α、β为样本对X、Y的比例系数,λα、λβ为拉格朗日系数,KX、KY为核矩阵。
[0077] 计算比例系数α、β:
[0078]
[0079]
[0080] 令λα=λβ=λ代入上式,可得到求解广义特征值的形式,具体如下:
[0081]
[0082] 以上求得
[0083] S6:根据所述拉格朗日函数求得的比例系数得到降维后的数据样本;
[0084]
[0085]
[0086] 以上求得降维后的数据样本X′和Y′,实现KCCA方法的数据降维。
[0087] S7:得到降维数据样本X′和Y′后,通过分析数据样本之间的关联性建立复杂网络模型,即CN模型。首先,计算样本中X′和Y′的关联程度,本发明中用相关系数来衡量其关联程度:
[0088]
[0089] 式中, 和 分别表示X′和Y′的均值。本例中, 和 的均值分别为2.58和4.62。
[0090] S8:根据p的大小,筛选出关联程度较高的样本点作为复杂网络中的构造节点I(i1,i2,...,ij),然后计算任意节点ij的传播能力:
[0091]
[0092] N(ij)是节点ij的最近邻居节点集, 是节点ij的聚类系数。本例中设置p的阈值大小为0.6。
[0093] S9:根据传播能力的大小选择数据作为中心节点,计算中心节点的度,也就是与中心节点有连接的节点的数量:
[0094]
[0095] 根据上述步骤构建CN网络。以上便完成CN-KCCA模型的构建并得到画像结果。
[0096] 本实施例提供的上述方案,首先利用核典型关系对数据进行了特征降维,然后利用复杂网络对数据间的关联性进行了分析。实现对企业生产安全数据的精准画像构建。与
现有技术相比,本方案将复杂网络与核典型关联分析相结合,融合了二者的优势,弥补了各自的不足之处,综合采用关联规则挖掘、降维等大数据分析方法,剔除了冗余数据,并着重考虑了系统间的关联性。
[0097] 为了验证本发明对企业安全生产画像构建的精准程度,用本例中的数据进行了实验。根据检查内容规律进行分析,得到的结果如图3-5所示。从图3可以看出会议场所、店铺、办公区等类似区域由于不涉及到危险设备或原材料储存问题,主要是企业人员所处的办公
环境的安全隐患排查,检查次数相对较多。而库房、配电室等可能存在大型设备或者危险设备的区域,可能会有专人值守或轮流看守的情况,检查次数相对较少一些。
[0098] 图4和图5的结果表明会议场所、店铺、办公区等类似区域由于不涉及到危险设备或原材料储存问题,检查重点侧重于安全教育、安全培训、安全隐患等检查项目。而库房、车间、配电室等可能存在大型设备或者危险设备的区域,检查的重点侧重于防护措施、安全出口、防火灭火设备能否正常使用、电线绝缘性是否良好以及是否有专人值守等。实验结果表明本发明建立的企业安全生产画像构建方法是有效的,为我国各企业调整产业结构、强化
监管工作重点提供了准确的分析依据。
[0099] 实施例2
[0100] 本实施例提供一种可读存储介质,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行实施例1所述的数据降维方法或画像构建方法。
[0101] 实施例3
[0102] 本实施例提供一种数据降维系统,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个处理器读取所述程序指令后执行实施例1所
述的数据降维方法或画像构建方法。
[0103] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈