首页 / 专利库 / 人工智能 / 决策逻辑 / 数据分析系统及方法

数据分析系统及方法

阅读:1031发布:2020-08-09

专利汇可以提供数据分析系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种数据分析系统及方法,利用第三方数据平台、智能 人脸识别 以及签到终端、数据接入 服务器 、数据分析服务器等构成的系统,以房型数据为 基础 ,结合 水 电 气消耗情况、外卖情况、 门 禁情况、房屋登记情况该四个方向维度,建立与目标住户的关联关系,并结合逻辑回归的交叉熵损失函数综合历史数据, 迭代 权重参数和截距参数,自动得到精准的数据分析结果,及时发现目标住户,较传统的“登门访查,群众举报” 覆盖 率高,准确性好,也不会因为误报对住户造成干扰。,下面是数据分析系统及方法专利的具体信息内容。

1.一种数据分析系统,包含:
智能识别人脸抓拍设备;
网络硬盘录像机NVR,连接智能识别人脸抓拍设备,存储智能识别人脸抓拍设备拍摄到的录像;
视频管理平台服务器,通过网络硬盘录像机NVR连接智能识别人脸抓拍设备,对智能识别人脸抓拍设备进行管理;
智能签到设备,用于获得刷卡进入数据;
禁数据接入服务器,连接智能签到设备以及图像提取分析平台,门禁数据包含刷卡进入数据、人脸识别进入数据、门铃开门数据、尾随进入数据;
第三方数据接入平台,连接第三方外卖系统、第三方房屋登记信息系统、第三方电气业务系统,其包含外卖数据接入服务器、房屋登记信息接入服务器、水电气接入服务器;
图像提取分析平台,连接视频管理平台服务器,其包含视频接入/转发服务器、人脸业务服务器、人脸大数据引擎、人脸分析引擎以及特征提取服务器,以对录像进行处理得到人脸识别进入数据、门铃开门数据、尾随进入数据;
其特征在于,该系统还包含一数据分析服务器、数据获取模以及预处理模块,所述的数据分析服务器包含第一、二、三、四分析模块、信息融合决策输出模块以及训练模块,其中:
所述的数据获取模块连接门禁数据接入服务器以及第三方数据接入平台,用于获取每一住户的房型数据、水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据;
所述的预处理模块用于根据房型数据换算得到每一住户允许的居室数量,对水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据进行清洗;
所述的第一、二、三、四分析模块分别用于基于每一住户的居室数量,结合水电气消耗量数据计算输出每一住户的第一目标概率、结合外卖数据计算输出每一住户的第二目标概率、结合门禁数据输出每一住户的第三目标概率、结合房屋登记信息数据输出每一住户的第四目标概率;
信息融合决策输出模块,用于通过每一住户的第一、二、三、四目标概率整合调用各个目标概率的权重参数和截距参数计算得出每一住户的综合目标概率并输出;
训练模块,用于不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数。
2.如权利要求1所述的数据分析系统,其特征在于,所述的训练模块用于不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数的具体过程包含:
设定综合目标概率的计算公式如下:
hθ(p,q,r,s)= sigmoid(p* wp +q* wq+r* wr+s* ws+ b)         (1)
式中, hθ(p,q,r,s)表示综合目标概率;p表示第一目标概率;q表示第二目标概率;r表示第三目标概率;s表示第四目标概率;wp,wq,wr,ws分别为给p,q,r,s分配的权重参数;b表示截距用于让目标函数限定在特定范围的一个取值;sigmoid表示指数函数,sigmoid(x)=
1/(1+e-x),式中,e表示自然常数;
设定每一住户的数据分析分类结果判定方法为:
取合适的阈值p_value,若综合目标概率大于阈值p_value则输出1表示分类结果正确,若小于阈值p_value则输出0表示分类结果不正确;
利用交叉熵损失函数逼近得到最终的系统模型,其过程为:
   (2)
式中,J(θ)表示交叉熵损失函数;m表示训练样本的个数;hθ(x)表示基于参数θ和x根据公式(1)的计算值,x表示p,q,r,s,θ代表权重参数wp,wq,wr,ws;y表示原样本中的住户实际检验结果的真实情况;上标(i)表示第i个样本;
利用每个设定周期的不定期查询的住户数据分析分类结果判定数据的个数取得m;根据实际检验结果的真实情况分别标记是为1,否为0得到y,将y代入公式(2)计算求和得到含有权重参数与截距参数wp,wq,wr,ws,b的交叉熵,利用梯度下降动态更新权重参数和截距参数,使得交叉熵最小,得到逼近理想的判定结果的权重参数和截距参数。
3.如权利要求1所述的数据分析系统,其特征在于:
所述的第一分析模块通过建立历史统计水电气的高中低词典,根据水电气消耗量数据,计算一第一时间范围内每一住户中平均一个居室的水、电、气消耗量,并按照统计度量得到每个住户的水电气的高中低消耗情况,以水电气的高中低词典为量化标准,输出每一住户水电气的高中低消耗情况相应的第一目标概率;
所述的按照统计度量得到每一住户的水电气消耗量的高中低情况指:按照偏离标准差程度或者上分位下分位占比的方式将每个住户的水、电、气消耗情况分别设为高、一般、低三种程度,共27种不同组合的水电气、高中低消耗情况,每一住户对应其中一种水电气的高中低消耗情况;
所述的以水电气的高中低词典为量化标准,输出每一住户水电气消耗量相应的第一目标概率指:根据住户的水电气的高中低消耗情况,从水电气的高中低词典中查找出相同情况历史住户,计算该相同情况历史住户数中检验出确实为目标住户的概率,将该概率作为该住户水电气的高中低消耗情况相应的第一目标概率。
4.如权利要求1所述的数据分析系统,其特征在于:
当任一分析模块所分析的数据不齐全的情况下,设相应的概率值为默认值。
5.如权利要求1所述的数据分析系统,其特征在于:
所述的第二分析模块根据外卖数据,计算一第二时间范围内每一住户中平均一个居室的外卖人数,根据预设的第一概率值表,输出每一住户外卖人数相应的第二目标概率;
所述的第二时间范围为节假日;
所述的第二分析模块选取外卖数据中高频次的外卖次数作为分析依据。
6.如权利要求1所述的数据分析系统,其特征在于:
所述的第三分析模块根据门禁数据,通过计算一第三时间范围内每个分段时间中与每一住户紧密关联的出入人脸数来得到相应各个分段时间中每一住户中平均一个居室的关联人数,以任一分段时间内关联人数超过标准的情况记为一次,得到该第三时间范围内关联人数的总超过次数,根据预设的第二概率值表,输出每一住户关联人数的总超过次数相应的第三目标概率;
所述的第三分析模块采用聚类法对每一分段时间中每一户住户的门禁数据中的人脸出入次数分别进行归类,得到该分段时间内出入最多的紧密关联的人脸数。
7.如权利要求1所述的数据分析系统,其特征在于,所述的图像提取分析平台中:
视频接入/转发服务器从视频管理平台服务器获取录像;
人脸分析引擎用于对录像中的图像进行人脸检测并确定人脸在图像中的大小和位置
人脸业务服务器用于将人脸区域从图像中裁剪出来;
特征提取服务器用于通过对裁剪出来的人脸区域进行多关键点的相似变换以获得标准化的人脸图像;
人脸大数据引擎用于通过人脸识别算法对标准化的人脸图像进行特征建模以得到向量化的人脸特征,并通过分类器判别得到人脸识别结果。
8.一种数据分析方法,采用如权利要求1所述的数据分析系统来实现,其特征在于,包含以下步骤:
获取每一住户的房型数据、水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据;
根据房型数据换算得到每一住户允许的居室数量,对水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据进行清洗;
基于每一住户的居室数量,结合水电气消耗量数据计算输出每一住户的第一目标概率、结合外卖数据计算输出每一住户的第二目标概率、结合门禁数据输出每一住户的第三目标概率、结合房屋登记信息数据输出每一住户的第四目标概率;
通过每一住户的第一、二、三、四目标概率整合调用各个目标概率的权重参数和截距参数计算得出每一住户的综合目标概率并输出;
不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数。
9.如权利要求8所述的数据分析方法,其特征在于:不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数的具体过程包含:
设定综合目标概率的计算公式如下:
hθ(p,q,r,s)= sigmoid(p* wp +q* wq+r* wr+s* ws+ b)         (1)
式中,hθ(p,q,r,s)表示综合目标概率;p表示第一目标概率;q表示第二目标概率;r表示第三目标概率;s表示第四目标概率;wp,wq,wr,ws分别为给p,q,r,s分配的权重参数;b表示截距用于让目标函数限定在特定范围的一个取值;sigmoid表示指数函数,sigmoid(x)=1/(1+e-x),式中,e表示自然常数;
设定每一住户的数据分析分类结果判定方法为:
取合适的阈值p_value,若综合目标概率大于阈值p_value则输出1表示分类结果正确,若小于阈值p_value则输出0表示分类结果不正确;
利用交叉熵损失函数逼近得到最终的系统模型,其过程为:
               (2)
式中,J(θ)表示交叉熵损失函数;m表示训练样本的个数;hθ(x)表示基于参数θ和x根据公式(1)的计算值,x表示p,q,r,s,θ代表权重参数wp,wq,wr,ws;y表示原样本中的住户实际检验结果的真实情况;上角标(i)表示第i个样本;
利用每个设定周期的不定期查询的住户数据分析分类结果判定数据的个数取得m;根据实际检验结果的真实情况分别标记是为1,否为0得到y,将y代入公式(2)计算求和得到含有权重参数与截距参数wp,wq,wr,ws  , b的交叉熵,利用梯度下降动态更新权重参数和截距参数,使得交叉熵最小,得到逼近理想的判定结果的权重参数和截距参数。

说明书全文

数据分析系统及方法

技术领域

[0001] 本发明涉及数据统计和计算机软件技术领域,具体涉及一种数据分析系统及方法。

背景技术

[0002] 随着中国社会经济的快速发展和城市化进程的加快,越来越多的人口流入以上海为首的大都市,随着人口的急剧增加,给城市治安管理带来越来越多的挑战,例如出租环境参差不齐,小区内进行传销活动,借用出租屋参赌聚赌等,都给居民小区带来越来越多的安全隐患,对包括周边住户在内的社会治安产生潜在的险。
[0003] 目前,街道、社区、政府方面也都意识到相关问题,通过一些手段方法加大对上述现象的识别、监控及处置,为了将隐患请出小区,传统的是通过街道物业的登访查全面排摸,以及群众举报等等人工的排查手段来完成,但限于人成本及公民隐私权利保护,对目标住户的排查效率、识别率上没有达到可观效果,其结果就是虽然耗用了很多人力,覆盖范围却依然有限,准确率也不高。
[0004] 随着智慧城市相关理念落地,相关方面对社区住户家庭拥有越来越多的公用数据,结合目标住户的一些历史特征,我们对目标住户有越来越多的识别依据,如住户的定期电气消耗数据,房型,外卖情况,门禁信息,登记人口相关信息。
[0005] 因此,如何科学的利用上述数据,高效的定位出目标住户,以实时、有效的对小区情况进行识别和监控,从而减少因为误报对住户造成的干扰,成为落实智慧城市的首要任务。

发明内容

[0006] 本发明的目的在于提供一种数据分析系统及方法,以房型数据为基础结合水电气消耗情况、外卖情况、门禁情况、房屋登记情况该四个方向维度,建立与住户的关联关系,并综合历史数据,训练出有效分析模型,从而科学的判断出目标住户。
[0007] 为了达到上述目的,本发明通过以下技术方案实现:
[0008] 一种数据分析系统,包含:
[0009] 智能识别人脸抓拍设备;
[0010] 网络硬盘录像机NVR,连接智能识别人脸抓拍设备,存储智能识别人脸抓拍设备拍摄到的录像;
[0011] 视频管理平台服务器,通过网络硬盘录像机NVR连接智能识别人脸抓拍设备,对智能识别人脸抓拍设备进行管理;
[0012] 智能签到设备,用于获得刷卡进入数据;
[0013] 门禁数据接入服务器,连接智能签到设备以及图像提取分析平台,门禁数据包含刷卡进入数据、人脸识别进入数据、门铃开门数据、尾随进入数据;
[0014] 第三方数据接入平台,连接第三方外卖系统、第三方房屋登记信息系统、第三方水电气业务系统,其包含外卖数据接入服务器、房屋登记信息接入服务器、水电气接入服务器;
[0015] 图像提取分析平台,连接视频管理平台服务器,其包含视频接入/转发服务器、人脸业务服务器、人脸大数据引擎、人脸分析引擎以及特征提取服务器,以对录像进行处理得到人脸识别进入数据、门铃开门数据、尾随进入数据;
[0016] 其特征在于,该系统还包含一数据分析服务器、数据获取模以及预处理模块,所述的数据分析服务器包含第一、二、三、四分析模块、信息融合决策输出模块以及训练模块,其中:
[0017] 所述的数据获取模块连接门禁数据接入服务器以及第三方数据接入平台,用于获取每一住户的房型数据、水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据;
[0018] 所述的预处理模块用于根据房型数据换算得到每一住户允许的居室数量,对水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据进行清洗;;
[0019] 所述的第一、二、三、四分析模块分别用于基于每一住户的居室数量,结合水电气消耗量数据计算输出每一住户的第一目标概率、结合外卖数据计算输出每一住户的第二目标概率、结合门禁数据输出每一住户的第三目标概率、结合房屋登记信息数据输出每一住户的第四目标概率;
[0020] 信息融合决策输出模块,用于通过每一住户的第一、二、三、四目标概率整合调用各个目标概率的权重参数和截距参数计算得出每一住户的综合目标概率并输出;
[0021] 训练模块,用于不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数。
[0022] 上述的数据分析系统,其中,所述的训练模块用于不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数的具体过程包含:
[0023] 设定综合目标概率的计算公式如下:
[0024] hθ(p,q,r,s)= sigmoid(p* wp +q* wq+r* wr+s* ws+ b)             (1)[0025] 式中,hθ(p,q,r,s)表示综合目标概率;p表示第一目标概率;q表示第二目标概率;r表示第三目标概率;s表示第四目标概率;wp,wq,wr,ws分别为给p,q,r,s分配的权重参数;b表示截距用于让目标函数限定在特定范围的一个取值;sigmoid表示指数函数, sigmoid(x)=1/(1+e-x),式中,e表示自然常数;
[0026] 设定每一住户的数据分析分类结果判定方法为:
[0027] 取合适的阈值p_value,若综合目标概率大于阈值p_value的结果则输出1表示分类结果正确,若小于阈值p_value的结果则输出0表示分类结果不正确;
[0028] 利用交叉熵损失函数逼近得到最终的系统模型,其过程为:
[0029]                 (2)
[0030] 式中, J(θ)表示交叉熵损失函数; m表示训练样本的个数; hθ(x)表示基于参数θ和x根据公式(1)的计算值,x表示p,q,r,s,θ代表权重参数wp,wq,wr,ws;y表示原样本中的住户实际检验结果的真实情况;上标(i)表示第i个样本;
[0031] 利用每个设定周期的不定期查询的住户数据分析分类结果判定数据的个数取得m;根据实际检验结果的真实情况分别标记是为1,否为0得到y,将y代入公式(2)计算求和得到含有权重参数与截距参数wp,wq,wr,ws  ,b的交叉熵,利用梯度下降动态更新权重参数和截距参数,使得交叉熵最小,得到逼近理想的判定结果的权重参数和截距参数。
[0032] 上述的数据分析系统,其中:
[0033] 所述的第一分析模块通过建立历史统计水电气、高中低词典,根据水电气消耗量数据,计算一第一时间范围内每一住户中平均一个居室的水、电、气消耗量,并按照统计度量得到每个住户的水电气、高中低消耗情况,以水电气、高中低词典为量化标准,输出每一住户水电气、高中低消耗情况相应的第一目标概率;
[0034] 所述的按照统计度量得到每一住户的水电气消耗量的高中低情况指:按照偏离标准差程度或者上分位下分位占比的方式将每个住户的水、电、气消耗情况分别设为高、一般、低三种程度,共27种不同组合的水电气、高中低消耗情况,每一住户对应其中一种水电气、高中低消耗情况;
[0035] 所述的以水电气、高中低词典为量化标准,输出每一住户水电气消耗量相应的第一目标概率指:根据住户的水电气、高中低消耗情况,从水电气、高中低词典中查找出相同情况历史住户,计算该情况历史住户数中检验出确实为目标住户的概率,将该概率作为该住户水电气、高中低消耗情况相应的第一目标概率。
[0036] 上述的数据分析系统,其中:
[0037] 当任一分析模块所分析的数据不齐全的情况下,设相应的概率值为默认值。
[0038] 上述的数据分析系统,其中:
[0039] 所述的第二分析模块根据外卖数据,计算一第二时间范围内每一住户中平均一个居室的外卖人数,根据预设的第一概率值表,输出每一住户外卖人数相应的第二目标概率;
[0040] 所述的第二时间范围为节假日;
[0041] 所述的第二分析模块选取外卖数据中高频次的外卖次数作为分析依据。
[0042] 上述的数据分析系统,其中:
[0043] 所述的第三分析模块根据门禁数据,通过计算一第三时间范围内每个分段时间中与每一住户紧密关联的出入人脸数来得到相应各个分段时间中每一住户中平均一个居室的关联人数,以任一分段时间内关联人数超过标准的情况记为一次,得到该第三时间范围内关联人数的总超过次数,根据预设的第二概率值表,输出每一住户关联人数的总超过次数相应的第三目标概率;
[0044] 所述的第三分析模块采用聚类法对每一分段时间中每一户住户的门禁数据中的人脸出入次数分别进行归类,得到该分段时间内出入最多的紧密关联的人脸数。
[0045] 上述的数据分析系统,其中,所述的图像提取分析平台中:
[0046] 视频接入/转发服务器从视频管理平台服务器获取录像;
[0047] 人脸分析引擎用于对录像中的图像进行人脸检测并确定人脸在图像中的大小和位置
[0048] 人脸业务服务器用于将人脸区域从图像中裁剪出来;
[0049] 特征提取服务器用于通过对裁剪出来的人脸区域进行多关键点的相似变换以获得标准化的人脸图像;
[0050] 人脸大数据引擎用于通过人脸识别算法对标准化的人脸图像进行特征建模以得到向量化的人脸特征,并通过分类器判别得到人脸识别结果。
[0051] 一种数据分析方法,采用上述的数据分析系统来实现,其特征是,包含以下步骤:
[0052] 获取每一住户的房型数据、水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据;
[0053] 根据房型数据换算得到每一住户允许的居室数量,对水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据进行清洗;;
[0054] 基于每一住户的居室数量,结合水电气消耗量数据计算输出每一住户的第一目标概率、结合外卖数据计算输出每一住户的第二目标概率、结合门禁数据输出每一住户的第三目标概率、结合房屋登记信息数据输出每一住户的第四目标概率;
[0055] 通过每一住户的第一、二、三、四目标概率整合调用各个目标概率的权重参数和截距参数计算得出每一住户的综合目标概率并输出;
[0056] 不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数。
[0057] 上述的数据分析方法,其中:所述的不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数的具体过程包含:
[0058] 设定综合目标概率的计算公式如下:
[0059] hθ(p,q,r,s)= sigmoid(p* wp +q* wq+r* wr+s* ws+ b)           (1)[0060] 式中,hθ(p,q,r,s)表示综合目标概率;p表示第一目标概率;q表示第二目标概率;r表示第三目标概率;s表示第四目标概率; wp,wq,wr,ws分别为给p,q,r,s分配的权重参数;
b表示截距用于让目标函数限定在特定范围的一个取值;sigmoid表示指数函数,sigmoid(x)=1/(1+e-x),式中,e表示自然常数;
[0061] 设定每一住户的数据分析分类结果判定方法为:
[0062] 取合适的阈值p_value,若综合目标概率大于阈值p_value的结果则输出1表示分类结果正确,若小于阈值p_value的结果则输出0表示分类结果不正确;
[0063] 利用交叉熵损失函数逼近得到最终的系统模型,其过程为:
[0064]             (2)
[0065] 式中, J(θ)表示交叉熵损失函数; m表示训练样本的个数;hθ(x)表示基于参数θ和x根据公式(1)的计算值,x表示p,q,r,s,θ代表权重参数wp,wq,wr,ws;y表示原样本中的住户实际检验结果的真实情况;上角标(i)表示第i个样本;
[0066] 利用每个设定周期的不定期查询的住户数据分析分类结果判定数据的个数取得m;根据实际检验结果的真实情况分别标记是为1,否为0得到y,将y代入公式(2)计算求和得到含有权重参数与截距参数wp,wq,wr,ws  ,b 的交叉熵,利用梯度下降动态更新权重参数和截距参数,使得交叉熵最小,得到逼近理想的判定结果的权重参数和截距参数。
[0067] 本发明与现有技术相比具有以下优点:
[0068] 1、以房型数据为基础,结合水电气消耗情况、外卖情况、门禁情况、房屋登记情况该四个方向维度,建立与目标住户的关联关系,并综合历史数据,及时发现目标住户,可以有效查处包含群租/传销/赌博等在内的违法住户行为,较传统的“登门访查,群众举报”覆盖率高,准确性好,也不会因为误报对住户造成干扰;
[0069] 2、对每一类情况与已发现的目标历史住户信息进行参数传入,验证,迭代,调整阈值,修正模型,结合实际情形,得到更精确的数据分析系统。附图说明
[0070] 图1为本发明实施例中的多维数据来源图;
[0071] 图2为本发明的系统框图
[0072] 图3为本发明实施例中的原始住户水电气数据以及相应的允许居室数量的表;
[0073] 图4为本发明实施例中的经过第一分析模块计算后的每一住户的平均每一居室水电气消耗情况表;
[0074] 图5为本发明实施例中的根据每一住户的平均每一居室、高中低消耗情况表;
[0075] 图6为本发明的实施例中的系统优化方法流程图
[0076] 图7为本发明实施例中系统实现的硬件架构图。

具体实施方式

[0077] 以下结合附图,通过详细说明一个较佳的具体实施例,对本发明做进一步阐述。
[0078] 如图2、7所示,本发明公开了一种数据分析系统,包含:智能识别人脸抓拍设备;网络硬盘录像机NVR,连接智能识别人脸抓拍设备,存储智能识别人脸抓拍设备拍摄到的录像;视频管理平台服务器,通过网络硬盘录像机NVR连接智能识别人脸抓拍设备,对智能识别人脸抓拍设备进行管理;智能签到设备,用于获得刷卡进入数据;门禁数据接入服务器,连接智能签到设备以及图像提取分析平台,门禁数据包含刷卡进入数据、人脸识别进入数据、门铃开门数据、尾随进入数据;第三方数据接入平台,连接第三方外卖系统、第三方房屋登记信息系统、第三方水电气业务系统,其包含外卖数据接入服务器、房屋登记信息接入服务器、水电气接入服务器;图像提取分析平台,连接视频管理平台服务器,其包含视频接入/转发服务器、人脸业务服务器、人脸大数据引擎、人脸分析引擎以及特征提取服务器,以对录像进行处理得到人脸识别进入数据、门铃开门数据、尾随进入数据;数据分析服务器、数据获取模块1以及预处理模块2,所述的数据分析服务器包含第一、二、三、四分析模块3、4、5、6、信息融合决策输出模块7以及训练模块8,其中:
[0079] 所述的数据获取模块1连接门禁数据接入服务器、第三方数据接入平台及图像提取分析平台,用于获取每一住户的房型数据、水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据;
[0080] 所述的预处理模块2用于根据房型数据换算得到每一住户允许的居室数量,对水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据进行清洗;
[0081] 所述的第一、二、三、四分析模块3、4、5、6分别用于基于每一住户的居室数量,结合水电气消耗量数据计算输出每一住户的第一目标概率、结合外卖数据计算输出每一住户的第二目标概率、结合门禁数据输出每一住户的第三目标概率、结合房屋登记信息数据输出每一住户的第四目标概率;
[0082] 所述的信息融合决策输出模块7用于通过每一住户的第一、二、三、四目标概率整合调用各个目标概率的权重参数和截距参数计算得出每一住户的综合目标概率并输出;
[0083] 所述的训练模块8用于不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数。
[0084] 本发明以房型数据为基础,结合水电气消耗情况、外卖情况、门禁情况、房屋登记情况该四个方向维度,建立与目标住户的关联关系,并综合历史数据,及时发现目标住户,可以有效查处包含群租/传销/赌博等在内的违法住户行为,较传统的“登门访查,群众举报”覆盖率高,准确性好,也不会因为误报对住户造成干扰。
[0085] 具体的,所述的数据获取模块1用于获取如图1所示的每一住户的房型数据(必备的基础数据,如:二室一厅,三室一厅,三室)、水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据;
[0086] 预处理模块2用于根据房型数据换算得到每一住户允许的居室数量,对水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据进行清洗;本预处理模块2对获取数据的来源准确性、处理过程要有管控,并且标准化作业最终达到数据的可信性、可用性,可信性包括精确性、完整性、一致性、有效性、唯一性,数据清洗主要通过标准化(数值化),归一化,降维相关操作来实现,主要包括对残缺数据,错误数据,重复数据的处理。所述的第一分析模块3用于建立历史统计水电气、高中低词典,根据水电气消耗量数据,计算一第一时间(比如一年)范围内每一住户中平均一个居室的水、电、气消耗量,并按照统计度量得到每个住户的水电气、高中低消耗情况,以水电气、高中低词典为量化标准,输出每一住户水电气、高中低消耗情况相应的第一目标概率。具体的:所述的按照统计度量得到每一住户的水电气消耗量的高中低情况指:按照偏离标准差程度或者上分位下分位占比的方式将每个住户的水、电、气消耗情况分别设为高、一般、低三种程度,例如,水低,水一般,水高,电低,电一般,电高,气低,气一般,气高,然后根据水电气,高,一般,低的不同组合情况,即共27种不同组合的水电气、高中低消耗情况,每一住户对应其中一种水电气、高中低消耗情况;所述的以水电气、高中低词典为量化标准,输出每一住户水电气消耗量相应的第一目标概率指:根据住户的水电气、高中低消耗情况,从水电气、高中低词典中查找出相同情况历史住户,计算该情况历史住户数中检验出确实为目标住户的概率,将该概率作为该住户水电气、高中低消耗情况相应的第一目标概率。
[0087] 所述的第二分析模块4用于根据外卖数据,计算一第二时间范围内每一住户中平均一个居室的外卖人数,根据预设的第一概率值表(包含外卖人数与目标住户的概率值对应关系),输出每一住户外卖人数相应的第二目标概率;
[0088] 所述的第三分析模块5用于根据门禁数据,通过计算一第三时间范围内每个分段时间中与每一住户紧密关联的出入人脸数来得到相应各个分段时间中每一住户中平均一个居室的关联人数,以任一分段时间内关联人数超过标准的情况记为一次,得到该第三时间范围内关联人数的总超过次数,根据预设的第二概率值表(包含总超过次数与目标住户的概率值对应关系),输出每一住户关联人数的总超过次数相应的第三目标概率;例如,门禁通常人脸识别进入,刷卡进入,门铃(电话拨入)开门,尾随进入,对每个房间关联到的人脸,次数进行统计,用聚类方法对次数进行归类,再对应到卧室数量可以得到每个房间每个月出入最多的几张人脸,比如一个人对一个房间每个月关联度有六十次左右(每天出入各一次,另外考虑到视频识别准确性,可以分别给种多出入门方式赋予不同的权重)我们认为与该住户的紧密关联,大概率是住在这个住户内,这样得到一个住户关联到的人数。再与其中的房型数据(允许居室数量)进行换算,如果这个住户是几室几厅,超过几人算群组,关联频数多于这个数据认为是目标住户,由于数据量比较多,可以考虑一些典型时间段出入分析,依照一段时间内超过次数对每一住户赋予不同的目标概率;
[0089] 所述的第四分析模块6用于根据房屋登记信息数据,包括户在人在、户在人不在、户不在人在的数量及每住户的房屋信息,房主信息,通过判定登记人口与实际居住人口是否一致了解是房间出租房还是自住房,历史住房情况,若是出租房的话是否有目标历史查处记录,结合房型数据,目前居住情况,以“是出租房有目标查处记录”、“是出租房无查处记录”、“自住房”、“房东不详”这四种情况对每一住户进行分类,根据预设的第三概率值表(包含四种分类情况与目标住户的概率值对应关系),输出每一住户情况相应的第四目标概率;
[0090] 在某些实施例中,可能存在四个维度数据的缺失,因此当任一上述分析模块所分析的对应维度数据不齐全的情况下,可设相应的概率值为默认值,默认值可以为均值或者根据条件概率设置最大似然估计的值。
[0091] 所述的不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数的具体过程包含:
[0092] 设定综合目标概率的计算公式如下:
[0093] hθ(p,q,r,s)= sigmoid(p* wp +q* wq+r* wr+s* ws+ b)             (1)[0094] 式中,hθ(p,q,r,s)表示综合目标概率; p表示第一目标概率;q表示第二目标概率; r表示第三目标概率;s表示第四目标概率; wp,wq,wr,ws分别为给p,q,r,s分配的权重参数;b表示截距用于让目标函数限定在特定范围的一个取值;sigmoid表示指数函数, sigmoid(x)=1/(1+e-x),式中,e表示自然常数;
[0095] 设定每一住户的数据分析分类结果判定方法为:
[0096] 取合适的阈值p_value,若综合目标概率大于阈值p_value的结果则输出1表示分类结果正确,若小于阈值p_value的结果则输出0表示分类结果不正确;
[0097] 利用交叉熵损失函数逼近得到最终的系统模型,其过程为:
[0098]              (2)
[0099] 式中, J(θ)表示交叉熵损失函数;m表示训练样本的个数;hθ(x)表示基于参数θ和x根据公式(1)的计算值, x表示p,q,r,s,θ代表权重参数wp,wq,wr,ws;y表示原样本中的住户实际检验结果的真实情况;上角标(i)表示第i个样本;
[0100] 利用每个设定周期的不定期查询的住户数据分析分类结果判定数据的个数取得m;根据实际检验结果的真实情况分别标记是为1,否为0得到y,将y代入公式(2)计算求和得到含有权重参数与截距参数wp,wq,wr,ws,b 的交叉熵,利用梯度下降动态更新权重参数和截距参数,使得交叉熵最小,得到逼近理想的判定结果的权重参数和截距参数。
[0101] 所述的图像提取分析平台主要运用了人脸识别技术采取OpenCv技术框架进行人脸特征计算,利用深度学习中的检测算法,对获取的人脸高维(512维)特征进行融合计算输出其相似度,通过控制设置阈值,对超过阈值的标记为同一类,进行迭代验证选取合适的阈值。具体的,视频接入/转发服务器从视频管理平台服务器获取录像;人脸分析引擎用于对录像中的图像进行人脸检测并确定人脸在图像中的大小和位置;人脸业务服务器用于将人脸区域从图像中裁剪出来;特征提取服务器用于通过对裁剪出来的人脸区域进行多关键点(基准点,如眼角,鼻尖,嘴角等)的相似变换(Similarity Transform,旋转、缩放和平移)以获得标准化的人脸图像;人脸大数据引擎用于通过人脸识别算法对标准化的人脸图像进行特征建模以得到向量化的人脸特征,并通过分类器判别得到人脸识别结果,所述的人脸识别算法引擎要通过练习(训练)得到类似这样的有区分度的特征。
[0102] 本发明还提出了一种数据分析方法,其包含:
[0103] 获取每一住户的房型数据、水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据;根据房型数据换算得到每一住户允许的居室数量;
[0104] 分别基于每一住户的居室数量,结合水电气消耗量数据计算输出每一住户的第一目标概率、结合外卖数据计算输出每一住户的第二目标概率、结合门禁数据输出每一住户的第三目标概率、结合房屋登记信息数据输出每一住户的第四目标概率;
[0105] 通过每一住户的第一、二、三、四目标概率整合调用各个目标概率的权重参数和截距参数计算得出每一住户的综合目标概率并输出;
[0106] 不定期查询得到多个住户的综合目标概率与实际检验结果,结合逻辑回归的交叉熵损失函数,迭代权重参数和截距参数,得出最终系统模型,并更新权重参数和截距参数。
[0107] 实施例一
[0108] 以下将结合一个较佳的实施例说明本发明技术方案的一个具体实施过程,该例中以群租住户为数据分析的目标住户:
[0109] 如图6所示,从一片智慧小区住户的信息中提取得到每一住户的房型数据、水电气消耗量数据、外卖数据、门禁数据、房屋登记信息数据;
[0110] 如图3 5所示,对每一住户依照月份根据水电气类别,计算每一居室的平均水电气~数据作为该住户的水电气数据,依照某种统计量进行度量(比如偏离标准差程度2倍记为高,小于均值两倍标准差记为低,其余是中,或者上分位10%记为高,下分位10%记为低,其余为中,依照水电气类别不同,参数可调),这样得到了形如101水高电中气低,102水高电低气中,再根据得到的一些群租历史数据,如历史已经查询的1000户数据中,修正后得到数据水高电中气低共计有50户被查出是群租的有10户,这样对101住户记为p1(水高电中气低)=
0.2,同样地,如果有10户水高电低气中,被查处是群租的有一户,这样对住户102记为p(2 水高电低气中)=0.1,针对水电气的高中低组合一共可能有p1,p2……p27共27种输出概率可能;这样我们对每住户的水电气的高中低消耗水平都有一个第一目标概率p=pi输出,i=1~N,N=27。当然,如果没有历史数据,我们根据经验设置值或者默认相同的值,比如默认水电气用的比较多比用的少的有大的群租概率,后面根据获得的数据慢慢修正概率;
[0111] 依照获取的外卖数据,按照一段时间,比如一个月每户出现的外卖姓名/手机号种类,再与该住户允许居室数量相除,得到该住户平均一居室出现的外卖次数,比如201住户一个月出现的外卖姓名/手机号种类共8个,但实际是二室一厅(对应的允许居室数量为2),这样201住户输出4,如果认为每个居室出现超过2个人是群租的话,考虑异常情形,我们可以把201户的记为0.9,记为q1,若小于2的记为0.1,记为q2;对每一户可以输出第二群租概率q=q1或q2;
[0112] 考虑出入门禁数据的各种情况,目前有四种出入门禁情形:人脸识别进入,刷卡进入,门铃(电话拨入)开门,尾随进入。 对每一种出入门禁分别计其频数,比如301住户一个月内有:人脸识别的a1计m1次, a2计m2次,刷卡的有a1计m3次,a4计m4次,门铃进入,尾随进入分别有a1,a2,a3……若干,每个人出入房间也会有多种方式,这样房间301分别对a1,a2,a3……分别有出入合计次数x1,x2,x3……比如假定一个人每天出入房间301各一次,一个月大概有60次出入次数,考虑异常情况,我们把大于50次记为301房间的住户,这样比如有10个人符合要求,实际是三室一厅,大于居室人均2人的要求,根据第二概率值表大于2群租概率为0.9,小于2,群租概率为0.1,我们可以把301户的记为0.9,记为r1作为群租概率r输出,若小于2的记为0.1,记为r2作为群租概率r输出;对每一住户可以输出概率r;
[0113] 根据房屋登记信息数据获得房屋管理相关数据,到每住户的房主信息,家庭信息,是出租房还是自住房,还有房型数据,依据“是出租房有群租查处记录”,“是出租房无群租查处记录”, “房东不详”,”自住房”等分类分别对住户设为群租概率s1,s2,s3,s4,形如0.8,0.6,0.4,0.2,比如401房间是查看到相关信息是“房东不详”输出群租概率s =s3=0.4;
[0114] 利用下述综合群租概率计算公式计算每一住户的综合群租概率:
[0115] hθ(p,q,r,s)= sigmoid(p* wp +q* wq+r* wr+s* ws+ b)             (1)[0116] 式中,hθ(p,q,r,s)表示综合群租概率;p表示第一群租概率;q表示第二群租概率;r表示第三群租概率;s表示第四群租概率; wp,wq,wr,ws分别为给p,q,r,s分配的权重参数,该权重参数根据后续不断的训练迭代以达到最优;b表示截距用于让目标函数限定在特定范围的一个取值,较佳的,取值在0 1之间;sigmoid表示指数函数, sigmoid(x)=1/(1+e-x),~
式中,e表示自然常数;
[0117] 判断每一住户的群租分类结果:
[0118] 取合适的阈值p_value,例如取0.5,若综合群租概率大于阈值0.5则输出1表示分类结果是群租,若小于阈值0.5则输出0表示分类结果不是群租;
[0119] 利用交叉熵损失函数逼近系统模型,具体的:
[0120]          (2)
[0121] 式中, J(θ)表示交叉熵损失函数; m表示训练样本的个数;hθ(x)表示用参数θ和x预测出来的计算值,x表示p,q,r,s,θ代表权重参数wp,wq,wr,ws; y表示原样本中的住户实际检验(通过人工排查)的群租与否情况;上角标(i)表示第i个样本;
[0122] 利用每个设定周期的不定期查询的住户群租判定结果数据的个数取得m;根据实际检验的群租与否情况分别标记群租为1,非群租为0得到y,将y即实际检验的群租与否情况代入公式(2)计算求和得到含有权重参数与截距参数wp,wq,wr,ws  ,b的交叉熵,利用梯度下降动态更新权重参数和截距参数,使得交叉熵最小,得到逼近理想的群租判定结果的权重参数和截距参数。
[0123] 本实施例中, 所述的交叉熵推导具体如下:
[0124] 具体执行过程中,一般意义下的交叉熵损失函数,代价函数可以标记为:
[0125] Loss function:     ,式中, 表示预测值;
[0126] Cost function:  ;
[0127] 本实施例中 ,y的值是真实检测值y(i), 是凸优化的,运用梯度下降法能找到全局最优值。我们的目标是使得代价函数最小,而代价函数是若干个损失函数的算术平均。对于y的值,真实值只有0,1分别表示非群组,群租。
[0128] If  y=1,  ,要使 较小,即 越大越好;
[0129] If  y=0,  ,要使 较小,即 越小越好;
[0130] 逻辑上即,预测值越接近真实值越准确。而用梯度下降法就是要找到使得最小时对应的参数值wp,wq,wr,ws,b记为w,b;
[0131] 在逻辑回归的梯度下降法中,
[0132] 令z = wTx+b,其中wT =( wp,wq,wr,ws),x=(p,q,r,s)T,b是截距,z、wT均为中间变量。
[0133] Sigmoid: ,则 ;
[0134] 记 ,则h=a(1-a);
[0135] ;
[0136] 再对每个参数wp,wq,wr,ws求导:
[0137] ;
[0138] 同理, wq,wr,ws都得到对应的值,记:
[0139] ,式中,R表示实数空间;
[0140] ;
[0141] , ;
[0142] ;
[0143] ;
[0144] 然后计算: 通过梯度下降法,就可以逼近到真实的群租模型的参数值wp,wq,wr,ws,b。
[0145] 尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈