首页 / 专利库 / 资料储存系统 / 数据仓库 / 基于大数据分析的政务推荐方法及包含该方法的系统

基于大数据分析的政务推荐方法及包含该方法的系统

阅读:436发布:2020-05-11

专利汇可以提供基于大数据分析的政务推荐方法及包含该方法的系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 大数据 分析的政务推荐方法及推荐系统,其采用SVD++法,以ALS作为矩阵 降维 方法,融合基于企业属性和基于事务属性的推荐结果实现优化,构建混合推荐系统。并且本发明以国内南方某城市的实际数据,对多种 算法 的查全率和查准率进行对比分析,计算MSE和RMSE等指标验证了系统的有效性。,下面是基于大数据分析的政务推荐方法及包含该方法的系统专利的具体信息内容。

1.一种基于大数据分析的政务推荐方法,其特征在于包含以下步骤:
Step1:采集行政业务数据,建立企业-政务事项矩阵A;
Step2:采用企业特征矩阵U(i*k)和政务事项特征矩阵V(j*k)的乘积来近似所述企业-政务事项矩阵A:A≈UVT,求解预测矩阵A(i*j),A(i*j)表示i个企业对j个政务事项的办理情况,企业特征矩阵U(i*k)中的第i个企业的特征向量ui,和政务事项特征矩阵V(j*k)第j个事务的特征向量vj,预测矩阵A(i*j)中的aij的影响因数包括
Step3:根据所述预测矩阵A(i*j)获得第一推荐结果,进行推荐结果排序;
Step4:将排序后的推荐结果推送至用户。
2.如权利要求1所述的一种基于大数据分析的政务推荐方法,其特征在于:所述预测矩阵A(i*j)中的aij,的影响因数还包括企业的参考因素bi,某些事项的参考因素bj及全局均值μ。
3.如权利要求2所述的一种基于大数据分析的政务推荐方法,其特征在于:影响因数中包含隐式反馈, 其中N(i)表示企业i的行为事
项集,yj表示事项v被办理集合的隐式反馈。
4.如权利要求3所述的一种基于大数据分析的政务推荐方法,其特征在于:还包括局部强关系数据抽取,并根据企业属性获得第二推荐及基于政务事项获得第三推荐,所述第一推荐、第二推荐及第三推荐混合排序。
5.如权利要求4所述的一种基于大数据分析的政务推荐方法,其特征在于:所述第二推荐根据企业相似度获得,根据企业之间的相似度找出与待推荐的企业最为相似的几个企业,并根据他们办理事项的情况向待推荐企业推荐其可能会办理的事务。
6.如权利要求5所述的一种基于大数据分析的政务推荐方法,其特征在于:所述企业相似度根据 获得,其中N(u)为企业u办理事项,N(v)为企业v办理的事项,wuv为企业相似度。
7.如权利要求4所述的一种基于大数据分析的政务推荐方法,其特征在于:所述第三推荐根据政务事项属性获得,根据外资事项的办理结果,为相关的企业推荐可能办理的事项。
8.如权利要求1-7任意一项所述的一种基于大数据分析的政务推荐方法,其特征在于:
企业特征矩阵U(i*k)和政务事项特征矩阵V(j*k)中的k取值范围为10-300。
9.如权利要求1-7任意一项所述的一种基于大数据分析的政务推荐方法,其特征在于:
企业i办理的政务事项j的次数作为企业对政务事项j的一次投票,办理该政务事项j的累积值为企业-政务事项矩阵A中元素aij的对应值。
10.一种政务推荐系统,包括行政业务数据库数据仓库及应用服务器,其特征在于:提取并清洗转换所述行政业务数据库数据,数据综合存储于所述数据仓库,所述数据仓库将清洗转换后的行政业务数据输入所述应用服务器,所述应用服务器包含执行程序,所述执行程序能够执行权利要求1-9任意一项所述的基于大数据分析的政务推荐方法。

说明书全文

基于大数据分析的政务推荐方法及包含该方法的系统

技术领域

[0001] 本发明涉及一种大数据分析系统,尤其涉及一种基于大数据分析的政务推荐方法及其系统。

背景技术

[0002] 数字政府是指在现代政务治理理论与信息通信技术(Information and Communication Technology,ICT)等支撑下,政府机构日常办公、信息收集与发布、公共管理等事务在数字化、网络化的环境下进行的国家行政管理形式[1],而电子政务是数字政府生态体系的重要组成部分。电子政务是指国家机关在政务活动中,全面应用现代ICT技术等进行办公、管理和为社会提供公共服务的一种全新的管理模式[2],属于一种广义电子商务的创新系统与应用。电子政务包含三个方面的内容,政府间电子政务(Government to Government,G2G)、政府-公民间电子政务(Government to Customer,G2C)、政府-商业机构间电子政务(Government to Business,G2B)。因此,利用信息技术改进政府工作及服务的效率,形成新的工作方式,这已成为各国政府所关心的问题。数字政府建设,目标是推动政务数据的融合汇聚,为政务系统和应用提供数据支撑,促进政务信息共享和业务流程优化协同,开发便捷的“互联网+政务服务”应用,不断优化营商环境。优化营商环境的重要方面是积极推动G2B的服务优化升级。
[0003] 在传统的政务服务过程中,企业在办理政务事项时时常忘记办理或者需要多方咨询才能掌握如何办理。办理过程中发现资料未准备齐全的情况时有发生,导致反复多次沟通才能办结一件事项。在数字政府建设的背景下,为了提高政务办理效率,优化营商环境,在汇聚大量企业办理事项数据的基础上,根据企业历史行为记录,采用适应于G2B业务场景的推荐算法,构建政务服务于企业的推荐系统,为企业推送个性化的业务办理事项,成为一个重要的研究课题。
[0004] 当今主流的推荐系统可以分为三大类方法:基于协同过滤的方法、基于内容过滤的方法,以及结合前两者的混合推荐方法。协同过滤的方法包括基于用户(user-based)的协同过滤和基于物品(item-based)的协同过滤。基于用户的协同过滤是面向主体的推荐,基于物品的协同过滤是面向客体的推荐。在具有强相关关系的背景下,协同推荐有重要的价值。
[0005] 基于用户的协同过滤和基于物品的协同过滤,在某些应用场景中由于有千万级的用户和物品,因此会造成数据的稀疏,由于紧邻的相关数据缺失,导致部分推荐结果无法计算。因此发展了数据稀疏环境下基于用户主题偏好的协同过滤算法、基于灰色关联聚类的协同过滤推荐算法和基于模型的协同过滤算法。基于模型的过滤算法包括:奇异值分解(SVD)、贝叶斯网络、基于聚类的方法和神经网络推荐算法等。
[0006] 近年来许多学者提出将隐语义模型应用于推荐系统,其核心是通过降维求相似矩阵,再进一步计算推荐结果。矩阵分解是隐语义模型采用的一种方法,传统的矩阵分解模型是SVD。一般而言,推荐系统中的评分矩阵是非常稀疏的,如MovieLens100K和MovieLens1M数据集中分别有93%和95%的评分项缺失,Netflix数据集评分缺失项更高达99%。如果先做矩阵补全,评分矩阵就会成为稠密矩阵,从而使评分矩阵的存储需要非常大的空间。这种空间需求在实际系统中不能被接受,从而失去在大规模应用系统中的价值。因此许多学者提出了SVD的改进算法,解决实际问题,谢瑶瑶等提出ASVD,Funk提出Funk-SVD。Funk-SVD也被称为隐语义模型的SVD++,其采用梯度下降或者ALS实现矩阵的降维。
[0007] 通过文献回顾可以发现,以往关于G2B推荐的研究其主要目的是促成企业之间的合作,是在数字政府建设的背景下,通过技术使各业务系统数据实现了汇聚,但忽略了政府的内部业务数据及行为信息。并且以往的系统更多地站在了政府的度上,考虑的是与企业间建立合作关系,而忽视了企业的实际需求。企业急需在纷杂的数据中快速地、准确地寻找适合其办理的政务事项,并提交管理者决策,从而提高企业的管理效率、办事效率。

发明内容

[0008] 为了克服现有技术的不足,本发明提供一种基于大数据分析的政务推荐系统,采用基于SVD的推荐方法,实现企业办理事项的推荐提醒。本发明的目的采用以下技术方案实现:
[0009] 一种基于大数据分析的政务推荐方法,包含以下步骤:
[0010] Step1:采集行政业务数据,建立企业-政务事项矩阵A;
[0011] Step2:采用企业特征矩阵U(i*k)和政务事项特征矩阵V(j*k)的乘积来近似所述企业-政务事项矩阵A:A≈UVT,求解预测矩阵A(i*j),A(i*j)表示i个企业对j个政务事项的办理情况,企业特征矩阵U(i*k)中的第i个企业的特征向量ui,和政务事项特征矩阵V(j*k)第j个事务的特征向量vj,预测矩阵A(i*j)中的aij的影响因数包括
[0012] Step3:根据所述预测矩阵A(i*j)获得第一推荐结果,进行推荐结果排序;
[0013] Step4:将排序后的推荐结果推送至用户。
[0014] 进一步地,所述预测矩阵A(i*j)中的aij,的影响因数还包括企业的参考因素bi,某些事项的参考因素bj及全局均值μ。
[0015] 进一步地,影响因数 中包含隐式反馈,其中N(i)表示企业i的行为事项集,yj表示事项v被办理集合的隐式反馈。
[0016] 进一步地,还包括局部强关系数据抽取,并根据企业属性获得第二推荐及基于政务事项获得第三推荐,所述第一推荐、第二推荐及第三推荐混合排序。
[0017] 进一步地,所述第二推荐根据企业相似度获得,根据企业之间的相似度找出与待推荐的企业最为相似的几个企业,并根据他们办理事项的情况向待推荐企业推荐其可能会办理的事务。
[0018] 进一步地,所述企业相似度根据 获得,其中N(u)为企业u办理事项,N(v)为企业v办理的事项,wuv为企业相似度。
[0019] 进一步地,所述第三推荐根据政务事项属性获得,根据外资事项的办理结果,为相关的企业推荐可能办理的事项。
[0020] 进一步地,企业特征矩阵U(i*k)和政务事项特征矩阵V(j*k)中的k取值范围为10-300。
[0021] 进一步地,企业i办理的政务事项j的次数作为企业对政务事项j的一次投票,办理该政务事项j的累积值为企业-政务事项矩阵A中元素aij的对应值。
[0022] 本发明还提供了一种政务推荐系统,包括行政业务数据库数据仓库及应用服务器,其特征在于:提取并清洗转换所述行政业务数据库数据,数据综合存储于所述数据仓库,所述数据仓库将清洗转换后的行政业务数据输入所述应用服务器,所述应用服务器包含执行程序,所述执行程序能够执行上述基于大数据分析的政务推荐方法。
[0023] 在G2B场景下,业务系统中记录了大量企业办理业务的数据,同时政务事项种类繁多。基于企业属性和基于事项属性的推荐准确性较高,但是由于政务数据的稀疏性将导致大量企业无法计算出推荐结果。本发明采用SVD推荐方法解决政务系统的G2B推荐问题,实现企业办理事项的推荐提醒。附图说明
[0024] 图1为本发明的推荐系统逻辑流程图
[0025] 图2为本发明的推荐系统流程架构图。

具体实施方式

[0026] 下面,结合附图以及具体实施方式,对本发明做进一步描述:
[0027] 在汇聚了多个政府部的政务系统数据后,政务事项和办理企业名称构成了一个完整的矩阵,企业办理的次数被认为对该政务事项的一次投票。因此构成了企业和政务事项的矩阵如A(i*j),表1所示。
[0028] 表1企业-政务事项矩阵
[0029]
[0030] 矩阵A(i*j),表示i个企业对j个政务事项的办理情况。其中,A(i,j)表示企业与政务事项关联性,如果办理次数越多,表示该企业与该政务事项关系越紧密。但是,企业不可能办理所有的政务事项,如表1中,“?”表示企业没有办理该业务,所以这个矩阵很多元素都是空的,称为“缺失值”(missing value),整个矩阵称为稀疏矩阵。在推荐系统中,必须计算出企业办理所有业务的可能性,预测出企业是否会办理各项业务,办理该项业务的可能性。这个过程被称为“补全矩阵”。在“补全矩阵”的过程中,采用ALS(alternating least squares)交替最小二乘法,实现分解矩阵的计算。假设A是近似低秩的,也就是矩阵A可以用两个小矩阵U(i*k)和V(j*k)的成绩来近似:A≈UVT,k<自由度从o(i*j)降到了o((i+j)*k)。对矩阵进行降维,同时确保矩阵不失真,通过计算ALS分解模型损失函数的最优解min(C)进行实现。企业特征矩阵U(i*k)中的第i个企业的特征向量ui,和政务事项特征矩阵V(j*k)第j个事务的特征向量vj,预测矩阵A(i*j)中的aij。
[0031] 矩阵A可以用两个小矩阵U(i*k)和V(j*k)的乘积来近似:A≈UVT。其中将U(i*k)称为企业特征矩阵,将V(j*k)称为政务事项特征矩阵。企业特征矩阵U(i*k)中的第i个企业的特征向量ui,和政务事项特征矩阵V(j*k)第j个事务的特征向量vj,预测矩阵A(i*j)中的aij。维度k的值会影响矩阵分解的性能,越大则算法运行的时间和占用的内存空间可能会越多。一般可以取10-300之间的数。
[0032] 在进一步优化的技术方案中,矩阵分解可以灵活地加入各种影响评分的因素,本发明引入“偏差”参考因素。从行为数据中可知,相比于其他企业,个别企业办理的事项偏多或偏少。相比于某些事务,个别事务被办理的频率偏高或偏低。因此用 来定义完整评分是有缺陷的,修正的评分=办事得分+“偏差”。如公式(1)。
[0033]
[0034] 其中bi表示企业的参考因素,bj表示对某些事项的参考因素,μ表示全局均值。
[0035] 以上分析都只是考虑了显性因素,为了更加精准地补全“缺失值”,在SVD的基础上增加企业的行为、事项所包含的隐式反馈,即SVD++,其表达式如(2)
[0036]
[0037] 其中,N(i)表示企业u的行为事项集,yj表示事项v被办理集合的隐式反馈。
[0038] 不可否认地,基于企业属性和基于事项属性的推荐准确性较高,在SVD++进行整体推荐计算的基础上,还必须考虑某些事项是专门为某一类企业提供的,如外商、外资的专项事务,推荐给外资企业时,必须根据这个强相关关系进行“优化”。本发明采用上文提及的SVD++作为推荐系统核心模,再抽取属性强相关的数据,进行基于企业属性与事务属性的协同推荐(附图1)。
[0039] 在进一步的优化方案中,根据企业属性如(国企、外企)等进行局部相关性计算推荐结果。基于企业属性的协同过滤推荐算法主要分为三步:第一步,在数据源中,筛选出具有局部强关系的子数据集合;第二步,求出企业之间的相似度;第三步,根据企业之间的相似度找出与待推荐的企业最为相似的几个企业,并根据他们办理事项的情况向待推荐企业推荐其可能会办理的事务。企业相似性计算公式如(3)所示:
[0040]
[0041] 其中,N(u)为企业u办理事项,N(v)为企业v办理的事项。再进一步对企业可能办理事项进行评分计算,进而推荐可能办理的事项。以上是基于企业的协同推荐,同理可以实现基于事项的协同推荐。根据政务事项的属性,如涉外资的专门事项等,可以根据外资事项的办理结果,为相关的企业推荐可能办理的事项。根据基于企业和基于事务的推荐结果,对SVD++的计算结果重新排序,生成新的推荐结果。
[0042] 为了实现G2B推荐系统,需要以上述算法为基础构建数据汇聚、数据预处理,数据建模和分析的综合集成系统。推荐系统的流程架构分四部分,一是业务数据库,二是数据汇聚的数据仓库,三是数据建模和分析推荐模块,数据推送应用。G2B推荐系统的流程如图2所示。
[0043] 政务推荐系统包括以下模块:(1)多维数据源。业务数据涉及多个政务单位,包括行政审批局、建设局、环保局、安全管理局、国土资源和规划局等,同时这些行政单位都有大量相关的政务事项,企业在各个单位办理行政事务时,在系统中都沉淀了大量的数据,这些数据构成了G2B推荐系统的原始数据。(2)数据汇聚。汇聚的数据是原始数据,存在无效数据、格式不对称等情况。因此还必须对数据进行清洗、装载和转换。(3)多维数据分析。根据业务数据的特征和分析需求的导向,采用混合额推荐系统进行数据的分析。(4)分析结果推送。采用短信方式快速推送。在短信中植入链接,企业人员在收到短信后可以通过链接,打开政务服务系统了解更详细的信息。假如企业人员认为推荐信息不准确,可以反馈企业的推荐需求,形成信息流的有效闭环。
[0044] 本发明还提供了以上方法及系统的具体实施例。本发明的系统通过与某市国家高新区签订保密合同,从其数据中心的业务数据库中调取2017年~2018年的业务数据,包括行政审批局、建设局、环保局、安全管理局等25家行政单位,相关政务事项共491件。企业办理事务数据记录共37123条。
[0045] 根据推荐系统流程,表2的初始数据进行ETL进入数据仓库后,构建分析矩阵。抽取初始数据中事项名称、企业名称,分别对这两个字段进行编号。构建企业-政务事项矩阵,共计5274家企业办理了相关的政务事务,政务事务数为491,因此构成矩阵A(5274*491),矩阵A可以用两个小矩阵U(i*k)和V(j*k)的乘积来近似:A≈UVT。其中维度k的值会影响矩阵分解的性能,越大则算法运行的时间和占用的内存空间可能会越多。一般可以取10-300之间的数,为了确保分析的准确性,本案例k取值为300。为了确保矩阵不失真,同时保证计算的效率,ALS迭代次数设置为10。
[0046] 在数据进行正式运算前对数据作离差标准化处理,实现对原始数据的线性变化。政务事项的推荐系统是TopN计算,通过计算为每个企业推荐3个有可能的政务事项,在此基础上,进行基于企业属性的优化和基于政务事项的优化。其中外资企业之间具有相关关系,根据外资企业办理事项的情况进行基于企业的推荐,数据中共1078家企业,占总企业数的
21%,办理各事项总数4032,采用开源软件mahout作为计算的框架,相似性度量采用皮尔逊相关系数算法,推荐部分结果如下表2。
[0047] 表2基于企业属性部分推荐结果
[0048]
[0049] 同时,政务事项中有30项是专门提供给外资企业的,共有208个企业办理了这30个事务,共计441次。虽然数据量较小,但是由于涉外事务有强的相关性,因此其计算结果优先级最高。采用mahout进行基于事务的推荐,采用广义Jaccard系数度量相似性,推荐结果如表3。
[0050] 表3基于政务事项推荐结果
[0051]
[0052]
[0053] 根据推荐相关性,基于事项的推荐结果优先级最高,基于企业属性的推荐结果次之,SVD++计算的结果优先级最低,进而对外资企业的推荐结果优化排序。如外商独资企业丝(广州)包装材料有限公司其在SVD++的推荐结果是(1)建设项目环境影响评价文件审批(2)施工图设计文件审查备案(3)建筑工程施工许可证核发。基于事项的推荐结果是外商投资企业审批(变更-章程),基于企业属性的推荐结果是排污申报与排污费征收,那么推荐结果优化排序是依次(1)外商投资企业审批(变更-章程),(2)排污申报与排污费征收,(3)建设项目环境影响评价文件审批,(4)施工图设计文件审查备案(5)建筑工程施工许可证核发。在采用SVD++的基础上增加基于企业属性和基于事务属性的推荐优化,可以有效提升推荐结果的准确性。
[0054] 政务推荐系统的测评方法包含三个方面,一是多种推荐系统计算结果对比。二是评分预测进行结果测评。
[0055] 本发明对基于企业的推荐、基于事项推荐、基于SVD的推荐和基于SVD++的推荐结果进行比较,原始数据随机抽取90%作为训练数据,抽取10%的数据,作为检验数据,以验证结合企业推荐和事项推荐的SVD++算法做为核心推荐算法是合适的。具体如表4所示表4各种推荐算法效率比较
[0056]
[0057] 其中召回率和查准率越高,表明算法越有效,差均值评价越低越好。从表4中,可以发现基于企业的推荐和基于事项的推荐,其中召回率和查准率相对于SlopeOne、KNN、SVD、SVD++都高很多。由于矩阵的稀疏性基于企业的推荐和基于事项的推荐,存在部分企业无法计算结果的情况,而SVD++通过降维的方式,基本实现了所有企业推荐但是其结果准确度较低,因此把这三种方法结合起来,实现了结果的互补和优化。结合企业的推荐、事项推荐和SVD++的推荐,是一种多种算法结合的混合推荐,是把多个计算结果进行合并和优化排序。通过召回率、查准率和差均值评价三个维度对比,说明本文所采用的算法是合理有效的。
[0058] 评分预测进行结果测评,推荐结果的检验,除了性能指标的对比外,还必须对模型的MSE和RMSE进行评价,MSE(Mean Squared Error)可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。采用模型预测的值 与系统初始数据yi相减,求得模型的MSE为0.6088,RMSE(Root Mean Squared Error)是0.7802,MSE与RMSE的值足够小。通过以上分析MSE与RMSE指标能较好地说明该推荐系统基本有效,在本发明场景中对于政务事项的推荐效果是准确可接受的。
[0059] 对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈