首页 / 专利库 / 人工智能 / 文本字符串 / 一种基于大数据和深度学习的知识推介方法及系统

一种基于大数据深度学习的知识推介方法及系统

阅读:29发布:2020-05-11

专利汇可以提供一种基于大数据深度学习的知识推介方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 大数据 和 深度学习 的知识推介方法及系统,方法包括:根据场景数据信息进行场景分析;采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像;根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集;根据知识推介集进行知识推介;系统包括场景分析模 块 、运维人员画像生成模块、知识选取模块和知识推介模块。本发明综合了场景分析的结果和运维人员画像来进行知识选取和知识推介,从实时使用场景和使用用户这二个维度提升了知识推荐的准确率;采用了深度学习的方法来对运维人员的操作行为等数据信息进行学习,使得运维人员画像越来越准确。本发明可广泛应用于计算机应用领域。,下面是一种基于大数据深度学习的知识推介方法及系统专利的具体信息内容。

1.一种基于大数据深度学习的知识推介方法,其特征在于:包括以下步骤:
根据场景数据信息进行场景分析;
采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像;
根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集;
根据知识推介集进行知识推介;
所述采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像这一步
骤,其包括:
进行运维人员数据信息采集,所述运维人员数据信息包括从运维人员账号注册的信息
中获取的数据和实时采集的运维人员的操作行为数据;
对采集的运维人员数据信息进行数据清洗;
对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维
人员模型训练,得到运维人员画像;
根据运维人员画像进行运维人员与知识标签间的相似度计算,得到运维人员-知识相
似度;
所述根据运维人员画像进行运维人员与知识标签间的相似度计算,得到运维人员-知
识相似度这一步骤,其包括:
根据运维人员画像进行名称相似度计算,所述名称相似度的计算公式为:
其中,Sname(U,C)为运维人员画像中概念U与知
识标签中概念C间的名称相似度,ui(1≤i≤n)为概念U中名称u的字符串语义分词结果,cj(1≤j≤m)为概念C中名称c的字符串语义分词结果,n为概念U中名称u的字符串总数,m为概念C中名称c的字符串总数,Sim(ui,cj)为ui与cj间的相似度;
根据运维人员画像进行属性相似度计算,所述属性相似度计算公式为:
其中,Sattri(U,C)
为运维人员画像中概念U与知识标签中概念C间的属性相似度,Ua和Ca分别表示U和C的属性集,f为给定的非负度量函数,Ua∩Ca表示U和C这两个概念中拥有相同属性的集合,Ua-Ca表示只是运维人员画像中有而知识标签中没有的属性集,Ca-Ua表示只是知识标签中有而运维人员画像中没有的属性集,λ和μ均为给定的权重系数;
根据运维人员画像进行实例相似度计算,所述实例相似度计算公式为:
其中,Sinst(U,C)为运维人员画像中概念U
与知识标签中概念C间的实例相似度,P(U,C)表示从实例空间随机抽取的一个实例同时从属于概念U和C的概率, 表示从实例空间随机抽取的一个实例只属于概念U而不属
于概念C的概率, 表示从实例空间随机抽取的一个实例只属于概念C而不属于概念U
的概率;
根据运维人员画像进行关系相似度计算,得到运维人员画像中概念U与知识标签中概
念C间的关系相似度Srelat(U,C),其中,关系包括同义关系、继承关系和包含关系,同义关系的权重大于继承关系的权重,且同义关系的权重大于包含关系的权重;
根据名称相似度Sname(U,C)、属性相似度Sattri(U,C)、实例相似度Sinst(U,C)和关系相似度Srelat(U,C)计算运维人员-知识相似度,所述运维人员-知识相似度Sim(U,C)的计算公式为:Sim(U,C)=αSname(U,C)+βSattri(U,C)+εSinst(U,C)+δSrelat(U,C),其中,α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。
2.根据权利要求1所述的一种基于大数据和深度学习的知识推介方法,其特征在于:所述根据场景数据信息进行场景分析这一步骤,其包括:
进行场景数据信息实时采集,获取当前运维人员操作的场景数据;
对获取的场景数据进行数据清洗;
对数据清洗后的场景数据进行实时场景分析和打标签操作,得到场景标记。
3.根据权利要求1所述的一种基于大数据和深度学习的知识推介方法,其特征在于:所述对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练,得到运维人员画像这一步骤,其包括:
进行文本建模,从而将数据清洗后的运维人员数据信息划分为静态信息数据和动态信
息数据;
根据文本建模的要求对给定的训练样本进行弱模型训练,得到多个弱模型;
对多个弱模型采用Boosting方法进行准确性提升,得到运维人员模型的结果分类器;
对运维人员模型的结果分类器采用给定的测试样本进行模型验证;
对通过模型验证后的运维人员模型进行保存,并实时获取数据清洗后的新运维人员数
据信息来不断修正运维人员模型和对应的运维人员画像。
4.根据权利要求1所述的一种基于大数据和深度学习的知识推介方法,其特征在于:所述根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集这一步骤,其包括:
根据运维人员画像检索运维人员特性,并结合运维人员画像计算运维相似知识集;
根据场景分析的结果实时获取场景特性,并根据场景特性计算场景相似知识集;
判断场景相似知识集与运维相似知识集是否有交集,若是,则根据交集形成推介知识
集,反之,则重新获取场景特性,并重新训练运维人员模型来得到新运维人员画像。
5.根据权利要求1所述的一种基于大数据和深度学习的知识推介方法,其特征在于:所述根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集这一步骤,其包括:
对运维人员进行用户场景检索,所述用户场景Um包含场景u,且 其
中,UT为全量用户场景;
采用设定的相似度计算方法计算出与用户场景Um相似的知识场景并进行排序,得到相
似场景集Cn: 其中,Um≈Cu表示运维人员的用户场景
Um与知识场景Cu相似,∧为交集符号,CT为全量知识场景集;
检索给定的场景知识关系模型OR,得到含场景Cn的知识-场景关系对Pi,j:
其中,PT为全量知识-场景关系对,Ci为知识场景,R1
为场景Ci的属性, 表示Pi,j通过R1与Ci相连;
D
检索给定的知识领域集O ,得到含有与Pi,j相关联的领域知识集Dk:
其中,DT为全量知识领域,R2为领域知识Dk的属性,
表示Pi,j通过R2与Dk相连;
从全量领域知识推介集 中得到知识推介集KS:
6.一种基于大数据和深度学习的知识推介系统,其特征在于:包括:
场景分析模,用于根据场景数据信息进行场景分析;
运维人员画像生成模块,用于采用深度学习的方法对运维人员数据信息进行处理,生
成运维人员画像;
知识选取模块,用于根据场景分析的结果和运维人员画像进行知识选取,得到知识推
介集;
知识推介模块,用于根据知识推介集进行知识推介;
所述运维人员画像生成模块包括:
信息采集单元,用于进行运维人员数据信息采集,所述运维人员数据信息包括从运维
人员账号注册的信息中获取的数据和实时采集的运维人员的操作行为数据;
数据清洗单元,用于对采集的运维人员数据信息进行数据清洗;
模型训练单元,用于对数据清洗后的运维人员数据信息采用融合弱模型训练和
Boosting的方法进行运维人员模型训练,得到运维人员画像;
相似度计算单元,用于根据运维人员画像进行运维人员与知识标签间的相似度计算,
得到运维人员-知识相似度;
所述相似度计算单元包括:
名称相似度计算子单元,用于根据运维人员画像进行名称相似度计算,所述名称相似
度的计算公式为: 其中,Sname(U,C)为运维人员
画像中概念U与知识标签中概念C间的名称相似度,ui(1≤i≤n)为概念U中名称u的字符串语义分词结果,cj(1≤j≤m)为概念C中名称c的字符串语义分词结果,n为概念U中名称u的字符串总数,m为概念C中名称c的字符串总数,Sim(ui,cj)为ui与cj间的相似度;
属性相似度计算子单元,用于根据运维人员画像进行属性相似度计算,所述属性相似
度计算公式为: 其
中,Sattri(U,C)为运维人员画像中概念U与知识标签中概念C间的属性相似度,Ua和Ca分别表示U和C的属性集,f为给定的非负度量函数,Ua∩Ca表示U和C这两个概念中拥有相同属性的集合,Ua-Ca表示只是运维人员画像中有而知识标签中没有的属性集,Ca-Ua表示只是知识标签中有而运维人员画像中没有的属性集,λ和μ均为给定的权重系数;
实例相似度计算子单元,用于根据运维人员画像进行实例相似度计算,所述实例相似
度计算公式为: 其中,Sinst(U,C)为运维人
员画像中概念U与知识标签中概念C间的实例相似度,P(U,C)表示从实例空间随机抽取的一个实例同时从属于概念U和C的概率, 表示从实例空间随机抽取的一个实例只属于
概念U而不属于概念C的概率, 表示从实例空间随机抽取的一个实例只属于概念C而
不属于概念U的概率;
关系相似度计算子单元,用于根据运维人员画像进行关系相似度计算,得到运维人员
画像中概念U与知识标签中概念C间的关系相似度Srelat(U,C),其中,关系包括同义关系、继承关系和包含关系,同义关系的权重大于继承关系的权重,且同义关系的权重大于包含关系的权重;
运维人员-知识相似度计算子单元,用于根据名称相似度Sname(U,C)、属性相似度Sattri(U,C)、实例相似度Sinst(U,C)和关系相似度Srelat(U,C)计算运维人员-知识相似度,所述运维人员-知识相似度Sim(U,C)的计算公式为:Sim(U,C)=αSname(U,C)+βSattri(U,C)+εSinst(U,C)+δSrelat(U,C),其中,α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。

说明书全文

一种基于大数据深度学习的知识推介方法及系统

技术领域

[0001] 本发明涉及计算机应用领域,尤其是一种基于大数据和深度学习的知识推介方法及系统。

背景技术

[0002] 在知识经济到来的今天,知识已被企业提升到战略资源的位置,企业采用知识管理势在必行。随着业务系统越来越庞大、业务逻辑越来越复杂、系统变更越来越频繁、工作要求越来越高,在业务支撑网运营管理工作的难度也越来越大。通过建设内容丰富和人人参与的统一知识库,可达到为企业建立知识上传和下达的渠道、打造学习型业务支撑团队、助公司长期可持续健康发展的目的。
[0003] 知识管理(KM,Knowledge Management)是网络新经济时代的新兴管理思潮与方法,管理学者彼得.杜拉克早在一九六五年即预言:“知识将取代土地、劳动、资本与机器设备,成为最重要的生产因素。”受到20世纪90年代的信息化(资讯化)蓬勃发展影响,知识管理的观念结合网际网络构建的入口网站数据库以及应用电脑软件系统等工具,成为累积知识财富,创造更多竞争力的新世纪利器。
[0004] 所谓的知识管理,其定义为:在组织中建构一个人文与技术兼备的知识系统,让组织中的信息与知识,透过获得、创造、分享、整合、记录、存取、更新等过程,达到知识不断创新的最终目的,并回馈到知识系统中,个人与组织的知识得以永不间断的累积,从系统的度进行思考这将成为组织的智慧资本,有助于企业做出正确的决策,以适应市场的变迁。
[0005] 在知识管理中,关于知识如何应用也成为其中一个很重要的课题。目前对知识的应用,以人工检索和目录树展示为主,这些应用方式均需要较多的人力和时间投入,并且准确率不高。知识推介技术的出现使得知识的获取方式由“搜索”变为“推荐”,解决了该问题。
[0006] 目前已有部分知识应用会针对“流程”或者“场所”进行分析,并根据分析结果进行知识的推荐。这种方式与人工检索和目录树展示的方式相比,不仅在人力和时间投入上大大减少,而且还能提高知识推荐的准确率。然而,这种方式未能考虑知识应用的使用用户(如知识运维人员等)这一关键信息,准确率未够理想。同时,这种方式也无法不断进行学习和自我修正以适应不断变化的情况,随着时间的推移,其准确率会越来越低。

发明内容

[0007] 为解决上述技术问题,本发明的目的在于:提供一种准确率高的,基于大数据和深度学习的知识推介方法。
[0008] 本发明的另一目的在于:提供一种准确率高的,基于大数据和深度学习的知识推介系统。
[0009] 本发明所采取的技术方案是:
[0010] 一种基于大数据和深度学习的知识推介方法,包括以下步骤:
[0011] 根据场景数据信息进行场景分析;
[0012] 采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像;
[0013] 根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集;
[0014] 根据知识推介集进行知识推介。
[0015] 进一步,所述根据场景数据信息进行场景分析这一步骤,其包括:
[0016] 进行场景数据信息实时采集,获取当前运维人员操作的场景数据;
[0017] 对获取的场景数据进行数据清洗;
[0018] 对数据清洗后的场景数据进行实时场景分析和打标签操作,得到场景标记。
[0019] 进一步,所述采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像这一步骤,其包括:
[0020] 进行运维人员数据信息采集,所述运维人员数据信息包括从运维人员账号注册的信息中获取的数据和实时采集的运维人员的操作行为数据;
[0021] 对采集的运维人员数据信息进行数据清洗;
[0022] 对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练,得到运维人员画像;
[0023] 根据运维人员画像进行运维人员与知识标签间的相似度计算,得到运维人员-知识相似度。
[0024] 进一步,所述对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练,得到运维人员画像这一步骤,其包括:
[0025] 进行文本建模,从而将数据清洗后的运维人员数据信息划分为静态信息数据和动态信息数据;
[0026] 根据文本建模的要求对给定的训练样本进行弱模型训练,得到多个弱模型;
[0027] 对多个弱模型采用Boosting方法进行准确性提升,得到运维人员模型的结果分类器;
[0028] 对运维人员模型的结果分类器采用给定的测试样本进行模型验证;
[0029] 对通过模型验证后的运维人员模型进行保存,并实时获取数据清洗后的新运维人员数据信息来不断修正运维人员模型和对应的运维人员画像。
[0030] 进一步,所述根据运维人员画像进行运维人员与知识标签间的相似度计算,得到运维人员-知识相似度这一步骤,其包括:
[0031] 根据运维人员画像进行名称相似度计算,所述名称相似度的计算公式为:其中,Sname(U,C)为运维人员画像中概念U与知
识标签中概念C间的名称相似度,ui(1≤i≤n)为概念U中名称u的字符串语义分词结果,cj(1≤j≤m)为概念C中名称c的字符串语义分词结果,n为概念U中名称u的字符串总数,m为概念C中名称c的字符串总数,Sim(ui,cj)为ui与cj间的相似度;
[0032] 根据运维人员画像进行属性相似度计算,所述属性相似度计算公式为:其中,Sattri(U,C)
为运维人员画像中概念U与知识标签中概念C间的属性相似度,Ua和Ca分别表示U和C的属性集,f为给定的非负度量函数,Ua∩Ca表示U和C这两个概念中拥有相同属性的集合,Ua-Ca表示只是运维人员画像中有而知识标签中没有的属性集,Ca-Ua表示只是知识标签中有而运维人员画像中没有的属性集,λ和μ均为给定的权重系数;
[0033] 根据运维人员画像进行实例相似度计算,所述实例相似度计算公式为:其中,Sinst(U,C)为运维人员画像中概念U
与知识标签中概念C间的实例相似度,P(U,C)表示从实例空间随机抽取的一个实例同时从属于概念U和C的概率, 表示从实例空间随机抽取的一个实例只属于概念U而不属
于概念C的概率, 表示从实例空间随机抽取的一个实例只属于概念C而不属于概念U
的概率;
[0034] 根据运维人员画像进行关系相似度计算,得到运维人员画像中概念U与知识标签中概念C间的关系相似度Srelat(U,C),其中,关系包括同义关系、继承关系和包含关系,同义关系的权重大于继承关系的权重,且同义关系的权重大于包含关系的权重;
[0035] 根据名称相似度Sname(U,C)、属性相似度Sattri(U,C)、实例相似度Sinst(U,C)和关系相似度Srelat(U,C)计算运维人员-知识相似度,所述运维人员-知识相似度Sim(U,C)的计算公式为:Sim(U,C)=αSname(U,C)+βSattri(U,C)+εSinst(U,C)+δSrelat(U,C),其中,α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。
[0036] 进一步,所述根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集这一步骤,其包括:
[0037] 根据运维人员画像检索运维人员特性,并结合运维人员画像计算运维相似知识集;
[0038] 根据场景分析的结果实时获取场景特性,并根据场景特性计算场景相似知识集;
[0039] 判断场景相似知识集与运维相似知识集是否有交集,若是,则根据交集形成推介知识集,反之,则重新获取场景特性,并重新训练运维人员模型来得到新运维人员画像。
[0040] 进一步,所述根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集这一步骤,其包括:
[0041] 对运维人员进行用户场景检索,所述用户场景Um包含场景u ,且其中,UT为全量用户场景;
[0042] 采用设定的相似度计算方法计算出与用户场景Um相似的知识场景并进行排序,得到相似场景集Cn: 其中,Um≈Cu表示运维人员的用户场景Um与知识场景Cu相似,∧为交集符号,CT为全量知识场景集;
[0043] 检索给定的场景知识关系模型OR,得到含场景Cn的知识-场景关系对Pi,j:其中,PT为全量知识-场景关系对,Ci为知识场景,R1
为场景Ci的属性, 表示Pi,j通过R1与Ci相连;
[0044] 检索给定的知识领域集OD,得到含有与Pi,j相关联的领域知识集Dk:其中,DT为全量知识领域,R2为领域知识Dk的属性,
表示Pi,j通过R2与Dk相连;
[0045] 从全量领域知识推介集 中得到知识推介集KS:
[0046] 本发明所采取的另一技术方案是:
[0047] 一种基于大数据和深度学习的知识推介系统,包括:
[0048] 场景分析模,用于根据场景数据信息进行场景分析;
[0049] 运维人员画像生成模块,用于采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像;
[0050] 知识选取模块,用于根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集;
[0051] 知识推介模块,用于根据知识推介集进行知识推介。
[0052] 进一步,所述运维人员画像生成模块包括:
[0053] 信息采集单元,用于进行运维人员数据信息采集,所述运维人员数据信息包括从运维人员账号注册的信息中获取的数据和实时采集的运维人员的操作行为数据;
[0054] 数据清洗单元,用于对采集的运维人员数据信息进行数据清洗;
[0055] 模型训练单元,用于对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练,得到运维人员画像;
[0056] 相似度计算单元,用于根据运维人员画像进行运维人员与知识标签间的相似度计算,得到运维人员-知识相似度。
[0057] 进一步,所述相似度计算单元包括:
[0058] 名称相似度计算子单元,用于根据运维人员画像进行名称相似度计算,所述名称相似度的计算公式为: 其中,Sname(U,C)为运维人员画像中概念U与知识标签中概念C间的名称相似度,ui(1≤i≤n)为概念U中名称u的字符串语义分词结果,cj(1≤j≤m)为概念C中名称c的字符串语义分词结果,n为概念U中名称u的字符串总数,m为概念C中名称c的字符串总数,Sim(ui,cj)为ui与cj间的相似度;
[0059] 属性相似度计算子单元,用于根据运维人员画像进行属性相似度计算,所述属性相似度计算公式为:其中,Sattri(U,C)
为运维人员画像中概念U与知识标签中概念C间的属性相似度,Ua和Ca分别表示U和C的属性集,f为给定的非负度量函数,Ua∩Ca表示U和C这两个概念中拥有相同属性的集合,Ua-Ca表示只是运维人员画像中有而知识标签中没有的属性集,Ca-Ua表示只是知识标签中有而运维人员画像中没有的属性集,λ和μ均为给定的权重系数;
[0060] 实例相似度计算子单元,用于根据运维人员画像进行实例相似度计算,所述实例相似度计算公式为: 其中,Sinst(U,C)为运维人员画像中概念U与知识标签中概念C间的实例相似度,P(U,C)表示从实例空间随机抽取的一个实例同时从属于概念U和C的概率, 表示从实例空间随机抽取的一个实例只
属于概念U而不属于概念C的概率, 表示从实例空间随机抽取的一个实例只属于概
念C而不属于概念U的概率;
[0061] 关系相似度计算子单元,用于根据运维人员画像进行关系相似度计算,得到运维人员画像中概念U与知识标签中概念C间的关系相似度Srelat(U,C),其中,关系包括同义关系、继承关系和包含关系,同义关系的权重大于继承关系的权重,且同义关系的权重大于包含关系的权重;
[0062] 运维人员-知识相似度计算子单元,用于根据名称相似度Sname(U,C)、属性相似度Sattri(U,C)、实例相似度Sinst(U,C)和关系相似度Srelat(U,C)计算运维人员-知识相似度,所述运维人员-知识相似度Sim(U,C)的计算公式为:Sim(U,C)=αSname(U,C)+βSattri(U,C)+εSinst(U,C)+δSrelat(U,C),其中,α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。
[0063] 本发明的方法的有益效果是:包括根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集以及根据知识推介集进行知识推介的步骤,综合了场景分析的结果和运维人员画像来进行知识选取和知识推介,不仅能根据知识应用的实时使用场景来进行知识推荐,而且在进行知识推荐时考虑了运维人员画像这一知识应用的使用用户信息,从而从实时使用场景和使用用户这二个维度提升了知识推荐的准确率;包括采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像的步骤,采用了深度学习的方法来对运维人员的操作行为等数据信息进行学习,能训练出运维人员画像,并能结合运维人员后续的操作行为数据不断对运维人员画像模型进行修正,使得运维人员画像越来越准确。
[0064] 本发明的系统的有益效果是:包括用于根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集的知识选取模块以及用于根据知识推介集进行知识推介的知识推介模块,综合了场景分析的结果和运维人员画像来进行知识选取和知识推介,不仅能根据知识应用的实时使用场景来进行知识推荐,而且在进行知识推荐时考虑了运维人员画像这一知识应用的使用用户信息,从而从实时使用场景和使用用户这二个维度提升了知识推荐的准确率;包括运维人员画像生成模块,在运维人员画像生成模块中采用了深度学习的方法来对运维人员的操作行为等数据信息进行学习,能训练出运维人员画像,并能结合运维人员后续的操作行为数据不断对运维人员画像模型进行修正,使得运维人员画像越来越准确。附图说明
[0065] 图1为本发明一种基于大数据和深度学习的知识推介方法的整体流程图
[0066] 图2为本发明实施例一知识推介方法的具体流程图;
[0067] 图3为本发明实施例一运维人员图像生成过程的流程图;
[0068] 图4为本发明实施例一知识选取过程的流程图。

具体实施方式

[0069] 参照图1,一种基于大数据和深度学习的知识推介方法,包括以下步骤:
[0070] 根据场景数据信息进行场景分析;
[0071] 采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像;
[0072] 根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集;
[0073] 根据知识推介集进行知识推介。
[0074] 进一步作为优选的实施方式,所述根据场景数据信息进行场景分析这一步骤,其包括:
[0075] 进行场景数据信息实时采集,获取当前运维人员操作的场景数据;
[0076] 对获取的场景数据进行数据清洗;
[0077] 对数据清洗后的场景数据进行实时场景分析和打标签操作,得到场景标记。
[0078] 进一步作为优选的实施方式,所述采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像这一步骤,其包括:
[0079] 进行运维人员数据信息采集,所述运维人员数据信息包括从运维人员账号注册的信息中获取的数据和实时采集的运维人员的操作行为数据;
[0080] 对采集的运维人员数据信息进行数据清洗;
[0081] 对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练,得到运维人员画像;
[0082] 根据运维人员画像进行运维人员与知识标签间的相似度计算,得到运维人员-知识相似度。
[0083] 进一步作为优选的实施方式,所述对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练,得到运维人员画像这一步骤,其包括:
[0084] 进行文本建模,从而将数据清洗后的运维人员数据信息划分为静态信息数据和动态信息数据;
[0085] 根据文本建模的要求对给定的训练样本进行弱模型训练,得到多个弱模型;
[0086] 对多个弱模型采用Boosting方法进行准确性提升,得到运维人员模型的结果分类器;
[0087] 对运维人员模型的结果分类器采用给定的测试样本进行模型验证;
[0088] 对通过模型验证后的运维人员模型进行保存,并实时获取数据清洗后的新运维人员数据信息来不断修正运维人员模型和对应的运维人员画像。
[0089] 进一步作为优选的实施方式,所述根据运维人员画像进行运维人员与知识标签间的相似度计算,得到运维人员-知识相似度这一步骤,其包括:
[0090] 根据运维人员画像进行名称相似度计算,所述名称相似度的计算公式为:其中,Sname(U,C)为运维人员画像中概念U与知
识标签中概念C间的名称相似度,ui(1≤i≤n)为概念U中名称u的字符串语义分词结果,cj(1≤j≤m)为概念C中名称c的字符串语义分词结果,n为概念U中名称u的字符串总数,m为概念C中名称c的字符串总数,Sim(ui,cj)为ui与cj间的相似度;
[0091] 根据运维人员画像进行属性相似度计算,所述属性相似度计算公式为:其中,Sattri(U,C)
为运维人员画像中概念U与知识标签中概念C间的属性相似度,Ua和Ca分别表示U和C的属性集,f为给定的非负度量函数,Ua∩Ca表示U和C这两个概念中拥有相同属性的集合,Ua-Ca表示只是运维人员画像中有而知识标签中没有的属性集,Ca-Ua表示只是知识标签中有而运维人员画像中没有的属性集,λ和μ均为给定的权重系数;
[0092] 根据运维人员画像进行实例相似度计算,所述实例相似度计算公式为:其中,Sinst(U,C)为运维人员画像中概念U
与知识标签中概念C间的实例相似度,P(U,C)表示从实例空间随机抽取的一个实例同时从属于概念U和C的概率, 表示从实例空间随机抽取的一个实例只属于概念U而不属
于概念C的概率, 表示从实例空间随机抽取的一个实例只属于概念C而不属于概念U
的概率;
[0093] 根据运维人员画像进行关系相似度计算,得到运维人员画像中概念U与知识标签中概念C间的关系相似度Srelat(U,C),其中,关系包括同义关系、继承关系和包含关系,同义关系的权重大于继承关系的权重,且同义关系的权重大于包含关系的权重;
[0094] 根据名称相似度Sname(U,C)、属性相似度Sattri(U,C)、实例相似度Sinst(U,C)和关系相似度Srelat(U,C)计算运维人员-知识相似度,所述运维人员-知识相似度Sim(U,C)的计算公式为:Sim(U,C)=αSname(U,C)+βSattri(U,C)+εSinst(U,C)+δSrelat(U,C),其中,α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。
[0095] 进一步作为优选的实施方式,所述根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集这一步骤,其包括:
[0096] 根据运维人员画像检索运维人员特性,并结合运维人员画像计算运维相似知识集;
[0097] 根据场景分析的结果实时获取场景特性,并根据场景特性计算场景相似知识集;
[0098] 判断场景相似知识集与运维相似知识集是否有交集,若是,则根据交集形成推介知识集,反之,则重新获取场景特性,并重新训练运维人员模型来得到新运维人员画像。
[0099] 进一步作为优选的实施方式,所述根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集这一步骤,其包括:
[0100] 对运维人员进行用户场景检索,所述用户场景Um包含场景u ,且其中,UT为全量用户场景;
[0101] 采用设定的相似度计算方法计算出与用户场景Um相似的知识场景并进行排序,得到相似场景集Cn: 其中,Um≈Cu表示运维人员的用户场景Um与知识场景Cu相似,∧为交集符号,CT为全量知识场景集;
[0102] 检索给定的场景知识关系模型OR,得到含场景Cn的知识-场景关系对Pi,j:其中,PT为全量知识-场景关系对,Ci为知识场景,R1
为场景Ci的属性, 表示Pi,j通过R1与Ci相连;
[0103] 检索给定的知识领域集OD,得到含有与Pi,j相关联的领域知识集Dk:其中,DT为全量知识领域,R2为领域知识Dk的属性,
表示Pi,j通过R2与Dk相连;
[0104] 从全量领域知识推介集 中得到知识推介集KS:
[0105] 其中,场景知识关系模型OR和知识领域集OD在知识选取前已计算出来或预先给定。本发明在进行知识选取时依次经过用户场景检索、用户场景相似度匹配、知识-场景关系匹配和知识领域匹配,最终找出知识推介集。
[0106] 本发明一种基于大数据和深度学习的知识推介系统,包括:
[0107] 场景分析模块,用于根据场景数据信息进行场景分析;
[0108] 运维人员画像生成模块,用于采用深度学习的方法对运维人员数据信息进行处理,生成运维人员画像;
[0109] 知识选取模块,用于根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集;
[0110] 知识推介模块,用于根据知识推介集进行知识推介。
[0111] 进一步作为优选的实施方式,所述运维人员画像生成模块包括:
[0112] 信息采集单元,用于进行运维人员数据信息采集,所述运维人员数据信息包括从运维人员账号注册的信息中获取的数据和实时采集的运维人员的操作行为数据;
[0113] 数据清洗单元,用于对采集的运维人员数据信息进行数据清洗;
[0114] 模型训练单元,用于对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练,得到运维人员画像;
[0115] 相似度计算单元,用于根据运维人员画像进行运维人员与知识标签间的相似度计算,得到运维人员-知识相似度。
[0116] 进一步作为优选的实施方式,所述相似度计算单元包括:
[0117] 名称相似度计算子单元,用于根据运维人员画像进行名称相似度计算,所述名称相似度的计算公式为: 其中,Sname(U,C)为运维人员画像中概念U与知识标签中概念C间的名称相似度,ui(1≤i≤n)为概念U中名称u的字符串语义分词结果,cj(1≤j≤m)为概念C中名称c的字符串语义分词结果,n为概念U中名称u的字符串总数,m为概念C中名称c的字符串总数,Sim(ui,cj)为ui与cj间的相似度;
[0118] 属性相似度计算子单元,用于根据运维人员画像进行属性相似度计算,所述属性相似度计算公式为:其中,Sattri(U,C)
为运维人员画像中概念U与知识标签中概念C间的属性相似度,Ua和Ca分别表示U和C的属性集,f为给定的非负度量函数,Ua∩Ca表示U和C这两个概念中拥有相同属性的集合,Ua-Ca表示只是运维人员画像中有而知识标签中没有的属性集,Ca-Ua表示只是知识标签中有而运维人员画像中没有的属性集,λ和μ均为给定的权重系数;
[0119] 实例相似度计算子单元,用于根据运维人员画像进行实例相似度计算,所述实例相似度计算公式为: 其中,Sinst(U,C)为运维人员画像中概念U与知识标签中概念C间的实例相似度,P(U,C)表示从实例空间随机抽取的一个实例同时从属于概念U和C的概率, 表示从实例空间随机抽取的一个实例只
属于概念U而不属于概念C的概率, 表示从实例空间随机抽取的一个实例只属于概
念C而不属于概念U的概率;
[0120] 关系相似度计算子单元,用于根据运维人员画像进行关系相似度计算,得到运维人员画像中概念U与知识标签中概念C间的关系相似度Srelat(U,C),其中,关系包括同义关系、继承关系和包含关系,同义关系的权重大于继承关系的权重,且同义关系的权重大于包含关系的权重;
[0121] 运维人员-知识相似度计算子单元,用于根据名称相似度Sname(U,C)、属性相似度Sattri(U,C)、实例相似度Sinst(U,C)和关系相似度Srelat(U,C)计算运维人员-知识相似度,所述运维人员-知识相似度Sim(U,C)的计算公式为:Sim(U,C)=αSname(U,C)+βSattri(U,C)+εSinst(U,C)+δSrelat(U,C),其中,α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。
[0122] 下面结合说明书附图和具体实施例对本发明作进一步解释和说明。
[0123] 实施例一
[0124] 针对现有技术知识推荐的准确率不高的问题,本发明提出了一种应用于运维环境的高效的知识推介技术。该知识推介技术通过增强学习等深度学习算法对知识库的使用场景和使用用户(即运维人员)进行建模,进而基于建立的模型进行精准的知识推广应用。该推介技术具备以下特点:
[0125] (1)该技术通过对运维人员的历史操作行为进行离线学习,训练出运维人员画像,并结合运维人员后续的操作行为数据不断对该运维人员画像模型进行修正,使得运维人员画像越来越准确。
[0126] (2)该技术对运维工作的系统操作场景进行实时分析,并结合训练出的运维人员画像进行评估(即知识选取),能精准地进行知识推介。
[0127] 下面从名词解释和实现过程这两方面对本发明的知识推介的具体实现过程进行详细说明。
[0128] (一)名词解释
[0129] 本发明涉及到的专有名词如下:
[0130] 知识推介:针对知识数据的推荐。知识推介通过对运维平台系统用户的处理内容及用户模型来推送并介绍相关知识给用户,一方面能帮助其加快工作的处理,另一方面也提供了更深入的相关信息来增强用户能力。
[0131] 深度学习:源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
[0132] 知识库:知识工程中结构化、易操作、易利用和全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的相互联系的知识片集合。这些知识片包括与领域相关的理论知识,事实数据,由专家经验得到的启发式知识(如某领域内有关的定义、定理和运算法则等),以及常识性知识等。一般的应用程序与基于知识的系统之间的区别在于:一般的应用程序是把问题求解的知识隐含地编码在程序中,而基于知识的系统则将应用领域的问题求解知识显式地表达,并单独地组成一个相对独立的程序实体。
[0133] 运维信息化系统:以IT部在日常的运行维护管理流程为核心,以事件跟踪为主线,以解决IT运维管理中的八大管理问题(流程管理、事件管理、问题管理、变更管理、发布管理、运行管理、知识管理、综合分析管理)为目的,为IT部门提供了一个高效、规范的IT运维管理平台。该系统不仅实现了与目前企业内部使用的业务系统的接口,而且整合了客服、运维和业务管理等系统功能,并可以通过邮件、手机短信等形式对责任人进行阶段提示,提高了系统维护的服务响应效率;通过信息的整合,实现了对各种资源的综合管理,包括各种静态资源、基础资料、备品备件资源的有效管理,从而全面提高了IT部门运行维护的快速响应能力,同时也为IT部门的业务知识积累和业务考核建立了完善的数据模型。
[0134] Boosting方法:是一种用来提高弱分类算法准确度的方法,这种方法能把若干个分类器整合为一个分类器。
[0135] (二)知识推介方法的具体实现过程
[0136] 如图2所示,以运维信息化系统的知识库应用为例,本发明的知识推介方法的具体包括以下步骤:
[0137] 步骤一:进行场景分析,生成场景模式。
[0138] 为了实时获取运维人员操作的场景信息,并进行场景-知识相关性分析来提升知识推介的准确率,本发明提出了新的场景分析算法。如图1所示,该新的场景分析算法的具体细化步骤如下:
[0139] Step1:场景数据信息采集:获取当前运维人员操作的场景数据P。
[0140] Step2:数据清洗:针对场景数据P进行数据清洗,其目的是对场景数据P进行审查和校验,删除重复信息,纠正存在的错误,并保证数据一致性。
[0141] Step3:场景模式生成:这一过程简单来说就是针对采集并清洗后的场景数据进行分析,并打上标签的过程,其最终可得到场景标记OC。
[0142] 步骤二:运维人员画像生成。
[0143] 本发明提出了新的运维人员分析算法,通过获取运维人员的静态数据信息和动态数据信息,运用增强学习等机器学习算法来构建运维人员画像,并能运用运行中获取的新运维人员数据对运维人员画像模型进行修正和调整,提升了运维人员画像的精准率。
[0144] 如图2和图3所示,运维人员分析算法的具体细化步骤如下:
[0145] Step1:进行运维人员数据信息采集:一方面从运维人员账号注册的信息中获取数据,另一方面实时采集运维人员的操作行为数据。
[0146] Step2:数据清洗:对采集的运维人员数据信息进行数据清洗,其目的是对维人员数据信息进行审查和校验,删除重复信息,纠正存在的错误,并保证数据一致性。
[0147] Step3:文本建模:针对采集并数据清洗后的数据进行分类,主要将数据清洗后的数据分为静态信息数据和动态信息数据这两类。静态信息数据指运维人员相对稳定的信息,比如姓名、出生日期和性别等。动态信息数据指运维人员不断变化的行为信息,包括每日操作行为和浏览行为等。
[0148] Step4:训练多个弱模型:利用SVM等机器学习算法训练多个弱模型。在进行文本分类的时候,可以让计算机这样来看待提供给它的训练样本(即给定的训练样本):每一个训练样本由一个向量(即由文本特征所组成的向量)和一个分类标记(用于标示出这个训练样本属于哪个类别)组成,如Di=(xi,yi)中xi就是文本向量(其维数较高),yi就是分类标记。在二元的线性分类中,这个分类标记只有两个值,1和-1(分别用来表示属于还是不属于这个类别)。有了这种表示方法,就可以定义一个样本点到某个超平面的间隔为:δi=yi(wxi+b)。
[0149] Step5:对多个弱模型进行Boosting准确性提升:通过对训练样本集的操作获得训练样本子集,然后用弱分类算法在训练样本子集上训练生成一系列的基分类器,最后通过Boosting方法得到运维人员模型的结果分类器。
[0150] 本发明将除了Step4之外的其它弱分类算法作为基分类算法放到Boosting框架中,通过Boosting框架对训练样本集的操作,得到不同的训练样本子集,然后用训练样本子集去训练生成基分类器(每得到一个训练样本子集就用一个基分类算法在该训练样本子集上产生一个基分类器,这样在给定训练轮数n0后,就可产生n0个基分类器),再通过Boosting框架算法将这n0个基分类器进行加权融合,产生一个最后的结果分类器。
[0151] Step6:模型验证:针对训练出的运维人员画像模型进行模型验证(模型验证可通过抽样或给定的测试样本的方式完成),以确保模型的准确性。
[0152] Step7:保存模型:将通过模型验证后的初步运维人员画像模型进行保存,之后会在运行过程中实时地采集新的运维人员数据信息来不断修正运维人员画像模型和运维人员画像结果。
[0153] Step8:进行运维人员-知识相似度计算:针对运维人员画像中的概念名称、属性、实例和关系计算出运维人员-知识相似度Sim(U,C)。
[0154] 进行运维人员-知识相似度计算的过程可进一步细分为:
[0155] 1)进行名称相似度计算: 其中,Sname(U,C)为运维人员画像中概念U与知识标签中概念C间的名称相似度,ui(1≤i≤n)为概念U中名称u的字符串语义分词结果,cj(1≤j≤m)为概念C中名称c的字符串语义分词结果,n为概念U中名称u的字符串总数,m为概念C中名称c的字符串总数,Sim(ui,cj)为ui与cj间的相似度;
[0156] 2 ) 进 行 属 性 相 似 度 计 算 ,所 述 属 性 相 似 度 计 算 公 式 为 :其中,Sattri(U,C)
为运维人员画像中概念U与知识标签中概念C间的属性相似度,Ua和Ca分别表示U和C的属性集,f为给定的非负度量函数,Ua∩Ca表示U和C这两个概念中拥有相同属性的集合,Ua-Ca表示只是运维人员画像中有而知识标签中没有的属性集,Ca-Ua表示只是知识标签中有而运维人员画像中没有的属性集,λ和μ均为给定的权重系数;
[0157] 3)进行实例相似度计算: 其中,Sinst(U,C)为运维人员画像中概念U与知识标签中概念C间的实例相似度,P(U,C)表示从实例空间随机抽取的一个实例同时从属于概念U和C的概率, 表示从实例空间随机抽
取的一个实例只属于概念U而不属于概念C的概率, 表示从实例空间随机抽取的一
个实例只属于概念C而不属于概念U的概率;
[0158] 4)根据运维人员画像进行关系相似度计算,得到运维人员画像中概念U与知识标签中概念C间的关系相似度Srelat(U,C)。其中,关系包括同义关系、继承关系和包含关系。在进行关系相似度计算时,同义关系的权重大于继承关系的权重,且同义关系的权重大于包含关系的权重;
[0159] 5)根据名称相似度Sname(U,C)、属性相似度Sattri(U,C)、实例相似度Sinst(U,C)和关系相似度Srelat(U,C)计算运维人员-知识相似度,所述运维人员-知识相似度Sim(U,C)的计算公式为:Sim(U,C)=αSname(U,C)+βSattri(U,C)+εSinst(U,C)+δSrelat(U,C),其中,α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。
[0160] 步骤三:知识选取:根据场景分析的结果和运维人员画像进行知识选取,得到知识推介集。
[0161] 如图4所示,知识选取可进一步细化为以下过程:
[0162] 1)根据运维人员画像检索运维人员特性,并结合运维人员画像计算运维相似知识集;
[0163] 2)根据场景分析的结果实时获取场景特性,并根据场景特性计算场景相似知识集;
[0164] 3)判断场景相似知识集与运维相似知识集是否有交集,若是,则根据交集形成推介知识集,反之,则重新获取场景特性,并重新训练运维人员画像模型来得到新运维人员画像。
[0165] 若设知识标签为Uk,则推介的知识服务集合可表示为KS。此时,知识选取的具体细化步骤如下:
[0166] Step1:对运维人员进行用户场景检索,所述用户场景Um包含场景u,且其中,UT为全量用户场景;
[0167] Step2:采用设定的相似度计算方法计算出与用户场景Um相似的知识场景并进行排序,得到相似场景集Cn: 其中,Um≈Cu表示运维人员的用户场景Um与知识场景Cu相似,∧为交集符号,CT为全量知识场景集;
[0168] Step3:检索给定的场景知识关系模型OR,得到含场景Cn的知识-场景关系对Pi,j:其中,PT为全量知识-场景关系对,Ci为知识场景,R1
为场景Ci的属性, 表示Pi,j通过R1与Ci相连;
[0169] Step4:检索给定的知识领域集OD,得到含有与Pi,j相关联的领域知识集Dk:其中,DT为全量知识领域,R2为领域知识Dk的属性,
表示Pi,j通过R2与Dk相连;
[0170] Step5:从全量领域知识推介集 中得到知识推介集KS:
[0171] 与现有技术相比,本发明具有以下优点:
[0172] (1)高准确率和高效率:采用了知识推介技术,避免了因为个人对知识的理解表达不同导致的知识检索命中率差异很大,并减少了人工检索知识的时间消耗,能实时推广知识应用,加快用户的处理效率。
[0173] (2)提供了运维人员画像:引入了用户的操作行为作为输入,创建了运维人员画像模型这一用户模型,并根据用户模型进行知识推送,提升了知识推荐的准确率。
[0174] (3)具备自学习能力:通过基于机器学习的深度学习算法,让运维人员画像模型不断获取运维人员的操作行为来对模型进行修正,使得运维人员画像模型随着时间推进和运维人员操作次数增加,准确率越来越高。
[0175] 以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈