首页 / 专利库 / 变压器和转换设备 / 传感器 / 传感器 / 光探测器 / 光电二极管 / PIN光电二极管 / 本征区 / 一种基于用户日志动态更新知识图谱的方法

一种基于用户日志动态更新知识图谱的方法

阅读:906发布:2024-02-20

专利汇可以提供一种基于用户日志动态更新知识图谱的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于用户日志动态更新知识图谱的方法,包括:从智能电视语义日志中获取本次更新周期内用户的 请求 日志数据;遍历用户的请求日志,基于 命名实体 识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计 访问 量;根据实体访问量和现有的影视知识图谱,得到热 门 实体、冷门实体和缺失实体;从预设垂直 网站 爬取所述热门实体和缺失实体的信息并进行数据预处理;将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;将得到的缺失实体新增至知识图谱,以及清理冷门实体。本发明基于用户日志中确定需要更新的实体并进行更新,能有效减少处理的数据量。,下面是一种基于用户日志动态更新知识图谱的方法专利的具体信息内容。

1.一种基于用户日志动态更新知识图谱的方法,其特征在于,包括:
步骤A:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
步骤B:遍历用户的请求日志,基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计访问量,并记作实体集E1,则E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij;
步骤C:根据实体访问量和现有的影视知识图谱,得到热实体、冷门实体和缺失实体;
步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;
步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体。
2.根据权利要求1所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤C具体为:
设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
E2={(e1,t1),(e1,t2),(e2,t3),…,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
若nij>THRunsp且 则记该实体为缺失实体。
3.根据权利要求2所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤D具体为:
步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
步骤D2:对标记为带爬取的实体,从垂直网站爬取实体信息;
步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配。
4.根据权利要求3所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤E具体为:
设定实体相似度阈值THRstm;
计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新。
5.根据权利要求4所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤F中将缺失实体新增至知识图谱的步骤为:
将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
6.根据权利要求4所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤F中清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。

说明书全文

一种基于用户日志动态更新知识图谱的方法

技术领域

[0001] 本发明涉及知识图谱技术领域,具体的说,是一种基于用户日志动态更新知识图谱的方法。

背景技术

[0002] 传统的搜索引擎主要是基于关键字搜索相关网页,再由用户人工从一堆候选网页中寻找有用的信息,随着互联网技术的飞速发展,这种传统的搜索引擎已经日渐无法满足人们的需求,人们对搜索有了更高的期望。在此背景下,知识图谱也就应运而生了,它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,描述了真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善了搜索结果。即随着时间的推移,知识图谱中的实体和关系都有可能发生变化,例如影视剧领域相关的新演员、新影片、新色、演员间关系等等,因此需要对知识图谱中的知识进行不断更新。传统的知识图谱更新方法主要是对所有实体的信息全部进行更新,导致知识图谱更新周期较长,且部分不需要的实体也被频繁更新。

发明内容

[0003] 本发明的目的在于提供一种基于用户日志动态更新知识图谱的方法,用于解决现有技术中现有知识图谱全网更新所存在的数据量大、无需更新的实体也被频繁更新的问题。
[0004] 本发明通过下述技术方案解决上述问题:
[0005] 一种基于用户日志动态更新知识图谱的方法,包括:
[0006] 步骤A:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
[0007] 步骤B:遍历用户的请求日志,基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计访问量,并记作实体集E1,[0008] E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij;
[0009] 步骤C:根据实体访问量和现有的影视知识图谱,得到热实体、冷门实体和缺失实体;
[0010] 步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
[0011] 步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;
[0012] 步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体。
[0013] 进一步地,所述步骤C具体为:
[0014] 设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
[0015] E2={(e1,t1),(e1,t2),(e2,t3),…,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
[0016] 遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
[0017] 若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
[0018] 若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
[0019] 若nij>THRunsp且 则记该实体为缺失实体。
[0020] 进一步地,所述步骤D具体为:
[0021] 步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
[0022] 步骤D2:对标记为带爬取的实体,从垂直网站爬取实体信息;
[0023] 步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配。
[0024] 进一步地,所述步骤E具体为:
[0025] 设定实体相似度阈值THRstm;
[0026] 计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
[0027] 遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
[0028] 选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新。
[0029] 进一步地,所述步骤F中将缺失实体新增至知识图谱的步骤为:
[0030] 将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
[0031] 进一步地,所述步骤F中清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。
[0032] 本发明与现有技术相比,具有以下优点及有益效果:
[0033] 本发明基于用户使用电视过程中能体现用户真实需求的用户日志中,确定知识图谱中需要更新的实体并对相应实体进行更新,能有效减少知识图谱更新所需处理的数据量,也能兼顾用户的真实需求。附图说明
[0034] 图1为本发明的流程图

具体实施方式

[0035] 下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
[0036] 实施例1:
[0037] 结合附图1所示,一种基于用户日志动态更新知识图谱的方法,包括:
[0038] 步骤A:用户日志的收集:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
[0039] 步骤B:基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型,可以使用Bi-LSTM+CRF模型(Bi-LSTM:Bi-directional Long Short-Term Memory,双向长短期记忆网络;CRF:Conditional Random Field,条件随机场)来进行命名实体标注;遍历用户的请求日志,并按照请求类别和实体类别分别统计访问量,并记作实体集E1,[0040] E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…,(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij;
[0041] 步骤C:根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体:
[0042] 设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
[0043] E2={(e1,t1),(e1,t2),(e2,t3),,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
[0044] 遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
[0045] 若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
[0046] 若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
[0047] 若nij>THRunsp且 则记该实体为缺失实体;
[0048] 步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
[0049] 步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
[0050] 步骤D2:对标记为带爬取的实体,从垂直网站爬取实体信息;
[0051] 步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配;
[0052] 步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新:设定实体相似度阈值THRstm;
[0053] 计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
[0054] 遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
[0055] 选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新;
[0056] 步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体。
[0057] 将缺失实体新增至知识图谱的步骤为:将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
[0058] 清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。
[0059] 尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈