专利汇可以提供基于动态图谱链接分析的领域搜索排序方法专利检索,专利查询,专利分析的服务。并且本 发明 属于互联网搜索领域,具体涉及一种基于动态图谱链接分析的领域搜索排序方法。本发明首先为领域搜索中的文件资源建立语义层面链接关系,进而从权威度和相关度两个方面进行计算,最终实现搜索结果的融合排序。包括以下步骤:面向搜索排序领域图谱动态构建;基于全图的文件 节点 权威度离线增量计算;基于搜索子图的文件节点相关度在线计算;基于权威度与相关度的搜索结果融合排序。本 申请 能够以文件文本内容中的实体和关系为纽带,将原本孤立的文件从语义层面进行关联,突破单一文件的在搜索排序中的信息 孤岛 问题,并从文件节点的权威度和相关度两个层面进行分析计算,最终实现搜索结果的融合排序。,下面是基于动态图谱链接分析的领域搜索排序方法专利的具体信息内容。
1.基于动态图谱链接分析的领域搜索排序方法,其特征在于,所述方法首先为领域搜索中的文件资源建立语义层面链接关系,进而从权威度和相关度两个方面进行计算,最终实现搜索结果的融合排序;具体步骤如下:
步骤(1):面向搜索排序的领域图谱动态构建;以该领域的各类文件集合为输入,构建领域图谱;
步骤(2):基于全图的文件节点权威度增量离线计算;以步骤(1)中的领域图谱为输入,计算得到领域图谱内各文件节点的权威度;
步骤(3):基于搜索子图的文件节点相关度在线计算;以领域图谱、用户检索词为输入,从整个领域图谱中抽取与检索相关的搜索子图,并计算该子图内各文件节点相关度;
步骤(4):基于权威度与相关度的搜索结果融合排序;计算过程以步骤(3)中的搜索子图中各文件节点的权威度和相关度为输入,综合计算文件节点排名度,并按排名度大小排序,返回给用户。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)包括如下步骤:
步骤(11):“实体节点”,“关联边”构建与“关联权值”计算;
通过对文件的文本内容进行实体识别、实体消歧和共指消解,得到准确、无歧义的命名实体,这些实体构成了领域图谱中的“实体节点”;通过对文本内容中实体之间的关联关系进行识别,得到潜在候选关系,并通过对关系的消歧与消解,得到准确、无歧义的关联关系,这些关联关系构成了领域图谱中的“关联边”;每条关联边具有“关联权值”,权值大小表示实体之间关系的紧密程度;
步骤(12):“文件节点”,“链接边”构建与“链接权值”计算;领域图谱中“文件节点”与待检索文件互为双射,直接构建,图谱中的每个文件节点代表一个待检索文件;若某个“实体节点”是从某个“文件节点”对应的文件内容中提取出来的,则该实体节点与文件节点之间存在一条链接边;“链接权值”计算包括初始链接权值计算和归一化计算两个过程;
步骤(13):图谱增量动态更新;
待检索文件集合的变化形式包括新增文件、删除文件和修改文件,面对新增文件的情况,需要按照步骤(11)和(12)完成新增文件对应实体节点、文件节点、关联边、链接边的提取;并更新受影响的关联边和链接边的权值;面对删除文件的情况,首先需要删除对应的文件节点及其关联边;若导致实体节点没有相连的链接边,则删除该实体节点及其关联边;并更新受影响的关联边和链接边的权值;面对修改文件的情况,按照先删除再新增的等效操作进行领域图谱的更新。
3.根据权利要求2所述的方法,其特征在于,所述步骤(11)中“关联权值”计算包括初始关联权值计算和归一化两步;具体为:若关联边两端的实体总共在k个文件中共同出现,则该关联边的初始关联权值corrValue'(i,j)等于k;在计算完所有关联边的关联权值后,对同一实体节点发出的初始关联权corrValue'(i,j)按数值比例做归一化,得到该关联边的关联权值corrValue(i,j)。
4.根据权利要求2所述的方法,其特征在于,所述步骤(12)中的初始链接权值计算考虑两个方面,一是实体节点对文件节点的关联程度α,二是文件节点对实体节点的重要程度β;
具体为:
①当文件节点对实体节点的重要程度难以进行人工分类或评价时,对于不同文件节点β=1,初始链接权值linkValue'=α,在计算完各链接边的初始权值后,对于同一文件节点相连的各链接边初始权值做归一化,就得到了链接权值linkValue;α采用以下计算方法:
α=TF(t,d)·IDF(t,d)·α1(t,d)
其中t为实体节点的实体名,d为待检索文件,TF(t,d)为t在d中出现的频次,IDF=log(N/(nt,d+γ)),N为待检索文件集合中文件数量,nt,d为包含实体t的文件数量,γ通常取
0.01保证分母不为零,α1(t,d)为位置系数当实体名t处于标题、摘要、关键词时取大于1系数,否则取1;
②当能够根据不同领域,通过人工对实体与文件进行分类和打分,在每个领域对不同类型文件的重要程度设置β值,此时,初始链接权值linkValue'=α·β。
5.根据权利要求1所述的方法,其特征在于,所述步骤(2)中将领域图谱的实体节点都作为系统所能到达的状态,各个状态之间的转移概率则由实体节点之间的关联边权值决定,整个系统构成了一个马尔可夫链,该马尔可夫链的平稳分布即为“实体节点”的权威度,具体包括如下步骤:
步骤(21):“实体节点”权威度设计;
步骤(22):“实体节点”权威度增量计算;基于蒙特卡罗方法,利用随机游走模拟用户访问实体节点的行为,当领域图谱发生变化时,针对受影响的实体节点,增量更新随机游走过程,实现实体节点权威度的增量计算;
步骤(23):“文件节点”权威度计算;文件节点权威度authorityFile等于该文件节点各链接权值linkValue乘以链接的实体节点权威度authorityEntity之和,即
其中authorityFile(i)表示文件节点i的权威度;authorityEntity(k)表示实体节点k的权威度,且文件节点i与实体节点k之间存在链接边;linkValue(i,k)表示文件节点i和实体节点k之间链接边权值。
6.根据权利要求5所述的方法,其特征在于,实体节点权威度的增量计算采用循环起点的方式,以N个实体节点为起点分别启动M个随机游走过程,共N×M个随机游走过程,随机游走的每一步以(1-α)的概率直接访问新的节点,并以α·corrValue(i,j)的概率从实体节点i游走至实体节点j,最终统计任意实体节点i被访问的次数v(i),则v(i)除以所有实体节点被访问次数总和,就得到了节点i的平均访问概率,即实体节点i的权威度
authorityEntity;
当领域图谱结构发生变化时,通过增量的方式计算各实体节点的权威度;具体方法为:
首先记录每一轮图谱结构变化前的随机游走过程,并统计本轮图谱中产生变化的实体节点,包括实体节点的增删,将其集合记作X与关联边,包括关联边的增删或权值变化,将其集合记作Y,将与X有关联关系的实体节点或与Y相连的实体节点记为集合Z,则X∪Z为需要在随机游走中更新流程的触发节点;更新过程为考察上一轮N×M个随机游走过程,找到每个随机游走过程中的第一个触发节点,保留触发节点之前的随机游走,并根据新的领域图谱继续进行后续随机游走,并计算各实体节点权威度。
7.根据权利要求1所述的方法,其特征在于,所述步骤(3)具体包括如下步骤:
步骤(31):搜索子图构建;搜索子图根据每次搜索得到的相关结果构建,是领域图谱的子图;搜索引擎通过关键词匹配方式得到的每个相关结果都对应了某个文件节点,这些文件节点构成了搜索子图的“文件节点”;“文件节点”在领域图谱中的链接边,以及链接的实体节点,分别构成了搜索子图的“链接边”和“实体节点”;搜索子图中“实体节点”按照领域图谱的结构,保留实体节点间的关联关系,构成搜索子图的“关联边”;
步骤(32):搜索子图的“实体节点”相关度计算;实体节点相关度由该实体节点链接的文件节点数量决定,搜索子图中各实体节点相关度等于该实体节点链接的文件节点数量;
步骤(33):搜索子图的“文件节点”相关度计算;文件节点相关度由该文件节点每条链接边权值与链接到实体节点相关度的乘积决定;当文件节点有多条链接边时,计算每个链接的乘积再求和。
8.根据权利要求1所述的方法,其特征在于,所述步骤(4)具体为:
搜索结果排序需要综合考虑权威度和相关度两方面影响,因此各文件节点排名度为:
rankValue=Ω·authorityFile+(1-Ω)·λ·relavancyFile,
其中引入λ是为了保证权威度和相关度量级相似,Ω用于决定权威度和相关度在文件节点排名的权重;此处的文件节点仅考虑每次搜索过程中,被检索到的文件,若authorityFile的中位数为a,relavancyFile的中位数为b,则λ可取a/b;m次搜索结果的构建人工排序样本,记第i次搜索结果的ni个人工排序样本,对每个给定Ω可以得到第i次搜索结果的ni个自动排序结果;认为人工排序样本为正确排序结果,以最小化自动排序结果错误率为优化目标,Ω取值可通过等距采样法,Ω从0到1每次步长为Δ,或一维搜索算法求取。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种电商商品搜索方法和装置以及设备 | 2020-05-08 | 119 |
基于用户行为画像的爬虫拦截方法、电子设备、存储介质 | 2020-05-08 | 727 |
一种信息处理方法、装置及电子设备 | 2020-05-08 | 472 |
一种基于搜索引擎的人物检索系统及方法 | 2020-05-11 | 316 |
来自文档的查询建议 | 2020-05-11 | 101 |
一种基于互联网的教育信息搜索系统 | 2020-05-08 | 189 |
基于对象模型的试验数据统一检索方法和系统 | 2020-05-08 | 801 |
一种字段式搜索方法 | 2020-05-08 | 102 |
直播间搜索引擎自适应调整方法、装置及可读存储介质 | 2020-05-08 | 782 |
基于互联网的图片自动合成系统 | 2020-05-08 | 1037 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。