首页 / 专利库 / 人工智能 / 机器翻译引擎 / 基于概念语义背景图挖掘用户兴趣的方法

基于概念语义背景图挖掘用户兴趣的方法

阅读:422发布:2020-07-02

专利汇可以提供基于概念语义背景图挖掘用户兴趣的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及网络搜索领域,其公开了一种基于概念语义背景图挖掘用户兴趣的方法,包括以下步骤:(A)系统 服务器 采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。本发明的有益效果是:概念语义背景图的提出,有利于网络爬行虫更好地选择爬行方向,与广度优先和传统的主题爬行方法相比,它可以在浩瀚的互联网海洋中更快、更高效地发现用户感兴趣的网页;同时,它把相似度的计算提前到了概念的层面上,进行语义上的匹配,可以更好地计算用户兴趣与网页的相关度。,下面是基于概念语义背景图挖掘用户兴趣的方法专利的具体信息内容。

1.一种基于概念语义背景图挖掘用户兴趣的方法,其特征在于:包括以下步骤:(A)系统服务器采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。
2.根据权利要求1所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述步骤(A)中,系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有兴趣的网页并构成用户的主题兴趣集合。
3.根据权利要求1所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述步骤(B)中,系统服务器通过主题兴趣集合建立反映用户兴趣的概念图;所述系统服务器在建立用户主题兴趣模型之前先构建概念格。
4.根据权利要求3所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述步骤(C)中,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图。
5.根据权利要求1所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述步骤(D)中,所述系统服务器增加或减少概念语义背景图。
6.根据权利要求4所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图的具体方法为:系统服务器先确定核心概念并将核心概念放入概念背景图的第0层, 然后再利用概念格中每个概念的属性个数的多少,把概念格中的概念映射到概念背景图相应的层次当中去。
7.根据权利要求3所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:系统服务器利用概念格的属性词给概念格中的概念分层,其分层方法为:概念格中的核心概念插入到概念背景图中,作为概念背景图的第0层;概念格的非核心概念中,完全包含核心概念的属性词并与核心概念有较高的相似度的属性词作为概念背景图的第一层的结点;剩余的非核心概念集中,包含(N-i+1)个核心概念的属性词的概念,作为概念背景图的第i 层,其中N表示核心概念中的属性词的个数,i∈[1,N]。
8.根据权利要求2所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:系统服务器搜集用户选择的网页,形成兴趣主题网页集合,再对网页集合进行分词处理、特征抽取,并计算特征权值,然后对这些特征按照权值大小排序,选择排在前面的特征作为构建概念格的属性集合。
9.根据权利要求8所述的基于概念语义背景图挖掘用户兴趣的方法,其特征在于:所述属性集合包括人工智能机器学习、知识发现、agent技术、模式识别自然语言处理、特征提取、机器翻译以及知识表示。

说明书全文

基于概念语义背景图挖掘用户兴趣的方法

技术领域

[0001] 本发明涉及网络搜索领域,尤其涉及一种基于概念语义背景图挖掘用户兴趣的方法。

背景技术

[0002] 与概念语义背景图相关的主题爬行方面有两种:一是链接背景图,M. Diligenti, F.M. Coetzee, S. Lawrence, C.L. Giles, Focused crawling using context graphs, The 26th International Conference on Very Large Database (VLDB), 2000, pp.527–534.此方法是将网络上的网页关系映射到一个图中,形成网页的链接背景图,可以用来判断待爬行的网页与用户的目标网页之间的距离,进而安排网页的爬行顺序。但链接背景图的方法是基于一种假设,在同一主题中的所有的网页之间都有一种层次关系,然而,当网页之间没有这种层次关系的时候,链接背景图的方法无法使用。二是相关背景图,H.Ching-Chi,W.Fan, Topic-specific crawling on the Web with the measurements of the relevancy context graph, Information Systems 31 (2006) 232–246.这种方法是对链接背景图方法的一种改进,它是基于这种假设下提出的,链接到同一个网页的那些网页,它们往往有相关的内容,语义相关的一些网页,它们也会链接到内容相关的一些网页上。但是这两种方法对相似度的判断只是停留在关键字匹配的层面上。而概念语义背景图,把相似度的计算提前到了概念的层面上,作语义上的匹配,可以更好地计算用户兴趣与网页的相关度。

发明内容

[0003] 为了解决现有技术中的问题,本发明提供了一种基于概念语义背景图挖掘用户兴趣的方法,解决现有技术中在网络主体爬行中相似度的判断仅仅停留在关键字匹配层面上的问题。
[0004] 本发明提供了一种基于概念语义背景图挖掘用户兴趣的方法,包括以下步骤:(A)系统服务器采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。
[0005] 作为本发明的进一步改进,所述步骤(A)中,系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有兴趣的网页并构成用户的主题兴趣集合。
[0006] 作为本发明的进一步改进,所述步骤(B)中,系统服务器通过主题兴趣集合建立反映用户兴趣的概念图;所述系统服务器在建立用户主题兴趣模型之前先构建概念格。
[0007] 作为本发明的进一步改进,所述步骤(C)中,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图。
[0008] 作为本发明的进一步改进,所述步骤(D)中,所述系统服务器增加或减少概念语义背景图。
[0009] 作为本发明的进一步改进,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图的具体方法为:系统服务器先确定核心概念并将核心概念放入概念背景图的第0层, 然后再利用概念格中每个概念的属性个数的多少,把概念格中的概念映射到概念背景图相应的层次当中去。
[0010] 作为本发明的进一步改进,系统服务器利用概念格的属性词给概念格中的概念分层,其分层方法为:概念格中的核心概念插入到概念背景图中,作为概念背景图的第0层;概念格的非核心概念中,完全包含核心概念的属性词并与核心概念有较高的相似度的属性词作为概念背景图的第一层的结点;剩余的非核心概念集中,包含(N-i+1)个核心概念的属性词的概念,作为概念背景图的第i 层,其中N表示核心概念中的属性词的个数,i∈[1,N]。
[0011] 作为本发明的进一步改进,系统服务器搜集用户选择的网页,形成兴趣主题网页集合,再对网页集合进行分词处理、特征抽取,并计算特征权值,然后对这些特征按照权值大小排序,选择排在前面的特征作为构建概念格的属性集合。
[0012] 作为本发明的进一步改进,所述属性集合包括人工智能机器学习、知识发现、agent技术、模式识别自然语言处理、特征提取、机器翻译以及知识表示。
[0013] 本发明的有益效果是:概念语义背景图的提出,有利于网络爬行虫更好地选择爬行方向,与广度优先和传统的主题爬行方法相比,它可以在浩瀚的互联网海洋中更快、更高效地发现用户感兴趣的网页;同时,它把相似度的计算提前到了概念的层面上,进行语义上的匹配,可以更好地计算用户兴趣与网页的相关度。
[0014] 【附图说明】图1是本发明基于概念语义背景图挖掘用户兴趣的方法的流程图
[0015] 图2是本发明中概念格的一实施例图。
[0016] 图3是本发明中用户主题兴趣的语义背景图实施例图。
[0017] 图4是本发明中概念格转换为概念背景图的流程图。
[0018] 图5是本发明中增加概念背景图中的概念的流程图。
[0019] 图6是本发明中减少概念背景图中的概念的流程图。
[0020]【具体实施方式】
下面结合附图说明及具体实施方式对本发明进一步说明。
[0021] 如图1所示,一种基于概念语义背景图挖掘用户兴趣的方法,包括以下步骤:(A)系统服务器采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。
[0022] 所述步骤(A)中,系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有兴趣的网页并构成用户的主题兴趣集合。
[0023] 所述步骤(B)中,系统服务器通过主题兴趣集合建立反映用户兴趣的概念图;所述系统服务器在建立用户主题兴趣模型之前先构建概念格。
[0024] 所述步骤(C)中,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图。
[0025] 所述步骤(D)中,所述系统服务器增加或减少概念语义背景图。
[0026] 所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图的具体方法为:系统服务器先确定核心概念并将核心概念放入概念背景图的第0层, 然后再利用概念格中每个概念的属性个数的多少,把概念格中的概念映射到概念背景图相应的层次当中去。
[0027] 系统服务器利用概念格的属性词给概念格中的概念分层,其分层方法为:概念格中的核心概念插入到概念背景图中,作为概念背景图的第0层;概念格的非核心概念中,完全包含核心概念的属性词并与核心概念有较高的相似度的属性词作为概念背景图的第一层的结点;剩余的非核心概念集中,包含(N-i+1)个核心概念的属性词的概念,作为概念背景图的第i 层,其中N表示核心概念中的属性词的个数,i∈[1,N]。
[0028] 系统服务器搜集用户选择的网页,形成兴趣主题网页集合,再对网页集合进行分词处理、特征抽取,并计算特征权值,然后对这些特征按照权值大小排序,选择排在前面的特征作为构建概念格的属性集合。
[0029] 所述属性集合包括人工智能、机器学习、知识发现、agent技术、模式识别、自然语言处理、特征提取、机器翻译以及知识表示。
[0030]用户主题数据采集
要使用概念语义背景图,首先,要构建用户的主题兴趣,通常采用用户参与的方式来确定用户的兴趣。如把用户的查询词提交给搜索引擎GOOGLE,在它返回的第一个页面的十个结果中让用户选择有兴趣的网页,构成用户的主题兴趣集合,通过这个网页集合去建立用户主题模型,即反映用户兴趣的概念图。
[0031] 建立用户主题兴趣模型:获得了用户兴趣主题网页集合之后,需要利用这些页面来为用户建立一个主题特征关系模型表现该主题。本发明采用的是形式概念分析的方法,通过构建概念格来表现用户的搜索目标背景。首先将用户精选的网页组合在一起,形成兴趣主题网页集合,再对网页集合进行分词处理、特征抽取,并计算特征权值,再对这些特征按照权值大小排序,选择排在前面的N个特征作为构建概念格的属性集合,然后建立模型,建模的过程首先是构建概念格。
例如,用户选择了a~i 所示的特征做为属性集,8个页面作为对象集,构成了如下图所示的形式背景表,进而构建如图二所示的概念格。
[0032] a: 人工智能 b: 机器学习     c: 知识发现 d: agent技术
     e: 模式识别 f: 自然语言处理
     g: 特征提取 h: 机器翻译
     i: 知识表示
Object a b c d e f g h i
1 * * *
2 * * * *
3 * * * * *
4 * * * * *
5 * * * *
6 * * * * *
7 * * * *
8 * * * *
建立概念语义背景图:
建立好用户兴趣的概念格后,把它转化为,可以直观表示网页间的语义关系的概念语义背景图。转化方法如下:首先要确定出核心概念,假定用户指定的主题特征集为“abc”,那么就可以将属性集为“abc”的概念看作核心概念,把核心概念放入概念背景图的第0层。
然后再利用概念格中每个概念的属性包含核心概念属性个数的多少,把格中的概念映射到背景图相应的层次当中去,原则如下,若核心概念的属性词的个数为N,则非核心概念集中,属性词包含核心概念的词的个数为(N-i+1)个的那些属性放入第i层,i∈[1,N]。直到概念格中的所有概念都映射到背景图中,就构成了能表示用户兴趣主题的语义背景图模型。语义背景图如图3,图4所示。
[0033] 概念背景图使用:语义背景图建立后,就可以用它来判断待爬行网页与主题的相似度,当有一个新网页的时候,对该网页内容进行分词处理,并用TF-IDF方法计算所提取属性词的权重值,并用这些属性词来表示该网页,再和概念背景图的概念作语义相似度的计算,计算概念相似度的公式如下:定义概念(E1,I1)和(E2,I2)之间的相似度计算方法如下: SimCC((E1,I1),( E2,I2))=|( E1∩E2)|*w+| (I1∩I2)|*(1-w)
r m
其中r是集合E1和E2中元素的个数最大值,m是集合I1和I2中元素的个数的最大值,w是权重,E1∩E2表示在集合E1和E2中相同的元素个数,I1∩I2表示在集合I1和I2中相同的元素的个数。
[0034] 在爬行的过程中,需要动态更新概念背景图,以更好的表示用户的兴趣。使用概念背景图的方法的主题爬行,可以有效地提高主题爬行虫的召回率和精确率,提高爬行效率。
[0035] 更新概念背景图的方法在下面的流程图中进行详细说明。
[0036] 在一实施例中,为了能够给用户提供一个满意的服务,就必须准确得知用户的兴趣所在。一般可以通过通用搜索引擎进行关键字的搜索,在返回的结果集中去跟踪用户的主题兴趣。本发明通过Google 提供的Web Service 接口来返回与用户初始输入的关键词相关的网页,并将这些返回的结果作为候选主题网页,推荐给用户,用户在浏览过程中对其满意的网页会做下标记,这些页面就构成了用户的主题兴趣集合。
[0037] 在获得了用户兴趣主题网页集合之后,就需要利用这些网页来为用户建立一个主题特征关系模型,这个模型要能很好的表现这个主题。本文使用的是形式概念分析的方法,通过建立概念格来表现用户的搜索目标背景。首先将用户精选的网页组合在一起,形成兴趣主题网页集合,对这些网页进行分词处理提取网页集合特征,并采用TF-IDF方法对特征进行加权统计,再对这些特征按照权值大小进行排序,选择排在前面的N个特征作为构建概念格的属性集合。
[0038] 用概念背景图来计算待爬行的网页与用户主题兴趣之间的相似度。实验证明,利用概念的属性词给概念格中的概念分层效果明显,分层方法如下:1)核心概念最能够反映用户的主题兴趣,因此把概念格中的核心概念插入到概念背景图的中间,作为概念背景图的第0层。
[0039] 2)在概念格中的非核心概念中,概念的属性词完全包含核心概念的属性词,与核心概念有较高的相似度,作为概念背景图的第一层中的结点。
[0040] 3)在剩余的非核心概念集中,概念的属性词包含(N-i+1)个核心概念的属性词的那些概念,作为概念背景图的第I 层,其中N表示核心概念中的属性词的个数,i∈[1,N]。
[0041] 把概念格中的每一个概念映射到概念背景图的相应的层次中去,形成概念背景图。
[0042] 增量概念更新概念背景图:如图5,1)增量概念生成步骤:
1、首先根据新对象的属性个数判断该新概念在背景图中的层次N;
2、然后将新对象的属性与背景图中第N-1层上的所有概念属性求交集;
3、根据交集结果的不同,得出不同类型的增量概念;
2)增量式更新概念背景图
a. 找出主题相关的网页
预测得分大的网页即为主题相关的网页
b.更新概念背景图
更新步骤如下:
(i)首先判断增量概念的层次N。
[0043] (ii)然后计算该增量概念与N-1层上所有概念的相似度,取相似度最大的那个概念作为该增量概念的子概念(内层为子概念,外层为父概念),同时在这两个概念之间新增一条边。
[0044] (iii)直到所有的增量概念都加入到概念背景图中。算法描述如下:减少概念更新概念背景图:如图6,
随着时间不断变化,主题爬行虫爬回来的网页中会有一些过时网页,这些网页或者内容不能很好反映用户主题或者已经不存在了,那么相应的概念背景图中会存在一些过时的、不能反映用户主题的信息,这时就需要在概念背景图中及时删除这些过时的信息,这些过时信息在概念背景图中是以概念的形式体现的,通过删除概念背景图中的一些概念达到删除过时信息的目的。步骤如下:
(1)从预测得分低的网页中找到与主题不相关的网页。
[0045] (2)删除与不相关网页有关的概念。
[0046] 使用概念背景图的方法的主题爬行,可以有效地提高主题爬行虫的召回率和精确率,提高爬行效率。
[0047] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈