首页 / 专利库 / 电脑编程 / K最近邻算法 / 基于上下文的半结构化数据语义提取的处理方法

基于上下文的半结构化数据语义提取的处理方法

阅读:783发布:2022-01-02

专利汇可以提供基于上下文的半结构化数据语义提取的处理方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及 数据处理 技术领域,特别是具有复杂内部结构和相互之间具有链接结构的基于上下文的半结构化数据语义提取的处理方法,包括:多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法。这些方法能利用数据之间的链接和引用等关联关系、以及数据的各种内部结构进行更有效的语义提取,并能在数据集合包含噪声链接的情况下具有健壮性。,下面是基于上下文的半结构化数据语义提取的处理方法专利的具体信息内容。

1、一种基于上下文的半结构化数据语义提取的处理方法,包括多粒度 语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语 义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法,其特征 在于能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依 赖关系来进行语义提取和主题标定,提高结果的准确率和模型的健壮性。
2、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,半结构化数据资源的多粒度语义模型,多粒度语义模型 通过根据数据对象的内部结构将其分解为具有不同粒度结点的多层描 述,通过建模结点间的结构上下文来刻画结点间的主题相关关系。
3、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,基于多粒度语义模型的两阶段语义提取方法,方法将给 定的Web站点的内部结构分解为页面链接图和DOM树,并用上下文统计 模型来刻画结点间的上下文依赖关系,方法包括如下七大步骤(S1.0- S1.6):
S1.0:输入数据为给定Web站点的URL;
S1.1:根据一定的抓取策略(,利用网页抓取器获取该站点的网页;
S1.2:构造Web站点的网页链接图。包括如下步骤:
S1.2.1:提取站点内部网页之间的链接关系;
S1.2.2:去除Web站点内部的浏览链接、广告链接;
S1.2.3:根据锚点文本计算任意网页间链接的权值;
S1.2.4:采用聚类方法,聚集和合并近邻小结点,并处理链接合 并问题;
S1.2.5:构造站点链接图;
S1.3:为每个网页构造DOM树;
S1.3.1:解析网页,包括HTML或XML格式;
S1.3.2:构造DOM结点;
S1.3.3:采用聚类方法,聚集和合并DOM结点;
S1.4:为每个DOM结点提取特征,特征包括文本关键字、图形特征、 链接特征等;
S1.5:用上下文统计模型来刻画结点间的上下文依赖关系;
S1.6:输出给定Web站点的多粒度语义模型。
4、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,半结构化关系数据资源的上下文依赖网络(CDN)模型,CDN 模型用无向图来刻画一组变量间的概率关系,这些变量的联合分布可以 用一组可独立学习的局部条件分布来近似,同时这些局部条件分布可以 进一步建模为加权边沿概率分布的线性组合。
5、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,基于多粒度语义模型的两阶段语义提取方法,方法采用 隐Markov树作为树结构的统计模型,通过层次分类来实现结果的优化。 方法包括如下四个步骤(S2.1-S2.4):
S2.1:为每个底层结点提取内容特征,特征包括文本关键字、图形特 征、链接特征;
S2.2:利用传统的统计分类算法,根据特征向量来对底层结点进行主 题标定;
S2.3:利用树分类器对中间层结点进行主题标定;
S2.4:基于中间层结点的标定主题,再次利用树分类器对整个数据对 象进行主题标定。
6、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,基于多粒度语义模型的多粒度挖掘方法,方法通过多层 次分类以及基于上下文的优化来得到最优的主题标定结果,方法包括如 下三大步骤(S4.1-S4.3):
S4.1:用树分类器沿粒度由细到粗的方向依次对中间层结点和数据对 象进行第1次粗分类;
S4.1.1:为每个底层结点提取内容特征,特征包括文本关键字、 图形特征、链接特征;
S4.1.2:利用传统的统计分类算法,根据特征向量来对底层结点 进行主题标定;
S4.1.3:利用树分类器对中间层结点进行主题标定;
S4.1.4:基于中间层结点的标定主题,再次利用树分类器对整个 数据对象进行主题标定;
S4.2:利用多粒度上下文模型对树分类器的各层主题标定结果沿粒度 由粗到细的方向依次进行优化,得到第2次结果;
S4.2.1:利用上下文依赖性优化中间层结点的主题标定结果;
S4.2.2:利用上下文依赖性优化底层结点的主题标定结果;
S4.3:在此利用树分类器沿粒度由细到粗的方向依次对中间层结点和 数据对象进行主题标定,得到最终的结果;
S4.3.1:利用内容特征和粒度间上下文依赖关系对底层结点进行 主题标定;
S4.3.2:利用底层结点主题和粒度间上下文依赖关系对中间层结 点进行主题标定;
S4.3.3:利用树分类器对对象进行主题标定。
7、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,基于CDN模型的协作主题标定方法,方法通过在CDN网 络上执行Gibbs推理和影响传播,从而使整个数据集上的语义提取和主 题标定的结果达到最佳,方法包括四大步骤(S3.0-S3.3):
S3.0:输入链接数据;
S3.1(Bootstrap):不考虑对象间的链接关系,使用基于特征向量的 统计方法对数据对象进行初始主题标定;
S3.2(Gibbs Inference):执行Gibbs推理直到收敛;
S3.2.1:根据当前的主题类标签,计算互信息和链接核,计算上 下文依赖函数,构造CDN网络模型;
S3.2.2:采用一定的策略决定Gibbs采用的顺序,例如具有最多 链出链接的数据对象优先,链到更多类邻居的数据对象优先;
S3.2.3:对每一个目标变量,执行影响传播过程;
S3.2.4:计算目标变量的联合后验分布,并进行最大后验(MAP)分 类,得到当前主题标定结果;
S3.2.5:计算当前结果是否达到收敛条件;
S3.3:输出最终的主题标定结果。
8、按权利要求7所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,上下文依赖函数度量方法,上下文依赖函数度量方法用 互信息来度量链接对象之间的统计主题相关程度,用链接核来度量对象 在链接结构中的相似度。
9、按权利要求7所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,CDN网络上的影响传播机制,影响传播机制,用网络中一 个数据对象的信念来影响其他关联对象,形式化描述为:
P [ T i | O i , M ] ( n + 1 ) 1 Z [ Σ O k NC ( O i ) σ i , k ( n ) P [ T i | t k ( n ) ] P [ T i ] P [ T i | O i , M ] ( n ) ] ,
其中P[Ti|Oi,M](n)指第n次迭代过程中的后验概率,P[Ti]为主题变量Ti的先 验概率,P[Ti|tk (n)]为主题tk (n)到主题变量Ti的转移概率,σi,k (n)指数第n次迭 代过程中据对象Oi在Ok上的依赖函数,Z为规范化常数。

说明书全文

技术领域

发明涉及数据处理技术领域,特别是具有复杂内部结构和相互之间 具有链接结构的基于上下文的半结构化数据语义提取的处理方法

技术背景

随着信息和网络技术的发展,在今天我们可以很容易地通过电子和网 络媒体获得数量巨大而且涉及各个领域的信息资源,即所谓的信息爆炸 (Information Explosion)问题已经对迅速有效地组织和索引信息资源 以及信息检索技术产生了迫切的需求。信息非结构化、信息种类多样化、 文档内容涵盖范围广泛等因素对信息组织和检索提出了巨大的挑战。例 如,Web已经成为科学研究、教育学习等领域最重要的信息源和知识库; 但Web信息的指数级增长速度同时也为用户有效的利用带来了巨大的难 度。据统计,1999年2月Web中只含8亿个可访问的网页;到2000年7 月这一数量增长到了21亿个,其增长速度为每天产生730万个新的网页。 近年来广泛得到建设的数字图书馆是另外一个重要的海量信息源。数字 图书馆是保存大量结构化信息的数字化资源库,这些数字资源的生成者 可能是传统的图书馆、博物馆、档案馆、大学、政府部、专业组织或 个人,其目标是让所有的人在任何时间、任何地点可以用任何连接互联 网的数字设备来访问人类所有的知识。以一本书300页、每页1500个字 符计算,百万册数字图书的文本信息共900G,再加上相关的元数据描述, XML文档总的数据量超过1T,同时数字图书馆中还含有大量用于教学、 科研和娱乐的视频和音频等多媒体资源。通过搜索引擎、浏览器等软件 和服务设施,用户可以访问Web或数字图书馆的信息和资源,但是用户 往往需要的是更为精细、更符合需求的知识而不是成堆的信息,例如用 户要求能同时获得表达同一主题的不同媒体形态的信息(例如文本形式 的网页和电子书、图像和文本共存形式的演示文档、视音频形式的多媒 体资料等)。因此为满足用户多样化、个性化、具有多种媒体形态的信息 和知识服务需求,基于Web的信息服务系统(例如网络教育资源管理系 统)以及数字图书馆的内容管理和访问系统必须具有能对这些半结构化 的信息或数据进行有效的语义提取及相关的分析处理功能。

本发明涉及对半结构化数据资源进行语义提取。半结构化数据是指超 文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构 化的字符或数据流组成,但数据对象同时也具有复杂的内部结构,不同 数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。现 有的方法对这类数据的分类存在着如下一些缺点或不足:

1)语义提取过程中多利用纯统计的方法,而利用的语义信息少(如 图1)。语义信息对于检索系统的准确度以及用户需求都有重要的意义。

2)统计方法的重要假设是:所有数据都是具有相同结构的实体,数 据之间是独立且同分布的(Independent and identically distributed, IID)。然而,许多现实数据集本身具有复杂的内部结构,不同数据之间 通过(超)链接、引用等联系起来构成一关系数据集合。这种链接结构 是一种重要的信息源,包含了丰富的语义信息。例如我们可以用传统的 文本挖掘方法来进行超文本的主题提取和分类,即将每个文档用关键字 或术语向量来进行描述,在此基础上对每个网页进行独立的分类。这种 统计方法完全忽略了网页之间的链接结构和网页的内部结构。一般地, 若文档之间有超链接则表明他们的主题具有相关关系;每个文档内部也 具有节、段等结构,而同一节的超链往往可能指向主题更相关的其他文 档。因此,在对这种半结构化数据资源进行处理的过程中,我们不能忽 略数据之间的关系关联(例如超链),这些超链可以使处理具有更高的准 确度。更重要的是,由于数据之间相互关联,我们不能独立地进行不同 数据的处理,而需要同时决定集合中的所有关联数据的主题或类标签。

3)现有的链接方法缺少健壮性。目前国内外某些研究者已经注意到半 结构化数据之间链接的重要性,提出了一些基于链接的分类方法(Link- based classification)。但是,这些方法都假设数据之间的链接关系满 足“百科全书式”(encyclopedia regularity)或“同引式”(co- referencing regularity)链接规律,即假设链接的对象都具有相同或相 关的主题。而事实上,链接数据中有大量的链接并不反映具体的语义含 义,也不具有统计显著的模式(这类链接关系称为噪声链接(Noisy links))。因此,当链接分类方法应用到这样的数据集上时,其分类准确 率将远远低于没有噪声链接的数据集。在各种现实的链接数据中,噪声 是普遍存在的,例如在Web中存在有大量的广告、浏览链接等;同时由 于关系数据的特殊性,我们也不能应用传统的去噪方法(通常假设噪声 满足标准高斯分布)。

为解决上述三个问题,我们需要有新的模型和方法来利用链接、引用 等关系信息来对半结构关系数据进行有效的语义提取和分析。本发明即 给出这样一种语义提取方法。方法的核心是从内部结构和相关关系等两 方面来建模数据之间的上下文依赖关系,在此基础上构造健壮的语义模 型。

发明内容

本发明的目的在于给半结构化数据资源提供一种基于上下文的语义 提取和分析处理方法,这种方法能利用数据之间的链接和引用等关联关 系、以及数据的各种内部结构进行更有效的语义提取,能在数据集合包 含噪声链接的情况下具有健壮性。这种方法能直接应用在不同的半结构 化数据资源。本发明的半结构化数据是指超文本、Web网页、数字图书、 教育资源等,这些数据对象本身由非结构化的字符或数据流组成,但数 据对象同时也具有复杂的内部结构,不同数据对象之间通过(超)链接、 引用等联系起来构成关系数据集合。
为实现上述目的,本发明提出多粒度语义模型来建模这些半结构化 数据的内部多层语义结构,以及上下文依赖网络模型(CDN)来建模数据之 间的链接语义关系。本发明的多粒度语义模型可以用于建模具有复杂内 在结构的半结构化数据对象,从而能有效地刻画数据对象内部结点间上 下文主题相关关系;CDN模型可以用于各种通过(显式或隐式)链接、 引用、参照等关联起来的关系数据,从而能刻画数据对象间的上下文相 关关系,使模型本身具有对不同链接特征的选择性。同时,本发明以Web 站点为例,给出了一种多粒度语义模型的构建方法,即将给定的Web站 点的内部结构分解为页面链接图和DOM树,并用上下文统计模型来刻画 结点间的上下文依赖关系。
基于多粒度语义模型和CDN模型,本发明针对不同数据对象(或集 合)提出了三种语义提取和处理方法。对单个半结构化数据(如单个Web 网页、单个数字图书等)采用两阶段语义提取和主题标定方法;对具有 简单内部结构或无内部结构的数据资源集合(如Web网页集合、学术论 文集合、简单教育资源集合等)采用基于CDN模型的链接数据协作主题 标定方法;而对具有复杂内部结构的数据资源集合(如Web网站集合、 数字图书、复杂教育资源集合等)采用多粒度语义挖掘方法。
本发明的特征在于能有效地利用各种上下文依赖关系(包括数据对 象内部的同一粒度结构上下文和粒度间上下文,以及数据对象间的链接 上下文等)进行更有效的语义提取,从而能有效提高复杂数据对象的语 义提取和主题标定的准确率。
基于上下文的半结构化数据语义提取的处理方法,包括多粒度语义 模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提 取和多粒度挖掘方法、基于CDN模型的协作主题标定方法,其特征在于 能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依赖关 系来进行语义提取和主题标定,提高结果的准确率和模型的健壮性。
所述的基于上下文的半结构化数据语义提取的处理方法,半结构化 数据资源的多粒度语义模型,多粒度语义模型通过根据数据对象的内部结 构将其分解为具有不同粒度结点的多层描述,通过建模结点间的结构上 下文来刻画结点间的主题相关关系。
半结构化关系数据资源的上下文依赖网络(CDN)模型,CDN模型用无 向图来刻画一组变量间的概率关系,这些变量的联合分布可以用一组可 独立学习的局部条件分布来近似,同时这些局部条件分布可以进一步建 模为加权边沿概率分布的线性组合。
所述的基于上下文的半结构化数据语义提取的处理方法,上下文依 赖函数度量方法,上下文依赖函数度量方法用互信息来度量链接对象之间 的统计主题相关程度,用链接核来度量对象在链接结构。
附图说明
图1.一般的统计机器学习流程图
图2.基于上下文的半结构化数据语义提取和主题标定的总流程 图。
图3.半结构化数据的多粒度语义模型图。
图4.Web站点的多粒度语义模型构建流程(S1)图。
图5.三种用于对象内部不同结点依赖关系的树结构统计模型图。
图6.直接基于树结构模型的语义标定方法图。
图7.基于多粒度语义模型的两阶段语义提取流程(S2)图。
图8.半结构化关系数据的CDN模型图。
图9.基于CDN的链接数据协作主题标定流程(S3)图。
图10.半结构化数据资源的多粒度挖掘流程(S4)图。

具体实施方式

下面结合附图描述本发明。图2描述了基于上下文的半结构化数据语 义提取和主题标定的总流程。为有效地利用数据之间的链接和引用等关 联关系、以及数据的各种内部结构进行更有效的语义提取,本发明提出 了三种面向不同数据对象(或集合)的语义提取和处理方法。下面分别 进行描述。
1.对单个半结构化数据
图3描述了半结构化数据的多粒度语义模型。许多半结构化数据对 象一般具有较好的结构信息,内部包括有多层的语义结构,例如数字图 书分不同章节,具有题目、摘要等部分;网页可以分为不同的DOM(Document Object Model)结点。这些内部结点之间具有结构上和语义上的关联关 系,例如数字图书中相邻章节之间的语义关联总高于不相邻章节之间的 语义关联。因此这样的半结构化数据对象可以进一步用一个链接结点图 来表示。有时某些半结构化数据对象的高层结点可以再分解为更底层的 结点,例如Web网站可以描述为一个网页结构图,每个网页又可以描述 为一棵DOM树。而最底层的结点可以直接用不同的特征向量来描述(例 如文本关键字向量、图像视觉特征向量等)。这种多层结构就构成了半结 构化数据的多粒度语义模型。图4给出了一种构造这种多粒度语义模型 的例子:
数据处理流程S1:Web站点的多粒度语义模型构建流程,参见图4。
基于多粒度语义模型的两阶段语义提取方法,方法将给定的Web站点的 内部结构分解为页面链接图和DOM树,并用上下文统计模型来刻画结点 间的上下文依赖关系。方法包括如下七大步骤(S1.0-S1.6):   S1.0:输入数据为给定Web站点的UR;   S1.1:根据一定的抓取策略(例如下载站点所有的网页或只下   载5层内的所有网页),利用网页抓取器获取该站点的网页;   S1.2:构造Web站点的网页链接图。包括如下步骤:   S1.2.1提取站点内部网页之间的链接关系;   S1.2.2去除Web站点内部的浏览链接、广告链接;   S1.2.3根据锚点文本计算任意网页间链接的权值;   S1.2.4采用聚类方法,聚集和合并近邻小结点。其中小结点   一般指少于50字符的网页。在合并过程中需要处理链接合并问   题;   S1.2.5构造站点链接图;   S1.3:为每个网页构造DOM树;   S1.3.1解析网页,包括HTML或XML格式;   S1.3.2构造DOM结点;   S1.3.3采用聚类方法,聚集和合并DOM结点;   S1.4:为每个DOM结点提取特征,特征包括文本关键字、图形   特征、链接特征等;   S1.5:用上下文统计模型来刻画结点间的上下文依赖关系;   S1.6:输出给定Web站点的多粒度语义模型。
多粒度语义模型奠定了对半结构化数据对象进行语义分析和处理的基 础,它和不同的统计模型结合即可直接构造不同的分析和处理方法。
图5描述了三种用于对象内部不同结点依赖关系的树结构统计模型,分 别为结点间相互独立的0阶Markov树,结点间具有1阶依赖关系的1阶 Markov树,以及结点的主题(而非结点本身)间具有1阶依赖关系的隐 Markov树(HMT)。其中(a)0阶Markov树;(b)1阶Markov树; (c)隐Markov树(HMT)
图6给出了直接基于这种树结构模型的语义标定方法。但这种方法只利 用了数据对象的内部结点间部分主题相关关系,因此只适用于简单的数 据对象。
对单个半结构化数据资源(如单个Web网页、单个图书等),本发明提 出两阶段语义提取和主题标定方法,其特征在于通过使用多粒度语义模 型,数据对象内部多个层次的主题相关关系被利用来进行有效的语义提 取和主题标定。例如通过站点内部的网页内容来判定一个Web站点的主 题。在最简单情况下,站点内部的所有网页都描述同一个内容,因此可 以很方便地判定站点的内容。但实际情况往往更为复杂:站点内部的网 页往往涉及很多不同的主题,甚至每个网页也包含了多个主题,在这种 情况下需要判定不同页面、甚至页面不同部分之间的主题相关性,从而 最终确定整个网站的主题。本发明给出了一种利用这些上下文主题相关 性的两阶段语义提取和主题标定方法:
数据处理流程S2:基于多粒度语义模型的两阶段语义提取方法,参见图 7。
基于多粒度语义模型的两阶段语义提取方法,方法采用隐Markov树作 为树结构的统计模型,通过层次分类来实现结果的优化,方法包括如下四 个步骤(S2.1-S2.4):   S2.1:为每个底层结点提取内容特征,特征包括文本关键字、   图形特征、链接特征等。一般地,特征都表示为特征向量形式;   S2.2:利用传统的统计分类算法,例如质朴Bayes,支持向量   机(SVM)等,根据特征向量来对底层结点进行主题标定;   S2.3:利用树分类器(例如基于Markov树的分类器、基于HMT   的分类器等)对中间层结点进行主题标定;   S2.4:基于中间层结点的标定主题,再次利用树分类器(例如   基于Markov树的分类器、基于HMT的分类器等)对整个数据对   象进行主题标定。
2.对具有简单内部结构或无内部结构的数据资源集合
现实世界中的数据对象往往是通过各种关系链接到一起的。例如多 个网页或网站之间存则超链接(Hyperlinks),学术论文或教育资源之间 通过引用(Citations)关系联接起来。这些链接关系往往表现了一些显著 的模式,或者传达了链接编辑者的一个观点,即只有相互之间有主题相 关的数据对象之间才有链接。因此这样的“链接”信息可以用于对数据 对象的主题进行标定和语义提取。针对这样的数据资源集合(如Web网 页集合、学术论文集合、简单教育资源集合等),本发明提出基于CDN的 链接数据主题提取和主题标定方法。方法的特征在于:1)使用上下文依 赖网络(CDN)模型来刻画数据对象之间的主题依赖关系;2)基于链接语 义核和互信息提出一种可行的上下文依赖函数度量方法;3)使用Gibbs 采样来在CDN模型上执行近似推理,在每个推理步骤中执行影响传播 (influence propagation)来用网络中一个数据对象的信念来影响其他关 联对象。
图8描述了半结构化数据资源的上下文依赖网络(CDN)模型。作为一 种扩展的依赖网络(DN),CDN用无向图来刻画一组变量间的概率关系, 并用一组可以独立学习的局部条件分布来近似这些变量的联合分布。在 此基础上,CDN进一步将局部条件分布建模为加权边沿概率分布的线性 组合,即:
P [ T 1 , , T N | Π ] = Π i = 1 N P [ T i | T NC ( O i ) ] = Π i = 1 N ( Σ O k NC ( O i ) σ i , k P [ T i | T k ] ) ,
其中σi,k指数据对象Oi在Ok上的依赖函数,它定量度量了Oi对Ok的上下文 依赖关系,也即Ok对Oi分类的影响。若σi,k较小,则表明Ok对Oi分类的影 响小,而这样的Ok与Oi具有较小的语义相关性,因此我们在Oi的分类过 程中去除对象Ok的影响。这种上下文去噪方法能有效降低噪声链接对分 类噪声的影响,从而使得CDN模型能在噪声数据集上保持较高的健壮性。
同时,本发明基于链接语义核和互信息提出一种可行的上下文依赖 函数度量方法,其中互信息度量了链接对象之间的统计主题相关程度, 而链接核则度量了对象在链接结构中的相似度。根据不同的链接核函数, 我们可以得到不同的上下文依赖函数度量形式,例如采用Sigmoid核函 数时,依赖函数可以采用如下形式:
σ i , j = 1 Z tanh ( < a i , a j > + β ) I ( O i ; O j ) ,
其中表示Oi与Oj的点积,I(Oi;Oj)表示Oi与Oj之间的互信息,Z为 规范化常数,β为控制参数。
在对链接数据进行语义提取和主题标定的过程中,由于数据之间相互 关联,我们不能独立地进行不同数据对象的处理,而需要采用协作主题 标定方法来同时决定集合中的所有关联数据的主题或类标签。在协作标 定过程中,我们需要Gibbs推理来迭代估计给定数据下目标变量的联合 后验概率。对每个对象的目标主题类变量,Gibbs推理在CDN网络上执 行影响传播来用网络中一个数据对象的信念来影响其他关联对象。形式 化地,影响传播可以用如下公式进行描述:
P [ T i | O i , M ] ( n + 1 ) 1 Z [ Σ O k NC ( O i ) σ i , k ( n ) P [ T i | t k ( n ) ] P [ T i ] P [ T i | O i , M ] ( n ) ] ,
其中P[Ti|Oi,M](n)指第n次迭代过程中的后验概率,P[Ti]为主题变量Ti的先 验概率,P[Ti|tk (n))]为主题tk (n)到主题变量Ti的转移概率,σi,k指数据对象Oi 在Ok上的依赖函数,Z为规范化常数。经过足够的迭代次数,给定数据 下目标变量的联合后验概率达到收敛。本发明提出了基于CDN的链接数 据主题提取和主题标定方法。
数据处理流程S3:基于CDN的链接数据协作主题标定方法,参见图9。
基于CDN模型的协作主题标定方法,通过在CDN网络上执行Gibbs推 理和影响传播,从而使整个数据集上的语义提取和主题标定的结果达到 最佳,方法包括四大步骤(S3.0-S3.3):   S3.0输入链接数据。一般地,链接数据可以描述为图、关系表   等形式。   S3.1(Bootstrap):不考虑对象间的链接关系,使用基于特征向   量的统计方法对数据对象进行初始主题标定;   S3.2(Gibbs Inference):执行Gibbs推理直到收敛。   S3.2.1根据当前的主题类标签,计算互信息和链接核,计算   上下文依赖函数,构造CDN网络模型;   S3.2.2采用一定的策略决定Gibbs采用的顺序,例如具有最   多链出链接的数据对象优先,链到更多类邻居的数据对象优先   等;   S3.2.3对每一个目标变量,执行影响传播过程   S3.2.4计算目标变量的联合后验分布,并进行最大后验(MAP)   分类,得到当前主题标定结果。   S3.2.5计算当前结果是否达到收敛条件。   S3.3:输出最终的主题标定结果。
3.对具有复杂内部结构的数据资源集合
对具有复杂内部结构的数据资源集合:一方面,这些数据资源本身具 有复杂的内部结构,因此我们可以用多粒度语义模型来建模其内部结点 间的语义相关关系;另一方面,不同的数据资源之间也具有超链、引用 等链接关系,这些关系可以进一步利用来对目标对象进行语义提取和标 定。更重要的是,我们不是简单的对两种方法进行组合,而是利用下层 结点对上层结点的上下文依赖关系来对下层结点的分类结果进行优化。 令Wk (i)为第i层的第k个结点,Tk (i)为其主题属性,NCk (i)为其链接邻居, 则优化的公式描述为:
P ( T k ( i ) | W k ( i ) , NC k ( i ) ) = = αP ( T k ( i ) | W k ( i ) ) P ( T k ( i ) | NC k ( i ) ) P ( T k ( i ) )
其中 P ( W k ( i ) ) P ( W k ( i ) | NC k ( i ) ) 可视为比例常数α。
这种针对具有复杂内部结构的数据资源集合的多粒度挖掘流程(S5)可 以描述如下:
数据处理流程S4:半结构化数据资源的多粒度挖掘方法,参见图10。
基于多粒度语义模型的多粒度挖掘方法,方法通过多层次分类以及基于 上下文的优化来得到最优的主题标定结果,方法包括如下三大步骤(S4.1- S4.3):   S4.1用树分类器沿粒度由细到粗的方向依次对中间层结点和数   据对象进行第1次粗分类;   S4.1.1:为每个底层结点提取内容特征,特征包括文本关键   字、图形特征、链接特征等。一般地,特征都表示为特征向量   形式;   S4.1.2:利用传统的统计分类算法,根据特征向量来对底层   结点进行主题标定;   S4.1.3利用树分类器对中间层结点进行主题标定;   S4.1.4基于中间层结点的标定主题,再次利用树分类器对整   个数据对象进行主题标定。   S4.2利用多粒度上下文模型对树分类器的各层主题标定结果沿   粒度由粗到细的方向依次进行优化,得到第2次结果;   S4.2.1利用上下文依赖性优化中间层结点的主题标定结果;   S4.2.2利用上下文依赖性优化底层结点的主题标定结果。   S4.3在此利用树分类器沿粒度由细到粗的方向依次对中间层结   点和数据对象进行主题标定,得到最终的结果。   S4.3.1利用内容特征和粒度间上下文依赖关系对底层结点进   行主题标定;   S4.3.2利用底层结点主题和粒度间上下文依赖关系对中间层   结点进行主题标定;   S4.3.3利用树分类器对对象进行主题标定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈