专利汇可以提供基于上下文的半结构化数据语义提取的处理方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及 数据处理 技术领域,特别是具有复杂内部结构和相互之间具有链接结构的基于上下文的半结构化数据语义提取的处理方法,包括:多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法。这些方法能利用数据之间的链接和引用等关联关系、以及数据的各种内部结构进行更有效的语义提取,并能在数据集合包含噪声链接的情况下具有健壮性。,下面是基于上下文的半结构化数据语义提取的处理方法专利的具体信息内容。
1、一种基于上下文的半结构化数据语义提取的处理方法,包括多粒度 语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语 义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法,其特征 在于能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依 赖关系来进行语义提取和主题标定,提高结果的准确率和模型的健壮性。
2、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,半结构化数据资源的多粒度语义模型,多粒度语义模型 通过根据数据对象的内部结构将其分解为具有不同粒度结点的多层描 述,通过建模结点间的结构上下文来刻画结点间的主题相关关系。
3、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,基于多粒度语义模型的两阶段语义提取方法,方法将给 定的Web站点的内部结构分解为页面链接图和DOM树,并用上下文统计 模型来刻画结点间的上下文依赖关系,方法包括如下七大步骤(S1.0- S1.6):
S1.0:输入数据为给定Web站点的URL;
S1.1:根据一定的抓取策略(,利用网页抓取器获取该站点的网页;
S1.2:构造Web站点的网页链接图。包括如下步骤:
S1.2.1:提取站点内部网页之间的链接关系;
S1.2.2:去除Web站点内部的浏览链接、广告链接;
S1.2.3:根据锚点文本计算任意网页间链接的权值;
S1.2.4:采用聚类方法,聚集和合并近邻小结点,并处理链接合 并问题;
S1.2.5:构造站点链接图;
S1.3:为每个网页构造DOM树;
S1.3.1:解析网页,包括HTML或XML格式;
S1.3.2:构造DOM结点;
S1.3.3:采用聚类方法,聚集和合并DOM结点;
S1.4:为每个DOM结点提取特征,特征包括文本关键字、图形特征、 链接特征等;
S1.5:用上下文统计模型来刻画结点间的上下文依赖关系;
S1.6:输出给定Web站点的多粒度语义模型。
4、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,半结构化关系数据资源的上下文依赖网络(CDN)模型,CDN 模型用无向图来刻画一组变量间的概率关系,这些变量的联合分布可以 用一组可独立学习的局部条件分布来近似,同时这些局部条件分布可以 进一步建模为加权边沿概率分布的线性组合。
5、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,基于多粒度语义模型的两阶段语义提取方法,方法采用 隐Markov树作为树结构的统计模型,通过层次分类来实现结果的优化。 方法包括如下四个步骤(S2.1-S2.4):
S2.1:为每个底层结点提取内容特征,特征包括文本关键字、图形特 征、链接特征;
S2.2:利用传统的统计分类算法,根据特征向量来对底层结点进行主 题标定;
S2.3:利用树分类器对中间层结点进行主题标定;
S2.4:基于中间层结点的标定主题,再次利用树分类器对整个数据对 象进行主题标定。
6、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,基于多粒度语义模型的多粒度挖掘方法,方法通过多层 次分类以及基于上下文的优化来得到最优的主题标定结果,方法包括如 下三大步骤(S4.1-S4.3):
S4.1:用树分类器沿粒度由细到粗的方向依次对中间层结点和数据对 象进行第1次粗分类;
S4.1.1:为每个底层结点提取内容特征,特征包括文本关键字、 图形特征、链接特征;
S4.1.2:利用传统的统计分类算法,根据特征向量来对底层结点 进行主题标定;
S4.1.3:利用树分类器对中间层结点进行主题标定;
S4.1.4:基于中间层结点的标定主题,再次利用树分类器对整个 数据对象进行主题标定;
S4.2:利用多粒度上下文模型对树分类器的各层主题标定结果沿粒度 由粗到细的方向依次进行优化,得到第2次结果;
S4.2.1:利用上下文依赖性优化中间层结点的主题标定结果;
S4.2.2:利用上下文依赖性优化底层结点的主题标定结果;
S4.3:在此利用树分类器沿粒度由细到粗的方向依次对中间层结点和 数据对象进行主题标定,得到最终的结果;
S4.3.1:利用内容特征和粒度间上下文依赖关系对底层结点进行 主题标定;
S4.3.2:利用底层结点主题和粒度间上下文依赖关系对中间层结 点进行主题标定;
S4.3.3:利用树分类器对对象进行主题标定。
7、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,基于CDN模型的协作主题标定方法,方法通过在CDN网 络上执行Gibbs推理和影响传播,从而使整个数据集上的语义提取和主 题标定的结果达到最佳,方法包括四大步骤(S3.0-S3.3):
S3.0:输入链接数据;
S3.1(Bootstrap):不考虑对象间的链接关系,使用基于特征向量的 统计方法对数据对象进行初始主题标定;
S3.2(Gibbs Inference):执行Gibbs推理直到收敛;
S3.2.1:根据当前的主题类标签,计算互信息和链接核,计算上 下文依赖函数,构造CDN网络模型;
S3.2.2:采用一定的策略决定Gibbs采用的顺序,例如具有最多 链出链接的数据对象优先,链到更多类邻居的数据对象优先;
S3.2.3:对每一个目标变量,执行影响传播过程;
S3.2.4:计算目标变量的联合后验分布,并进行最大后验(MAP)分 类,得到当前主题标定结果;
S3.2.5:计算当前结果是否达到收敛条件;
S3.3:输出最终的主题标定结果。
8、按权利要求7所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,上下文依赖函数度量方法,上下文依赖函数度量方法用 互信息来度量链接对象之间的统计主题相关程度,用链接核来度量对象 在链接结构中的相似度。
9、按权利要求7所述的基于上下文的半结构化数据语义提取的处理方 法,其特征在于,CDN网络上的影响传播机制,影响传播机制,用网络中一 个数据对象的信念来影响其他关联对象,形式化描述为:
其中P[Ti|Oi,M](n)指第n次迭代过程中的后验概率,P[Ti]为主题变量Ti的先 验概率,P[Ti|tk (n)]为主题tk (n)到主题变量Ti的转移概率,σi,k (n)指数第n次迭 代过程中据对象Oi在Ok上的依赖函数,Z为规范化常数。
本发明涉及数据处理技术领域,特别是具有复杂内部结构和相互之间 具有链接结构的基于上下文的半结构化数据语义提取的处理方法。
技术背景
随着信息和网络技术的发展,在今天我们可以很容易地通过电子和网 络媒体获得数量巨大而且涉及各个领域的信息资源,即所谓的信息爆炸 (Information Explosion)问题已经对迅速有效地组织和索引信息资源 以及信息检索技术产生了迫切的需求。信息非结构化、信息种类多样化、 文档内容涵盖范围广泛等因素对信息组织和检索提出了巨大的挑战。例 如,Web已经成为科学研究、教育学习等领域最重要的信息源和知识库; 但Web信息的指数级增长速度同时也为用户有效的利用带来了巨大的难 度。据统计,1999年2月Web中只含8亿个可访问的网页;到2000年7 月这一数量增长到了21亿个,其增长速度为每天产生730万个新的网页。 近年来广泛得到建设的数字图书馆是另外一个重要的海量信息源。数字 图书馆是保存大量结构化信息的数字化资源库,这些数字资源的生成者 可能是传统的图书馆、博物馆、档案馆、大学、政府部门、专业组织或 个人,其目标是让所有的人在任何时间、任何地点可以用任何连接互联 网的数字设备来访问人类所有的知识。以一本书300页、每页1500个字 符计算,百万册数字图书的文本信息共900G,再加上相关的元数据描述, XML文档总的数据量超过1T,同时数字图书馆中还含有大量用于教学、 科研和娱乐的视频和音频等多媒体资源。通过搜索引擎、浏览器等软件 和服务设施,用户可以访问Web或数字图书馆的信息和资源,但是用户 往往需要的是更为精细、更符合需求的知识而不是成堆的信息,例如用 户要求能同时获得表达同一主题的不同媒体形态的信息(例如文本形式 的网页和电子书、图像和文本共存形式的演示文档、视音频形式的多媒 体资料等)。因此为满足用户多样化、个性化、具有多种媒体形态的信息 和知识服务需求,基于Web的信息服务系统(例如网络教育资源管理系 统)以及数字图书馆的内容管理和访问系统必须具有能对这些半结构化 的信息或数据进行有效的语义提取及相关的分析处理功能。
本发明涉及对半结构化数据资源进行语义提取。半结构化数据是指超 文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构 化的字符或数据流组成,但数据对象同时也具有复杂的内部结构,不同 数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。现 有的方法对这类数据的分类存在着如下一些缺点或不足:
1)语义提取过程中多利用纯统计的方法,而利用的语义信息少(如 图1)。语义信息对于检索系统的准确度以及用户需求都有重要的意义。
2)统计方法的重要假设是:所有数据都是具有相同结构的实体,数 据之间是独立且同分布的(Independent and identically distributed, IID)。然而,许多现实数据集本身具有复杂的内部结构,不同数据之间 通过(超)链接、引用等联系起来构成一关系数据集合。这种链接结构 是一种重要的信息源,包含了丰富的语义信息。例如我们可以用传统的 文本挖掘方法来进行超文本的主题提取和分类,即将每个文档用关键字 或术语向量来进行描述,在此基础上对每个网页进行独立的分类。这种 统计方法完全忽略了网页之间的链接结构和网页的内部结构。一般地, 若文档之间有超链接则表明他们的主题具有相关关系;每个文档内部也 具有节、段等结构,而同一节的超链往往可能指向主题更相关的其他文 档。因此,在对这种半结构化数据资源进行处理的过程中,我们不能忽 略数据之间的关系关联(例如超链),这些超链可以使处理具有更高的准 确度。更重要的是,由于数据之间相互关联,我们不能独立地进行不同 数据的处理,而需要同时决定集合中的所有关联数据的主题或类标签。
3)现有的链接方法缺少健壮性。目前国内外某些研究者已经注意到半 结构化数据之间链接的重要性,提出了一些基于链接的分类方法(Link- based classification)。但是,这些方法都假设数据之间的链接关系满 足“百科全书式”(encyclopedia regularity)或“同引式”(co- referencing regularity)链接规律,即假设链接的对象都具有相同或相 关的主题。而事实上,链接数据中有大量的链接并不反映具体的语义含 义,也不具有统计显著的模式(这类链接关系称为噪声链接(Noisy links))。因此,当链接分类方法应用到这样的数据集上时,其分类准确 率将远远低于没有噪声链接的数据集。在各种现实的链接数据中,噪声 是普遍存在的,例如在Web中存在有大量的广告、浏览链接等;同时由 于关系数据的特殊性,我们也不能应用传统的去噪方法(通常假设噪声 满足标准高斯分布)。
为解决上述三个问题,我们需要有新的模型和方法来利用链接、引用 等关系信息来对半结构关系数据进行有效的语义提取和分析。本发明即 给出这样一种语义提取方法。方法的核心是从内部结构和相关关系等两 方面来建模数据之间的上下文依赖关系,在此基础上构造健壮的语义模 型。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于非线性增强子空间聚类的图像识别方法 | 2020-05-11 | 634 |
三维裁剪Voronoi图的多线程并行计算方法、系统 | 2020-05-08 | 167 |
一种基于CBR和RBR的机器人焊接工艺参数优化方法 | 2020-05-11 | 581 |
一种基于步长匹配的行人室内定位方法 | 2020-05-12 | 175 |
基于多传感网络的室内活动检测识别方法及系统 | 2020-05-12 | 678 |
一种基于加权联合最近邻的多任务稀疏表示检测方法 | 2020-05-08 | 944 |
一种基于光流颜色聚类的运动物体分割方法及其系统 | 2020-05-11 | 769 |
基于深度卷积特征和语义近邻的多标签图像补全方法 | 2020-05-08 | 234 |
基于多元时移多尺度排列熵的滚动轴承故障诊断方法 | 2020-05-13 | 286 |
高分辨率遥感影像的海上典型人造目标识别系统及方法 | 2020-05-08 | 22 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。