专利汇可以提供一种从Web网页中获取汉语简称的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种从Web网页中获取汉语简称的方法,包括输入已知全称,选择查询模式来构造查询项,提交查询项到Google中获取锚文本,再从锚文本中获取全简称语料,最后利用提取 算法 提取候选简称,并利用优先级综合函数对候选简称进行排序;其中涉及的查询模式有三种,对应的提取简称的提取算法有两种。本发明还定义了全简称关系的约束,包括一组约束公理和一组约束函数,其中约束公理定性地表示全称和简称之间的约束,约束函数集定量地表示了全称和简称之间的约束,并基于全简称约束提出了一种全简称的分类方法。本发明还定义了全简称关系图,提出了一种基于全简称关系图和全简称关系约束的联合验证方法。,下面是一种从Web网页中获取汉语简称的方法专利的具体信息内容。
1.一种从Web网页中获取汉语简称的方法,其特征在于:包括一下步骤:
步骤1、输入一个给定的汉语全称Fn;
步骤2、选择查询模式来构造查询项,将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料;
步骤3、通过正则表达式,从锚语料中获取出包含查询项的全简称关系的句子,保存下来作为全简称语料;
步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称,形成候选简称集合;
步骤5、对候选简称集合进行基于全简称关系约束的分类,从而形成带有类别标注的候选简称集合;
步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证,从而形成简称集合;
步骤7、对简称集合中同类型的简称进行优先级排序,从而形成带有类别标注的有序简称集合。
2. 根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:在所述步骤2中,若Google返回的查询结果>100条,则N取100,否则N取Google返回的查询结果的条数。
3. 根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:上述步骤2中,所述的查询模式包括三种:查询模式1:“Fn简称”,查询模式2:“Fn*简称”,查询模式3:“全称Fn”;查询模式2是对查询模式1的扩充,在“Fn”和“简称”之间加入了一个“*”,“*”在Google查询中可以匹配任何一个词;因为网页中往往会出现“窦性心律”之类的语料,这种语料用查询模式1无法检索到,但利用查询模式2就能检索到;查询顺序为先选择查询模式1,其次查询模式2,最后查询模式3。
4. 根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:上述步骤4中,简称提取算法EAN包括两个算法CAEA1和CAEA2,当步骤2中选择查询模式1或查询模式2时,步骤4中采用CAEA1来提取An;当步骤2中选择查询模式3时,步骤4中采用CAEA2来提取An。
5. 根据权利要求4所述的一种从Web网页中获取汉语简称的方法,其特征在于:当步骤2选择查询模式1或查询模式2时,步骤4和步骤5执行以下步骤:
步骤A-1、利用算法CAEA1从全简称语料中提取带有tag的候选简称集;
步骤A-2、利用An右边界词表再次确定候选简称集中的候选简称的右边界;
在步骤A-2中,An右边界词表是由待验证的An右边界词表经过人工验证生成的,在算法CAEA1中对待验证的An右边界词表进行动态的添加;
在上述步骤3中,全简称语料中全简称句子分为六种类型:半标号型、后部分型、多合一型、标号对型、无前缀型和有前缀型;从这六种类型的全简称句子中提取出的候选简称,其类型为相应的全简称句子的类型;
半标号型:Can的左右两边只有一边有配对符号,说明该句子很可能不包含完整的An;
后部分型:在全简称句子中,Fn是另一全称“*Fn”的后部分,故Can也是“*Fn”对应的简称“*Can”的后部分,由于过度缩减,Can很可能不是Fn的简称;
多合一型:Fn作为整体的成分与另外的全称一起出现,整体的简称是几个全称的合并式简称;这种语料的结构有一个明显特征:Fn是整体的最后部分且Fn前有连接词;
标号对型:Fn前面无汉字,且Can被配对符号所标出,无需利用算法再确定Can的边界,直接提取;
无前缀型:Fn前面无汉字,且Can未被配对符号所标出,Can无需确定左边界,但需要定右边界;
有前缀型:Fn前面有汉字,Can需要确定左边界和右边界;
在步骤A-1中,所述算法CAEA1的具体内容如下:
候选简称提取算法1:(candidate abbreviation extract algorithm CAEA1)输入:全简称句子fa_sent
输出:带类型标注的候选简称can
将fa_sent 分解成before、fn 和can_sent 三部分,其中fn 是已知的全称,before 是在全简称句子中位于fn 前面的汉字串,can_sent 是在全简称句子中位于“简称”后面的汉字串;
can_sent 的单字表示为can_sent = P1P2…Pn,其中Pi代表一个汉字;
定义can 在can_sent 中的左边界left=1 和右边界right=n,定义can 的类型标记tag=null ;
if can_sent 左边是配对标号and右边不是对应的配对标号
then tag ß 半标号型
end if
if before = null
if tag = null
then tag ß 无前缀型
end if
转step6
end if
if before!= null and tag = null
then tag ß 有前缀型
end if
if before 的最后一个字是“和”或“与”或“及”
then for each Pi∈{P1P2……Pn }
if Pi不在fn中出现
then tag ß 多合一型
转step5
end if
end for each
end if
for each Pi∈{P1P2……Pn }
if Pi不在fn中出现and Pi在before 中出现
then left ß i+1
end if
if Pi在fn中出现
break;
end if
end for each
if left>1
then tag ß 后部分型
end if
if can_sent 被标号对标出 and tag=无前缀型
then tag ß 标号对型
end if
for each Pi∈{PleftPleft+1……Pn-1 }
if Pi在fn的最后一个分词中出现 and Pi+1不在fn 中出现
then rightßi
将Pi右边的一个词加入到待验证的An右边界词表中
end if
end for each
can ß PleftPleft+1……Pright
Return can 。
6. 根据权利要求4所述的一种从Web网页中获取汉语简称的方法,其特征在于:当步骤2选择查询模式3时,步骤4和步骤5执行以下步骤:
步骤B-1、利用算法CAEA2从全简称语料中提取候选简称集;
所述算法CAEA2的具体内容如下:
候选简称提取算法2:(candidate abbreviation extract algorithm CAEA2)输入:全简称句子fa_sent
输出:候选简称can
将fa_sent 分解成can_sent、fn和behind三部分,其中fn是已知的全称,can_sent是在全简称句子中位于“全称”前面的汉字串,behind 是在全简称句子中位于fn 后面的汉字串;
对can_sent和behind分别分词并且标注词性,分词结果为:{P1P2……Pk}和{R1R2……Rn},定义can在can_sent 中的一级左边界下标left1=1,二级左边界下标left2=1,左边界下标left=1 和右边界下标right=k ;
定义动词可截取标志flag_v=0,右边界根据词性可截取标志flag_right=0;
for each Pi∈ {P1P2……Pk}
if Pi和fn有相同的字
then flag_v ß 1;//Pi之后的动词都不可以作为左边界end if
if Pi和fn有相同的字 and left2 = 1
then left2 ß i ;// Pi可能是can的第一个分词
end if
if Pi的词性为“连词”或“介词”或“助词”
then left1ß i+1;
end if
if Pi的词性为“动词”and flag_v = 0
then left1ß i+1;
end if
end for each
for each Pj∈ {PkPk-1……P1}
if Pj 和fn有相同的字
then flag_rightß 1;// Pj可能是can的一个分词
end if
if Pj的词性为“连词”或“介词”或“助词”或“动词”
and flag_right = 0
then rightß j-1;
end if
if Pj 和behind有相同的字 and Pj 和fn无相同的字
then rightß j-1;
end if
if Pj 为标点符号
then rightß j-1;
end if
end for each
if left2 <= right
then left ß left2
end if
if left1 <= right
then left ß left1
end if
return can ß{Pleft……Pright} 。
7. 根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:上述步骤6中,若简称集合为空,且步骤2中还有查询模式可供选择,则重新执行步骤2至7;若简称集合为空,同时步骤2中没有可供选择的查询模式,则退出,表明不能从Web上搜索到所给定全称的简称。
8.根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:上述步骤6中,全简称关系约束是一个四元组R=(Fn,An,F,A),其中,Fn是全称,An是Fn的简称,F是Fn和An之间的约束函数集,A是Fn和An必须满足的约束公理集;约束函数集定量地表示Fn和An之间的约束,约束公理集定性地表示Fn和An之间的约束;
全 简 称 关 系 图 FAG(Fullname and Abbreviation
Graph) 是 一 个 四 元 组, 即 FAG=(F,A,E,f), 其 中,
是全称集, 是简称集,F A是顶点集,
是无向边集,f 是E到F A上的映射,即 ,总存在顶点
和 ,使得 成立,也就是说 是连接 和 的无向
边。
9.根据权利要求8所述的一种从Web网页中获取汉语简称的方法,其特征在于:所述步骤6的具体实现步骤如下:
步骤6-1、利用约束公理集中的约束公理1-5验证候选简称集中的每个候选简称;
步骤6-2、对候选简称集中的候选简称进行基于约束函数集的分类;
步骤6-3、构建全简称关系图,利用全简称关系图对候选简称集中的每个候选简称进行验证;
步骤6-4、由候选简称tag类别、分类类别以及约束函数集生成决策树,利用决策树对候选简称集中的候选简称进行分类,去除类别是“F”的候选简称,保留类别是“T”的候选简称;类别“F”的含义是错误,类别“T”的含义是正确;
在上述的步骤6-1中,对于候选简称集中的每个候选简称Can,验证Fn与Can是否满足公理1-4的约束要求,如果不满足则该候选简称是错误的;
在上述的步骤6-2中,分类的具体方法如下:根据简称是否有异字或异序,分为普通型、异字型和异序型,普通型又根据语境是否相关分为强语境无关型、弱语境无关型和语境相关型,语境无关型再根据Fn在全称集中频度的相对高低分为高频型和低频型,语境相关型根据An对Fn的覆盖重心分为前向型、居中型和后向型;
具体的分类标准和各类简称需要满足的条件为:
高频强语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的每个分词在Can中都有对应,且Can在候选简称集中频度最高;
低频强语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的每个分词在Can中都有对应,且Can在候选简称集中频度不最高;
高频弱语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的大部分分词在Can中都有对应,且Can在候选简称集中频度最高;
低频弱语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的大部分分词在Can中都有对应,且Can在候选简称集中频度不最高;
前向型语境相关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中被省略的分词大多在Fn的后半部分;
居中型语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中前后部分被省略的分词个数差不多;
后向型语境相关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中被省略的分词大多在Fn的前半部分;
异序型的直观意义:Fn包含Can中的所有字但语序有变,Can在候选简称集中频度最高;
异字型的直观意义:Fn不包含Can中的所有字但Can的频度很高或在候选简称集中的相对频度很高;
在上述的步骤6-3中,当输入是单个全称或输入的全称文档中全称的个数小于1000时,该步骤不执行,否则,按照全简称关系图的构图方法构造全简称关系图FAG=(F,A,E,f);
利用全简称关系图进行验证的具体方法如下: ,如果 则
,如果vi的简称类型不是语境无关型,则对于全称vk而言该候选简称vi
是错误的;
通过上述验证之后得到已知全称的简称集,下面对简称集中的简称进行排序;
按优先级综合函数PRI(Fn,Can)对简称集中同一类的简称进行排序;
PRI(Fn,Can)的定义如下:
其中, , 为每个函数在综合评价时采取的权
重。
10.根据权利要求要求8或9所述的一种从Web网页中获取汉语简称的方法,其特征在于:所述约束函数集的具体含义为:
约束函数1:Can的字来自Fn中的比率
Can中的每个汉字都来自于Fn中,在候选简称集中,出现在Fn中的字的比率越高的候选简称的优先级越高;
约束函数1的形式定义和计算如下:
约束函数2:Fn与Can的语序
Can中的字的顺序严格按在Fn中出现的顺序排列;
约 束 函 数 2 的 形 式 定 义 和 计 算 如 下
Fn与Can语序相同蕴含着Can中的所有字都出现在Fn中,若Can中有不出现在Fn中的字,则约束函数2的值为0;
约束函数3:Can对Fn的分词覆盖率
候选简称覆盖全称的分词越多,就越可能成为正确的简称;
约束函数3的形式定义和计算如下:
约束函数4:Can对Fn的分词覆盖重心
全称通常由多个分词组成,有的情况下全称中的一个或多个分词可以在候选简称中被省略,但是被省略的分词应该均匀的分布在全称中,而不应该都集中在全称的前部分或后部分,即Fn中省略的分词分别在Fn的前部分、中间部分和后部分;
约束函数4的形式定义和计算如下:
其中, 对应的 ; 若Fn中被Can1覆盖到的分词均匀分
布在Fn中,而Fn中被Can2覆盖到的分词都分布在Fn的前半部分;根据约束函数4,,所以Can1的优先级比Can2的优先级高;
约束函数5:Fn中未被Can覆盖到的最长连续分词数
候选简称通常由多个分词组成,有的情况下全称中的一个或多个分词可以在简称中被省略,但是被省略的分词在全称中通常不会连续出现,即全称中的分词连续在简称中省略的概率比较小;
约束函数5的形式定义和计算如下:
其中,N表示Fn中所含有的未被覆盖分词串的个数
约束函数6:Fn和Can的长度关系
候选简称对应的全称长度在为候选简称长度的1.5-5倍,全称长度超出这一范围的概率较小;
约束函数6的形式定义和计算如下:
约束函数7:Can在GoogleArchSet(Fn)中出现的频度
由全称到Google上查找简称时,在GoogleArchSet(Fn)中出现频度越高的候选简称的优先级越高;
约束函数7的形式定义和计算如下:
由Fn查找An时,有时会得到几个候选简称,它们构成候选简称集CanSet(Fn),对于CanSet(Fn)中的任意一个候选简称Cani,分析FA(Fn ,Cani)时可以类比CanSet(Fn)中其它候选简称的指标值;
下面的4个约束函数是基于候选简称集定义的;
约束函数8:Can的字来自Fn中的相对比率
与约束函数1相比,约束函数8强调候选简称在CanSet(Fn)中的相对性;
约束函数8的形式定义和计算如下:
约束函数9:在Fn的候选简称集中对Fn的相对覆盖率
与约束函数3相比,约束函数9强调Can在CanSet(Fn)中的相对性,当候选简称对全称的覆盖率都不高时,那么覆盖率相对高的候选简称的优先级更高;
约束函数9的形式定义和计算如下:
约束函数10:Can在候选简称集中的频率
由Fn查找Can时,有时候选简称集中所有的候选简称的频度都非常低,那么约束函数7的约束作用就被淡化,所以约束函数9考虑各候选简称的相对频度,在候选简称集中,频度相对高的候选简称的优先级更高;
约束函数10的形式定义和计算如下:
约束函数11:候选简称集中的元素按照频度升序排序后,Can在其中的相对位置当候选简称集中的元素比较多时,频度比较低的候选的重要性相对比较低;
约束函数11的形式定义和计算如下:
约束函数11的值越低的候选简称的重要性越低;
所述约束公理集的具体含义为:
约束公理1:词长不等公理
形式表示:
直观意义:在全简称关系中,Fn的字数必须大于Can的字数;
约束公理2:陈述语气公理
形式表示:
直观意义:Fn和Can中都不包含疑问词;
约束公理3:形式不重复公理
形式表示:
直观意义:在全简称关系中,Fn和Can都不可以是ss形式的汉字串,其中s是汉字串;
约束公理4:语义不重复公理
形式表示:
直观意义:所有出现在Fn中的汉字,在Fn中出现的次数必须要不小于在Can中出现的次数;
约束公理5:不泛指公理
形式表示:
直观意义:候选简称所对应的全称应该小于等于5个。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种优化信息处理的方法 | 2020-05-17 | 524 |
一种利用近似环额外信息度与分割移位的低错误平层QC-LDPC码构造方法 | 2020-05-15 | 219 |
基于双端读数insertsize分布的contig错误连接区域识别方法 | 2020-05-11 | 96 |
一种解决处理器死机问题的方法 | 2020-05-15 | 153 |
一种利用ACE与Zig-Zag的低错误平层QC-LDPC码构造方案 | 2020-05-16 | 584 |
卫星导航接收机的RAIM实现方法及装置 | 2020-05-17 | 517 |
三绕组常规变压器差动保护正确接线判定方法 | 2020-05-16 | 49 |
读取邮件地址的方法和设备 | 2020-05-12 | 750 |
一种内存重复释放错误检测方法 | 2020-05-15 | 374 |
一种快速骨骼化二值数字图像中图形的方法 | 2020-05-18 | 471 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。