首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 明显错误 / 一种从Web网页中获取汉语简称的方法

一种从Web网页中获取汉语简称的方法

阅读:417发布:2021-03-13

专利汇可以提供一种从Web网页中获取汉语简称的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种从Web网页中获取汉语简称的方法,包括输入已知全称,选择查询模式来构造查询项,提交查询项到Google中获取锚文本,再从锚文本中获取全简称语料,最后利用提取 算法 提取候选简称,并利用优先级综合函数对候选简称进行排序;其中涉及的查询模式有三种,对应的提取简称的提取算法有两种。本发明还定义了全简称关系的约束,包括一组约束公理和一组约束函数,其中约束公理定性地表示全称和简称之间的约束,约束函数集定量地表示了全称和简称之间的约束,并基于全简称约束提出了一种全简称的分类方法。本发明还定义了全简称关系图,提出了一种基于全简称关系图和全简称关系约束的联合验证方法。,下面是一种从Web网页中获取汉语简称的方法专利的具体信息内容。

1.一种从Web网页中获取汉语简称的方法,其特征在于:包括一下步骤:
步骤1、输入一个给定的汉语全称Fn;
步骤2、选择查询模式来构造查询项,将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料;
步骤3、通过正则表达式,从锚语料中获取出包含查询项的全简称关系的句子,保存下来作为全简称语料;
步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称,形成候选简称集合;
步骤5、对候选简称集合进行基于全简称关系约束的分类,从而形成带有类别标注的候选简称集合;
步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证,从而形成简称集合;
步骤7、对简称集合中同类型的简称进行优先级排序,从而形成带有类别标注的有序简称集合。
2. 根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:在所述步骤2中,若Google返回的查询结果>100条,则N取100,否则N取Google返回的查询结果的条数。
3. 根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:上述步骤2中,所述的查询模式包括三种:查询模式1:“Fn简称”,查询模式2:“Fn*简称”,查询模式3:“全称Fn”;查询模式2是对查询模式1的扩充,在“Fn”和“简称”之间加入了一个“*”,“*”在Google查询中可以匹配任何一个词;因为网页中往往会出现“窦性心律”之类的语料,这种语料用查询模式1无法检索到,但利用查询模式2就能检索到;查询顺序为先选择查询模式1,其次查询模式2,最后查询模式3。
4. 根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:上述步骤4中,简称提取算法EAN包括两个算法CAEA1和CAEA2,当步骤2中选择查询模式1或查询模式2时,步骤4中采用CAEA1来提取An;当步骤2中选择查询模式3时,步骤4中采用CAEA2来提取An。
5. 根据权利要求4所述的一种从Web网页中获取汉语简称的方法,其特征在于:当步骤2选择查询模式1或查询模式2时,步骤4和步骤5执行以下步骤:
步骤A-1、利用算法CAEA1从全简称语料中提取带有tag的候选简称集;
步骤A-2、利用An右边界词表再次确定候选简称集中的候选简称的右边界;
在步骤A-2中,An右边界词表是由待验证的An右边界词表经过人工验证生成的,在算法CAEA1中对待验证的An右边界词表进行动态的添加;

在上述步骤3中,全简称语料中全简称句子分为六种类型:半标号型、后部分型、多合一型、标号对型、无前缀型和有前缀型;从这六种类型的全简称句子中提取出的候选简称,其类型为相应的全简称句子的类型;
半标号型:Can的左右两边只有一边有配对符号,说明该句子很可能不包含完整的An;
后部分型:在全简称句子中,Fn是另一全称“*Fn”的后部分,故Can也是“*Fn”对应的简称“*Can”的后部分,由于过度缩减,Can很可能不是Fn的简称;
多合一型:Fn作为整体的成分与另外的全称一起出现,整体的简称是几个全称的合并式简称;这种语料的结构有一个明显特征:Fn是整体的最后部分且Fn前有连接词;
标号对型:Fn前面无汉字,且Can被配对符号所标出,无需利用算法再确定Can的边界,直接提取;
无前缀型:Fn前面无汉字,且Can未被配对符号所标出,Can无需确定左边界,但需要定右边界;
有前缀型:Fn前面有汉字,Can需要确定左边界和右边界;

在步骤A-1中,所述算法CAEA1的具体内容如下:
候选简称提取算法1:(candidate abbreviation extract algorithm CAEA1)输入:全简称句子fa_sent
输出:带类型标注的候选简称can
将fa_sent 分解成before、fn 和can_sent 三部分,其中fn 是已知的全称,before 是在全简称句子中位于fn 前面的汉字串,can_sent 是在全简称句子中位于“简称”后面的汉字串;
can_sent 的单字表示为can_sent = P1P2…Pn,其中Pi代表一个汉字;
定义can 在can_sent 中的左边界left=1 和右边界right=n,定义can 的类型标记tag=null ;
if can_sent 左边是配对标号and右边不是对应的配对标号
then tag ß 半标号型
end if
if before = null
if tag = null
then tag ß 无前缀型
end if
转step6
end if
if before!= null and tag = null
then tag ß 有前缀型
end if
if before 的最后一个字是“和”或“与”或“及”
then for each Pi∈{P1P2……Pn }
if Pi不在fn中出现
then tag ß 多合一型
转step5
end if
end for each
end if
for each Pi∈{P1P2……Pn }
if Pi不在fn中出现and Pi在before 中出现
then left ß i+1
end if
if Pi在fn中出现
break;
end if
end for each
if left>1
then tag ß 后部分型
end if
if can_sent 被标号对标出 and tag=无前缀型
then tag ß 标号对型
end if
for each Pi∈{PleftPleft+1……Pn-1 }
if Pi在fn的最后一个分词中出现 and Pi+1不在fn 中出现
then rightßi
将Pi右边的一个词加入到待验证的An右边界词表中
end if
end for each
can ß PleftPleft+1……Pright
Return can 。
6. 根据权利要求4所述的一种从Web网页中获取汉语简称的方法,其特征在于:当步骤2选择查询模式3时,步骤4和步骤5执行以下步骤:
步骤B-1、利用算法CAEA2从全简称语料中提取候选简称集;
所述算法CAEA2的具体内容如下:
候选简称提取算法2:(candidate abbreviation extract algorithm CAEA2)输入:全简称句子fa_sent
输出:候选简称can
将fa_sent 分解成can_sent、fn和behind三部分,其中fn是已知的全称,can_sent是在全简称句子中位于“全称”前面的汉字串,behind 是在全简称句子中位于fn 后面的汉字串;
对can_sent和behind分别分词并且标注词性,分词结果为:{P1P2……Pk}和{R1R2……Rn},定义can在can_sent 中的一级左边界下标left1=1,二级左边界下标left2=1,左边界下标left=1 和右边界下标right=k ;
定义动词可截取标志flag_v=0,右边界根据词性可截取标志flag_right=0;
for each Pi∈ {P1P2……Pk}
if Pi和fn有相同的字
then flag_v ß 1;//Pi之后的动词都不可以作为左边界end if
if Pi和fn有相同的字 and left2 = 1
then left2 ß i ;// Pi可能是can的第一个分词
end if
if Pi的词性为“连词”或“介词”或“助词”
then left1ß i+1;
end if
if Pi的词性为“动词”and flag_v = 0
then left1ß i+1;
end if
end for each
for each Pj∈ {PkPk-1……P1}
if Pj 和fn有相同的字
then flag_rightß 1;// Pj可能是can的一个分词
end if
if Pj的词性为“连词”或“介词”或“助词”或“动词”
and flag_right = 0
then rightß j-1;
end if
if Pj 和behind有相同的字 and Pj 和fn无相同的字
then rightß j-1;
end if
if Pj 为标点符号
then rightß j-1;
end if
end for each
if left2 <= right
then left ß left2
end if
if left1 <= right
then left ß left1
end if
return can ß{Pleft……Pright} 。
7. 根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:上述步骤6中,若简称集合为空,且步骤2中还有查询模式可供选择,则重新执行步骤2至7;若简称集合为空,同时步骤2中没有可供选择的查询模式,则退出,表明不能从Web上搜索到所给定全称的简称。
8.根据权利要求1所述的一种从Web网页中获取汉语简称的方法,其特征在于:上述步骤6中,全简称关系约束是一个四元组R=(Fn,An,F,A),其中,Fn是全称,An是Fn的简称,F是Fn和An之间的约束函数集,A是Fn和An必须满足的约束公理集;约束函数集定量地表示Fn和An之间的约束,约束公理集定性地表示Fn和An之间的约束;
全 简 称 关 系 图 FAG(Fullname and Abbreviation
Graph) 是 一 个 四 元 组, 即 FAG=(F,A,E,f), 其 中,
是全称集, 是简称集,F A是顶点集,
是无向边集,f 是E到F A上的映射,即 ,总存在顶点
和 ,使得 成立,也就是说 是连接 和 的无向
边。
9.根据权利要求8所述的一种从Web网页中获取汉语简称的方法,其特征在于:所述步骤6的具体实现步骤如下:
步骤6-1、利用约束公理集中的约束公理1-5验证候选简称集中的每个候选简称;
步骤6-2、对候选简称集中的候选简称进行基于约束函数集的分类;
步骤6-3、构建全简称关系图,利用全简称关系图对候选简称集中的每个候选简称进行验证;
步骤6-4、由候选简称tag类别、分类类别以及约束函数集生成决策树,利用决策树对候选简称集中的候选简称进行分类,去除类别是“F”的候选简称,保留类别是“T”的候选简称;类别“F”的含义是错误,类别“T”的含义是正确;
在上述的步骤6-1中,对于候选简称集中的每个候选简称Can,验证Fn与Can是否满足公理1-4的约束要求,如果不满足则该候选简称是错误的;
在上述的步骤6-2中,分类的具体方法如下:根据简称是否有异字或异序,分为普通型、异字型和异序型,普通型又根据语境是否相关分为强语境无关型、弱语境无关型和语境相关型,语境无关型再根据Fn在全称集中频度的相对高低分为高频型和低频型,语境相关型根据An对Fn的覆盖重心分为前向型、居中型和后向型;
具体的分类标准和各类简称需要满足的条件为:
高频强语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的每个分词在Can中都有对应,且Can在候选简称集中频度最高;
低频强语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的每个分词在Can中都有对应,且Can在候选简称集中频度不最高;
高频弱语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的大部分分词在Can中都有对应,且Can在候选简称集中频度最高;
低频弱语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的大部分分词在Can中都有对应,且Can在候选简称集中频度不最高;
前向型语境相关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中被省略的分词大多在Fn的后半部分;
居中型语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中前后部分被省略的分词个数差不多;
后向型语境相关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中被省略的分词大多在Fn的前半部分;
异序型的直观意义:Fn包含Can中的所有字但语序有变,Can在候选简称集中频度最高;
异字型的直观意义:Fn不包含Can中的所有字但Can的频度很高或在候选简称集中的相对频度很高;
在上述的步骤6-3中,当输入是单个全称或输入的全称文档中全称的个数小于1000时,该步骤不执行,否则,按照全简称关系图的构图方法构造全简称关系图FAG=(F,A,E,f);
利用全简称关系图进行验证的具体方法如下: ,如果 则
,如果vi的简称类型不是语境无关型,则对于全称vk而言该候选简称vi
是错误的;
通过上述验证之后得到已知全称的简称集,下面对简称集中的简称进行排序;
按优先级综合函数PRI(Fn,Can)对简称集中同一类的简称进行排序;
PRI(Fn,Can)的定义如下:
其中, , 为每个函数在综合评价时采取的权
重。
10.根据权利要求要求8或9所述的一种从Web网页中获取汉语简称的方法,其特征在于:所述约束函数集的具体含义为:
约束函数1:Can的字来自Fn中的比率
Can中的每个汉字都来自于Fn中,在候选简称集中,出现在Fn中的字的比率越高的候选简称的优先级越高;
约束函数1的形式定义和计算如下:
约束函数2:Fn与Can的语序
Can中的字的顺序严格按在Fn中出现的顺序排列;
约 束 函 数 2 的 形 式 定 义 和 计 算 如 下
Fn与Can语序相同蕴含着Can中的所有字都出现在Fn中,若Can中有不出现在Fn中的字,则约束函数2的值为0;
约束函数3:Can对Fn的分词覆盖率
候选简称覆盖全称的分词越多,就越可能成为正确的简称;
约束函数3的形式定义和计算如下:
约束函数4:Can对Fn的分词覆盖重心
全称通常由多个分词组成,有的情况下全称中的一个或多个分词可以在候选简称中被省略,但是被省略的分词应该均匀的分布在全称中,而不应该都集中在全称的前部分或后部分,即Fn中省略的分词分别在Fn的前部分、中间部分和后部分;
约束函数4的形式定义和计算如下:
其中, 对应的 ; 若Fn中被Can1覆盖到的分词均匀分
布在Fn中,而Fn中被Can2覆盖到的分词都分布在Fn的前半部分;根据约束函数4,,所以Can1的优先级比Can2的优先级高;
约束函数5:Fn中未被Can覆盖到的最长连续分词数
候选简称通常由多个分词组成,有的情况下全称中的一个或多个分词可以在简称中被省略,但是被省略的分词在全称中通常不会连续出现,即全称中的分词连续在简称中省略的概率比较小;
约束函数5的形式定义和计算如下:
其中,N表示Fn中所含有的未被覆盖分词串的个数
约束函数6:Fn和Can的长度关系
候选简称对应的全称长度在为候选简称长度的1.5-5倍,全称长度超出这一范围的概率较小;
约束函数6的形式定义和计算如下:
约束函数7:Can在GoogleArchSet(Fn)中出现的频度
由全称到Google上查找简称时,在GoogleArchSet(Fn)中出现频度越高的候选简称的优先级越高;
约束函数7的形式定义和计算如下:
由Fn查找An时,有时会得到几个候选简称,它们构成候选简称集CanSet(Fn),对于CanSet(Fn)中的任意一个候选简称Cani,分析FA(Fn ,Cani)时可以类比CanSet(Fn)中其它候选简称的指标值;
下面的4个约束函数是基于候选简称集定义的;
约束函数8:Can的字来自Fn中的相对比率
与约束函数1相比,约束函数8强调候选简称在CanSet(Fn)中的相对性;
约束函数8的形式定义和计算如下:
约束函数9:在Fn的候选简称集中对Fn的相对覆盖率
与约束函数3相比,约束函数9强调Can在CanSet(Fn)中的相对性,当候选简称对全称的覆盖率都不高时,那么覆盖率相对高的候选简称的优先级更高;
约束函数9的形式定义和计算如下:
约束函数10:Can在候选简称集中的频率
由Fn查找Can时,有时候选简称集中所有的候选简称的频度都非常低,那么约束函数7的约束作用就被淡化,所以约束函数9考虑各候选简称的相对频度,在候选简称集中,频度相对高的候选简称的优先级更高;
约束函数10的形式定义和计算如下:
约束函数11:候选简称集中的元素按照频度升序排序后,Can在其中的相对位置当候选简称集中的元素比较多时,频度比较低的候选的重要性相对比较低;
约束函数11的形式定义和计算如下:
约束函数11的值越低的候选简称的重要性越低;

所述约束公理集的具体含义为:
约束公理1:词长不等公理
形式表示:
直观意义:在全简称关系中,Fn的字数必须大于Can的字数;
约束公理2:陈述语气公理
形式表示:
直观意义:Fn和Can中都不包含疑问词;
约束公理3:形式不重复公理
形式表示:
直观意义:在全简称关系中,Fn和Can都不可以是ss形式的汉字串,其中s是汉字串;
约束公理4:语义不重复公理
形式表示:
直观意义:所有出现在Fn中的汉字,在Fn中出现的次数必须要不小于在Can中出现的次数;
约束公理5:不泛指公理
形式表示:
直观意义:候选简称所对应的全称应该小于等于5个。

说明书全文

一种从Web网页中获取汉语简称的方法

技术领域

[0001] 本发明涉及中文信息处理和信息检索领域的简称获取技术,尤其涉及一种从Web网页中获取汉语简称的方法,从Web网页上获取多学科、大规模、高准确率的汉语简称的方法。

背景技术

[0002] 自然语言处理是计算机科学领域与人工智能领域中的一个重要问题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理的对象也从小规模受限语言处理转向大规模真实文本处理,其研究必将对人们的生活产生深远的影响。
[0003] 中文信息处理是研究如何利用计算机对汉语信息进行自动处理。汉语是一意合语言,和西方语言相比,缺少显式的标记,语法、语义、语用方面也更加灵活,增加了计算机理解和处理的难度,要让计算机能够处理中文信息,尚有许多困难需要克服。目前,中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理程度的提升,将对我国的科技、文化、经济、安全等带来可观的效益。
[0004] 信息检索研究如何从纷繁复杂的大量信息中快速、准确获取所需信息的技术。信息检索技术经过多年的发展,目前已经相当成熟,新型信息检索技术正朝智能化、动态化、多样化、个性化等方向发展。
[0005] 全称(Full Name,Fn)是对名称的完整称呼,简称(Abbreviation,An)是为了表达的简洁明快,而对全称进行精简压缩后得到的称呼,若Fn和An具有全简称关系,则称Fn为An的全称,An为Fn的简称,记作FA(Fn,An)。由全称到简称,可以看作是一个信息量的压缩过程,由简称到全称,则可以看作是一个解压的过程,例如:对c1=“中国科学院计算技术研究所”进行压缩,得到c2=“中国科学院计算所”,再对c2进行压缩,得到c3=“中科院计算所”,对c3解压得到c2,再对c2解压得到c1。全称和简称都是相对的概念,比如在上例中,c2相对于c1是简称,但相对于c3却是全称,单独讲c2是全称或简称都是没有意义的。
[0006] 全简称关系获取作为文本知识获取(Knowledge Acquisition from Text,KAT)和信息检索等应用中一个基本而又关键的问题,其获取方法可以分为两大类:一类是基于模式的方法,主要利用语言学和自然语言处理技术,通过词法分析和语法分析提取关系模式,然后利用模式匹配获取全简称关系,该方法准确率依赖于语言学知识和模式库;另一类是基于统计的方法,主要基于语料库和统计语言模型,通过计算概念之间的关联度来获取全简称关系,该方法准确率和效率难以达到理想的实用要求。全简称关系的获取问题又可以从两个度来看:一个是挖掘的角度,就是在没有外界输入的条件下获取全简称对;另一个是查找的角度,就是已知全称找简称或已知简称找全称。
[0007] 本发明中所提到的“全称”或“简称”,如无特别说明,均指汉语全称或汉语简称。

发明内容

[0008] 针对现有的全简称关系获取技术中具有的局限性或者准确率不高的缺陷,本发明提供一种准确率高且适用于多学科、超大规模的一种从Web网页中获取汉语简称的方法。
[0009] 为了解决上述问题,本发明提供了一种从Web网页中获取汉语简称的方法,包括一下步骤:步骤1、输入一个给定的汉语全称Fn;
步骤2、选择查询模式来构造查询项,将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料;
步骤3、通过正则表达式,从锚语料中获取出包含查询项的全简称关系的句子,保存下来作为全简称语料;
步骤4、利用简称提取算法EAN从全简称语料中提取出候选简称,形成候选简称集合;
步骤5、对候选简称集合进行基于全简称关系约束的分类,从而形成带有类别标注的候选简称集合;
步骤6、对候选简称集合进行基于全简称关系约束和全简称关系图的联合验证,从而形成简称集合;
步骤7、对简称集合中同类型的简称进行优先级排序,从而形成带有类别标注的有序简称集合。
[0010] 上述技术方案中,在所述的步骤2中,所述的查询模式包括三种:查询模式1:“Fn简称”,查询模式2:“Fn*简称”,查询模式3:“全称Fn”。查询模式2是对查询模式1的扩充,我们在“Fn”和“简称”之间加入了一个“*”,“*”在Google查询中可以匹配任何一个词。因为网页中往往会出现“窦性心律(以下简称窦律)”之类的语料,这种语料用查询模式1无法检索到,但利用查询模式2就能检索到。我们以4000个汉语Fn做实验,其中用查询模式1能获取到An的占64.65%,用查询模式2能获取到An的占61.18%,用查询模式3能获取到An的占21.02%,用查询模式1或查询模式2能获取到An的占82.51%,用查询模式
1、2、3能获取到An的占84.10%。因此,为了提高查询效率,我们优先选择查询模式1,其次查询模式2,最后查询模式3。
[0011] 上述技术方案中,在所述的步骤4中,简称提取算法(EAN)包括两个算法CAEA1和CAEA2,当步骤2中选择查询模式1或查询模式2时,步骤4中采用CAEA1来提取An,当步骤2中选择查询模式3时,步骤4中采用CAEA2来提取An。
[0012] 上述技术方案中,在所述的步骤6中,若简称集合为空,且步骤2中还有查询模式可供选择,则重新执行步骤2—7;如果简称集合为空,同时步骤2中没有可供选择的查询模式,则退出,表明不能从Web上搜索到所给定全称的简称。
[0013] 上述技术方案中,在所述的步骤6中,全简称关系约束是一个四元组R=(Fn,An,F,A),其中,Fn是全称,An是Fn的简称,F是Fn和An之间的约束函数集,A是Fn和An必须满足的约束公理集。约束函数集定量地表示Fn和An之间的约束,约束公理集定性地表示Fn和An之间的约束。下文中将进一步对这两种约束进行解释。
[0014] 上述技术方案 中,在所述的步 骤6中,全简称关系 图FAG(Fullname and Abbreviation Graph) 是 一 个 四 元 组, 即 FAG=(F,A,E,f), 其 中, 是全称集, 是简称集,F A是顶点集,是无向边集,f 是E到F A上的映射,即 ,总存在顶点
和 ,使得 成立,也就是说 是连接 和 的无向
边。
[0015] 有益效果:本发明是根据已知的全称从Web上获取它对应的简称,即从查找的角度来获取全简称关系的,利用基于模式的方法来从Google中获取候选简称,利用基于统计的方法来对候选简称进行验证,具有多学科性、大规模、准确率高等优点,并探讨了用计算机实现简称的分类,为大规模知识的智能获取提供了有效的支撑附图说明
[0016] 图1为全简称关系图的示例;图2为利用查询模式1或查询模式2获取简称的流程图
图3为利用查询模式3获取简称的流程图;
图4为对候选简称集进行联合验证的流程图;
图5为由全简称的类型和约束函数集生成的验证决策树

具体实施方式

[0017] 下面结合附图和具体实施方式对本发明作进一步描述:在对本发明的方法进行说明之前,首先对全简称关系中简称的形成规律和构词方法进行整理和总结。在全简称关系中,由全称到简称的过程可以看成是一个信息量的压缩过程,在信息量的压缩过程中有时会有语义的等价转换和语序的调整,所以我们将全简称关系分为普通型、异字型和异序型。
[0018] 普通型:简称中的每个字都出现在全称中,且保留它们在全称中的顺序,例如,Fn=“中华人民共和国”,An=“中国”;异字型:简称中的某些字不在全称中出现,即由全称到简称不但进行了信息量的压缩,还进行了语义的等价转换,例如Fn=“娲皇圣母庙”,An=“女娲庙”;
异序型:简称中汉字间的顺序跟它们在全称中对应成分的顺序不一致,例如,Fn=“哈尔滨第六制药厂”,An=“哈药六厂”。
[0019] 下面详细介绍全简称关系图和全简称关系约束的有关定义。
[0020] 由一批全简称对可以构成一个二分图,具体方法是:所有的全称构成全称集,所有的简称构成简称集 ,F和A构成图的顶点集 , fn F an A,若fn和an构成一对全简称,则构造一条连接fn
和an的无向边。
[0021] 在本发明中,定义了全简称关系图来表示Fn和An之间的联系,全简称关系图FAG(Fullname and Abbreviation Graph)是一个四元组,即FAG=(F,A,E,f),其中,是全称集, 是简称集,F A是顶点集,是无向边集,f 是E到F A上的映射,即 ,总存在顶点
和 ,使得 成立,也就是说 是连接 和 的无向
边。
[0022] 图1是一个全简称关系图,其中全称集 ,简称集。
[0023] 给定全简称关系图FAG=(F,A,E,f ), ,总存在 和 ,使得,称顶点 和 与边 关联,顶点 和 相邻。
[0024] 给定全简称关系图FAG=(F,A,E,f), ,与 相邻的所有顶点组成 的相邻点集,记为Adj( ),与 相邻的所有顶点的个数称为 的度数,记为

[0025] 在本发明中,定义了全简称关系约束来表示Fn和An之间的约束,全简称关系约束是一个四元组R=(Fn,An,F,A),其中,Fn是全称,An是Fn的简称,F是Fn和An之间的约束函数集,A是Fn和An必须满足的约束公理集。约束函数集定量地表示Fn和An之间的约束,约束公理集定性地表示Fn和An之间的约束。在对约束函数集和约束公理集进行详细说明前,列出在下文中使用到的基本符号:Fn表示全称;
An表示Fn的简称;
Can表示Fn的候选简称;
GoogleArchSet (Fn)表示Fn的Google锚文本集,即从Google中查找Fn对应的简称时
所返回的前100条锚文本的集合,若返回的锚文本总数N少于100,则GoogleArchSet (Fn)只包含仅有的N条锚文本;
CanSet(Fn)表示Fn的候选简称集,即从GoogleArchSet(Fn)中提取出的Fn对应的候选
简称组成的集合;
N_CanSet(Fn)表示CanSet(Fn)中所含候选简称的个数;
FnSet(Can)表示候选简称Can对应的全称集,即FnSet(Can)中的每一个Fn的候选简称
集中都含有Can;
N_FnSet(Can)表示FnSet(Can)中所含全称的个数;
FA(Fn,An)表示Fn和An具有全简称关系;
length(str)表示汉字串str中所含汉字的个数;
n_word(Fn,An)表示同时出现在Fn和An中的汉字个数;
N_Clas(Fn)表示Fn经过分词后,出现的分词个数;
N_Cover(Fn,An)表示Fn中被An 覆盖到的分词个数;
CoverSet(Fn,An)表示Fn中被An覆盖到的分词的集合;
pi: 表示全称中的第i个分词;
p1 / p2 / …/ pm: 表示由分词p1、p2…pm组成的分词序列,其中的/ 表示分词间的分隔
符;
centre(Fn)表示Fn的分词中心点的位置,即Fn经过分词后,最中间的那个分词的位置,或最中间的那两个分词的平均位置,centre(Fn)=(N_Clas(Fn)+1)/2;
di(Fn)表示Fn的第i个分词pi的中心偏移量,即Fn的分词中心点的位置与Fn的第i个
分词的位置之间的位移,di(Fn)=i-centre(Fn);
(Fn)表示Fn的最大中心偏移量,即Fn的所有分词的中心偏移量地最大值,
(Fn)=(N_Clas(Fn)-1)/2;
Leni(Fn,An)表示第i个未被覆盖分词串所含的分词数。对Fn进行分词后,未被An覆盖
到的那些分词,如果在Fn中相联则组成未被覆盖分词串,如果不相联则单独成串,第i个未被覆盖分词串所含的分词个数记为Leni(Fn,An);
freq(Fn,An)表示从GoogleArchSet(Fn)中提取出的An的个数;
表示一个无穷小的数;
loca(Fn,Can)表示Can在CanSet(Fn)中的频度次序,即对CanSet(Fn)中的元素按freq(Fn,Can)的大小升序排序后,Can在其中的次序;
NoInclude(s1,Set)表示汉字串的集合Set中的任何汉字串都不是汉字串s1的子串;
Interrogative表示疑问词集合,包含“什么”、“怎么”、“啥”、“吗”等疑问词;
concat(s1,s2)表示汉字串s1和汉字串s2连接后的汉字串;
NumIn(s,c)表示汉字c在汉字串s中出现的次数。
[0026] 下面从十一个方面对约束函数集中的具体含义进行说明:约束函数1:Can的字来自Fn中的比率。
[0027] 一般情况下,全称包含候选简称所包括的所有汉字。例如,Can=“北大”,Fn=“北京大学”,Can中的每个汉字都来自于Fn中。在候选简称集中,出现在Fn中的字的比率越高的候选简称的优先级越高。
[0028] 约束函数1的形式定义和计算如下(注明:此函数来自对发明专利“一种根据实体的汉语简称识别出实体全称的方法和系统(专利号ZL200710119513.4)”的改进):例如,Fn=“孔子庙”,Can1 =“孔庙”,Can2 =“文庙”。根据 约束函数1,有,所以Can1的优先级比Can2的优先级高。
[0029]约束函数2:Fn与Can的语序。
[0030] 在缩略过程中,绝大多数候选简称保持着全称中的字序。例如,Fn=“奥林匹克运动会”,Can=“奥运会”,Can中的三个字的顺序严格按在Fn中出现的顺序排列。
[0031] 约束函数2的形式定义和计算如下(注明:此函数与发明专利“一种根据实体的汉语简称识别出实体全称的方法和系统(专利号ZL200710119513.4)”的一致):注意:Fn与Can语序相同蕴含着Can中的所有字都出现在Fn中,若Can中有不出现在Fn中的字,则约束函数2的值为0。
[0032] 约束函数3:Can对Fn的分词覆盖率全称通常由多个分词组成,有的情况下全称的一个或多个分词在候选简称中可以被省略,但一般被省略分词不会超出全称分词数的二分之一,候选简称覆盖全称的分词越多,就越可能成为正确的简称。
[0033] 约束函数3的形式定义和计算如下(注明:此函数来自对发明专利“一种根据实体的汉语简称识别出实体全称的方法和系统(专利号ZL200710119513.4)”的改进):例如,Fn =“上海/交通/大学”, Can1 =“上交大”,Can2 = “上交”,根据约束函数3,,所以Cfn1的优先级比Cfn2的优先级高。
[0034] 约束函数4:Can对Fn的分词覆盖重心全称通常由多个分词组成,有的情况下全称中的一个或多个分词可以在候选简称中被省略,但是被省略的分词应该均匀的分布在全称中,而不应该都集中在全称的前部分或后部分。例如,Can=“贵航集团”,Fn=“中国/贵州/航空/工业/集团/公司”,Fn中省略的分词“中国”、“工业”、“公司”分别在Fn的前部分、中间部分和后部分。
[0035] 约束函数4的形式定义和计算如下:其中, 对应的 。例如,Fn =“中国/贵州/航空/工业/
集团/公司”, Can1 =“贵航集团”,Can2 = “贵航”, Fn中被Can1覆盖到的分词“贵州”、“航空”和“集团”均匀分布在Fn中,而Fn中被Can2覆盖到的分词“贵州”和“航空”都分布在Fn的前半部分。根据约束函数4, ,所以Can1的优先级比
Can2的优先级高。
[0036] 约束函数5:Fn中未被Can覆盖到的最长连续分词数候选简称通常由多个分词组成,有的情况下全称中的一个或多个分词可以在简称中被省略,但是被省略的分词在全称中通常不会连续出现,即全称中的分词连续在简称中省略的概率比较小。
[0037] 约束函数5的形式定义和计算如下:其中,N表示Fn中所含有的未被覆盖分词串的个数
例如,Fn =“中华/人民/共和国/共产/主义/青年团”,Can1=“中国共青
团”,Can2 = “共青团”, Fn中未被Can1覆盖到的分词只有“人民”和“主义”,而Fn中未被Can2覆盖到的分词“中华”、“人民”和“共和国”连在一起。根据约束函数5,,所以Can1的优先级比Can2的优先级高。
[0038] 约束函数6:Fn和Can的长度关系通常规范的候选简称不会过度缩减,以保证多数人能见名知意。因而多数候选简称对应的全称长度在一个范围内,一般在候选简称长度的1.5-5倍,全称长度超出这一范围的概率较小。
[0039] 约束函数6的形式定义和计算如下(注明:此函数来自对发明专利“一种根据实体的汉语简称识别出实体全称的方法和系统(专利号ZL200710119513.4)”的改进):例如,Fn =“中国科学院计算技术研究所”,Can1=“中科院计算所”,Can2 = “计算所”,。
根据约束函数6, ,所以Can1的优先级比Can2的优先级
高。
[0040] 约束函数7:Can在GoogleArchSet(Fn)中出现的频度由全称到Google上查找简称时,在GoogleArchSet(Fn)中出现频度越高的候选简称的优先级越高。
[0041] 约束函数7的形式定义和计算如下:例如,Fn = “锂 离子 电池”,Can1= “锂 电池”,Can2 = “锂电,Freq(Cfn1)=42, Freq(Cfn2)=12, 根据约束函数7, , 所以Can1的优先级
比Can2的优先级高。
[0042] 由Fn查找An时,有时会得到几个候选简称,它们构成候选简称集CanSet(Fn),对于CanSet(Fn)中的任意一个候选简称Cani,分析FA(Fn ,Cani)时可以类比CanSet(Fn)中其它候选简称的指标值。
[0043] 下面的4个约束函数是基于候选简称集定义的。
[0044] 约束函数8:Can的字来自Fn中的相对比率与约束函数1相比,约束函数8强调候选简称在CanSet(Fn)中的相对性,比如,有些外来音译词汇的简称和全称就没有相同的字,有些简称还原成全称时进行了一些同义转化等等。
[0045] 约束函数8的形式定义和计算如下:例如,Fn =“夫子庙”,Can1=“孔庙”,Can2=“文庙”,虽然 只有0.5,但是也只有0.5,所以不能因为Cfn1的函数1的值低就判定Cfn1不是正确的候
选简称。
[0046] 约束函数9:在Fn的候选简称集中对Fn的相对覆盖率与约束函数3相比,约束函数9强调Can在CanSet(Fn)中的相对性,比如,有些候选简称对全称的覆盖率都不高,那么覆盖率相对高的候选简称的优先级更高。
[0047] 约束函数9的形式定义和计算如下:例如,Fn =“清华/同方/光盘/股份/有限/公司”,Can1=“清华同方”,Can2=“清华同方公司”,虽然Can1和Can2对Fn的分词覆盖率都不高,但Cfn1的分词覆盖率相对高一些,所以Cfn1比Cfn2优先级要高。
[0048] 约束函数10:Can在候选简称集中的频率由Fn查找Can时,有时候选简称集中所有的候选简称的频度都非常低,那么约束函数7的约束作用就被淡化,所以约束函数9考虑各候选简称的相对频度,在候选简称集中,频度相对高的候选简称的优先级更高。
[0049] 约束函数10的形式定义和计算如下:例如,Fn =“自治区扶贫开发领导小组办公室”,Can1=“自治区扶贫办”,Can2=“扶贫办”,虽然根据约束函数7,Cfn1和Cfn2的频度都比较低,但是根据约束函数10,Cfn1和Cfn2在候选简称集中的频率都比较高。
[0050] 约束函数11:候选简称集中的元素按照频度升序排序后,Can在其中的相对位置当候选简称集中的元素比较多时,频度比较低的候选的重要性相对比较低。
[0051] 约束函数11的形式定义和计算如下:约束函数11的值越低的候选简称的重要性越低。
[0052] 以上从十一个方面对约束函数集中的约束函数的具体含义进行了说明,它们定量地表示了Fn和Can之间的约束,而约束公理则定性地表示Fn和Can之间的约束,下面对约束公理进行具体说明:约束公理1:词长不等公理
形式表示:
直观意义:在全简称关系中,Fn的字数必须大于Can的字数。
[0053] 约束公理2:陈述语气公理形式表示:
直观意义:Fn和Can中都不包含疑问词“什么”、“怎么”、“啥”等。
[0054] 约束公理3:形式不重复公理形式表示:
直观意义:在全简称关系中,Fn和Can都不可以是ss形式的汉字串,其中s是汉字串。
[0055] 约束公理4:语义不重复公理形式表示:
直观意义:所有出现在Fn中的汉字,在Fn中出现的次数必须要不小于在Can中出现的次数。
[0056] 例如,Fn=“娲皇圣母庙”,Can=“女娲庙庙”,其中出现在Fn中的汉字“庙”,在Can中出现了两次,而在Fn中仅出现了一次,故Can不正确。之所以会出现这种现象是因为在语料中Can之后没用标点符号与下文隔开。
[0057] 约束公理5:不泛指公理形式表示:
直观意义:候选简称所对应的全称应该小于等于5个。
[0058] 例如,Can=“公司”,在实验的4000个全简称对中有24个Fn的候选简称集中有“公司”,所以该候选简称是一个泛指的候选简称,在本文中没有获取的意义,舍弃这类候选简称。
[0059] 在对本发明中定义的全简称关系图和全简称关系约束做了详细说明的基础上,下面具体介绍本发明方法的实施方式。
[0060] 本发明的根据汉语全称获取汉语简称的方法包括三大步骤,分别为获取候选简称集、对获取到的候选简称集进行验证和对验证后的结果做后处理,下面分别对它们进行说明。
[0061] 首先介绍获取候选简称集的部分,因为不同的查询模式获取到的锚语料集的结构不同,从而导致提取候选简称的具体算法不同,又因为查询模式2是对查询模式1的扩展,所以利用查询模式1和查询模式2获取候选简称的方法一样,但与利用查询模式3获取候选简称的方法不一样,下面分开介绍。
[0062] 如图2所示,利用查询模式1或查询模式2产生候选简称集的具体实现步骤如下:步骤1-1、用户输入已知的汉语全称Fn;
步骤1-2、根据查询模式1:“Fn简称”或查询模式2:“Fn*简称”来构造具体的查询项。
[0063] 步骤1-3、将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料。
[0064] 步骤1-4、通过正则表达式,从锚语料中获取包含查询项的全简称句子,保存下来作为全简称语料。
[0065] 步骤1-5、利用算法CAEA1从全简称语料中提取带有tag的候选简称集。
[0066] 步骤1-6、利用An右边界词表再次确定候选简称集中的候选简称的右边界。
[0067] 在上述的步骤1-1中,也可以输入包含一批全称的文档,此时对于文档中的每个Fn要重复执行步骤1-2至步骤1-6,以获取其对应的候选简称集。
[0068] 在上述的步骤1-3中,若Google返回的查询结果>100条,则N取100,否则N取Google返回的查询结果的条数。
[0069] 在上述的步骤1-4中,通过分析全简称语料,我们发现全简称句子有一定的结构,故根据结构的不同将全简称句子分为六种类型:半标号型、后部分型、多合一型、标号对型、无前缀型和有前缀型。从这六种类型的全简称句子中提取出的候选简称,其类型为相应的全简称句子的类型。
[0070] 半标号型:Can的左右两边只有一边有配对符号,说明该句子很可能不包含完整的An。例如,利用查询模式1查询Fn=“最高人民检察院”,得到全简称句子:最高人民检察院(简称“高。产生这种错误的原因是获取锚语料时没有完整地获取整个句子。
[0071] 后部分型:在全简称句子中,Fn是另一全称“*Fn”的后部分,故Can也是“*Fn”对应的简称“*Can”的后部分,由于过度缩减,Can很可能不是Fn的简称。例如,利用查询模式1查询Fn=“胸腔积液”,得到全简称句子:化脓性胸腔积液(简称脓胸)。在上一条全简称句子中,“脓胸”是“化脓性胸腔积液”的简称,但由于过度缩减,“胸”不是“胸腔积液”的简称。有些情况下不存在过度缩减的问题,例如,利用查询模式1查询Fn=“最高人民检察院”,得到全简称句子:中华人民共和国最高人民检察院(简称中国高检)。在上一条全简称句子中,“中国高检”是“中华人民共和国最高人民检察院”的简称,但其中的“高检”也是“最高人民检察院”的简称。所以,我们需要进一步研究如何判断有没有过度缩减。
[0072] 多合一型:Fn作为整体的成分与另外的全称一起出现,整体的简称是几个全称的合并式简称。例如,利用查询模式1查询Fn=“最高人民检察院”,得到全简称句子:最高人民法院与最高人民检察院(简称两高)。在上一条全简称句子中,“最高人民检察院”与“最高人民法院”组成一个整体,“两高”是整体的简称。这种语料的结构有一个明显特征:Fn是整体的最后部分且Fn前有“和”、“与”、“及”等连接词。
[0073] 标号对型:Fn前面无汉字,且Can被配对符号所标出,无需利用算法再确定Can的边界,直接提取。例如,利用查询模式1查询Fn=“最高人民检察院”,得到全简称句子:最高人民检察院(简称“高检”)。
[0074] 无前缀型:Fn前面无汉字,且Can未被配对符号所标出,Can无需确定左边界,但需要定右边界。例如,利用查询模式1查询Fn=“最高人民检察院”,得到全简称句子:最高人民检察院简称高检成立于1954年。
[0075] 有前缀型:Fn前面有汉字,Can需要确定左边界和右边界。例如,利用查询模式1查询Fn=“最高人民检察院”,得到全简称句子:贾春旺当选为最高人民检察院(简称高检)检察长。
[0076]在上述的步骤1-5中,算法CAEA1的具体内容如下:
候选简称提取算法1:(candidate abbreviation extract algorithm CAEA1)输入:全简称句子fa_sent
输出:带类型标注的候选简称can
Step1: 将fa_sent 分解成before、fn 和can_sent 三部分,其中fn 是已知的全称,before 是在全简称句子中位于fn 前面的汉字串,can_sent 是在全简称句子中位于“简称”后面的汉字串。can_sent的单字表示为can_sent = P1P2…Pn,其中Pi代表一个汉字。定义can在can_sent中的左边界left=1 和右边界right=n,定义can 的类型标记tag=null。
[0077] Step2: can_sent 左边是配对标号and右边不是对应的配对标号thentag ß 半标号型
end if
Step3: ifbefore = null
iftag = null
thentag ß 无前缀型
endif
转step6
end if
ifbefore!= null andtag = null
thentag ß 有前缀型
end if
Step4: ifbefore 的最后一个字是“和”或“与”或“及”
thenfor eachPi∈{P1P2……Pn }
ifPi不在fn中出现
thentag ß 多合一型
转step5
end if
end for each
end if
Step5: for eachPi∈{P1P2……Pn }
ifPi不在fn中出现andPi在before 中出现
thenleft ß i+1
end if
ifPi在fn中出现
break;
end if
end for each
ifleft>1
thentag ß 后部分型
end if
Step6: ifcan_sent 被标号对标出 andtag=无前缀型
thentag ß 标号对型
end if
Step7: for eachPi∈{PleftPleft+1……Pn-1 }
ifPi在fn的最后一个分词中出现 andPi+1不在fn 中出现
thenrightßi
将Pi右边的一个词加入到待验证的An右边界词表中
end if
end for each
Step8: can ß PleftPleft+1……Pright
Return can
在上述的步骤1-6中,An右边界词表是由待验证的An右边界词表经过人工验证生成的,在算法CAEA1中对待验证的An右边界词表进行动态的添加。
[0078] 如图3所示,利用查询模式3产生候选简称集的具体实现步骤如下:步骤2-1、用户输入已知的汉语全称Fn;
步骤2-2、根据查询模式3:“全称Fn”,来构造具体的查询项。
[0079] 步骤2-3、将查询项提交到Google搜索引擎中搜索,保存前100项锚文本作为锚语料。
[0080] 步骤2-4、通过构造正则表达式,从锚语料中获取包含查询项的全简称句子,保存下来作为全简称语料。
[0081] 步骤2-5、利用算法CAEA2从全简称语料中提取候选简称,形成候选简称集。
[0082] 在上述的步骤2-1中,也可以输入包含一批全称的文档,此时对于文档中的每个Fn要重复执行步骤2-2至步骤2-5,以获取其对应的候选简称集。
[0083] 在上述的步骤2-3中,若Google返回的查询结果>100条,则N取100,否则N取Google返回的查询结果的条数。
[0084]在上述的步骤2-5中,算法CAEA2的具体内容如下:
候选简称提取算法2:(candidate abbreviation extract algorithm CAEA2)输入:全简称句子fa_sent
输出:候选简称can
Step1: 将fa_sent分解成can_sent、fn 和behind 三部分,其中fn是已知的全称,can_sent 是在全简称句子中位于“全称”前面的汉字串,behind 是在全简称句子中位于fn后面的汉字串。
[0085] Step2: 对can_sent 和behind 分别分词并且标注词性,分词结果为:{P1P2……Pk}和{R1R2……Rn},定义can 在can_sent 中的一级左边界下标left1=1,二级左边界下标left2=1,左边界下标left=1和右边界下标right=k。定义动词可截取标志flag_v=0,右边界根据词性可截取标志flag_right=0。
[0086] Step3: Pi∈ {P1P2……Pk}if Pi和fn有相同的字
then flag_v ß 1;//Pi之后的动词都不可以作为左边界
end if
if Pi和fn有相同的字 and left2 = 1
then left2 ß i ;// Pi可能是can的第一个分词
end if
if Pi的词性为“连词”或“介词”或“助词”
then left1ß i+1;
end if
if Pi的词性为“动词”and flag_v = 0
then left1ß i+1;
end if
end for each
Step4: for each Pj∈ {PkPk-1……P1}
if Pj 和fn有相同的字
then flag_rightß 1;// Pj可能是can的一个分词
end if
if Pj的词性为“连词”或“介词”或“助词”或“动词”
and flag_right = 0
then rightß j-1;
end if
if Pj 和behind有相同的字 and Pj 和fn无相同的字
then rightß j-1;
end if
if Pj 为标点符号
then rightß j-1;
end if
end for each
Step5: if left2 <= right
then left ß left2
end if
if left1 <= right
then left ß left1
end if
Step6: return can ß{Pleft……Pright}
通过上述操作得到候选简称集,下面讨论对候选简称集中的候选简称进行验证,参考图4,其具体实现步骤如下:
步骤6-1、利用约束公理集中的约束公理1-5验证候选简称集中的每个候选简称。
[0087] 步骤6-2、对候选简称集中的候选简称进行基于约束函数集的分类。
[0088] 步骤6-3、构建全简称关系图,利用全简称关系图对候选简称集中的每个候选简称进行验证。
[0089] 步骤6-4、由候选简称tag类别、分类类别以及约束函数集生成决策树(见图5),利用决策树对候选简称集中的候选简称进行分类,去除类别是“F”的候选简称,保留类别是“T”的候选简称。
[0090] 在上述的步骤6-1中,对于候选简称集中的每个候选简称Can,验证Fn与Can是否满足公理1-4的约束要求,如果不满足则该候选简称是错误的。
[0091] 在上述的步骤6-2中,分类的具体方法如下:根据简称是否有异字或异序,分为普通型、异字型和异序型,普通型又根据语境是否相关分为强语境无关型、弱语境无关型和语境相关型,语境无关型再根据Fn在全称集中频度的相对高低分为高频型和低频型,语境相关型根据An对Fn的覆盖重心分为前向型、居中型和后向型(见表1)。
[0092] 表格 1简称的类型具体的分类标准和各类简称需要满足的条件(见表2)。
[0093] 表格 2简称的分类标准类高别频强语境无关 需要满足的条件
f1=1 f2=1 f3=1 f11=1
低频强语境无关
f1=1 f2=1 f3=1 f11<1
高频弱语境无关
f=11 f=21 0.823 f3<1 f=91 f=11
低频弱语境无关
f1=1 f2=1 0.823 f3<1 f9=1 f1<1
前向型语境相关
f1=1 f2=1 f3 1 f4 0.5
居中型语境相关
f=11 f=21 0.5 f4 0.5 (f3 0.823 f9 1)
后向型语境相关
f1=1 f2=1 f3 1 f4 0.5
异序型
f1=1 f2=0 f11=1
异字型
f1 1 f7 f10 f7
0.05 f9=1 f1=1))
注意,由于语境是一个语义层面的概念,故很难用计算机智能地判断一个候选简称是否语境相关,本发明中利用约束函数从构词规则方面来近似的判断。
[0094] 表格2中,高频强语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的每个分词在Can中都有对应,且Can在候选简称集中频度最高。
[0095] 表格2中,低频强语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的每个分词在Can中都有对应,且Can在候选简称集中频度不最高。
[0096] 表格2中,高频弱语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的大部分分词在Can中都有对应,且Can在候选简称集中频度最高。
[0097] 表格2中,低频弱语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中的大部分分词在Can中都有对应,且Can在候选简称集中频度不最高。
[0098] 表格2中,前向型语境相关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中被省略的分词大多在Fn的后半部分。
[0099] 表格2中,居中型语境无关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中前后部分被省略的分词个数差不多。
[0100] 表格2中,后向型语境相关的直观意义:Fn包含Can中的所有字且保持语序不变,Fn中被省略的分词大多在Fn的前半部分。
[0101] 表格2中,异序型的直观意义:Fn包含Can中的所有字但语序有变,Can在候选简称集中频度最高。
[0102] 表格2中,异字型的直观意义:Fn不包含Can中的所有字但Can的频度很高或在候选简称集中的相对频度很高。
[0103] 在上述的步骤6-3中,当输入是单个全称或输入的全称文档中全称的个数小于1000时,该步骤不执行,否则,按照上文介绍全简称关系图的构图方法构造全简称关系图FAG=(F,A,E,f)。利用全简称关系图进行验证的具体方法如下: ,如果
则 ,如果vi的简称类型不是语境无关型,则对于全称vk而言该候选简称
vi是错误的。
[0104] 在上述的步骤6-4中,类别“F”的含义是错误,类别“T”的含义是正确。
[0105] 通过上述验证之后得到已知全称的简称集,下面讨论对简称集中的简称进行排序。
[0106] 在本发明中,按优先级综合函数PRI(Cfn,An)对简称集中同一类的简称进行排序。
[0107] PRI(Cfn,An)的定义如下:其中, , 为每个函数在综合评价时采取的权
重,Fi与 间的对应关系见表4, 的大小根据各函数对全简称关系的约束程度通过实验得到:
表格 3
编号 函数内容
函数权重
F1 Can的字来自Fn中的比率 0.12
F2 Fn与Can的语序 0.08
F3 Can对Fn的分词覆盖率 0.06
F4 Can对Fn的分词覆盖重心 0.08
F5 Fn中未被Can覆盖到的最长连续分词数 0.04
F6 Fn和Can的长度关系 0.06
F7 Can在GoogleArchSet(Fn)中出现的频度 0.10
F8 Can的字来自Fn中的相对比率 0.12
F9 Can在候选简称集中的相对覆盖率 0.10
F10 Can在候选简称集中的频率 0.12
F11 候选简称集中的元素按照频度升序排序后,Can在其中的相对位置 0.14
为了说明本发明的实际效果,采用本发明的方法对多学科全称找简称做了大量实验。
我们从多学科中随机抽取了3910个汉语Fn,利用本发明查找其An,结果见表格5。
[0108] 表格 4 Fn查找An的实验结果Fn个数获取到An的Fn个数 获取到An的Fn的百分比 所有An的个数 查找An的正确率(抽样)
3910 3288 84.09% 5321 94.81%
我们从上述实验中随机抽取了2140个简称用联合验证方法进行验证,表5是验证的结果。
[0109] 表格5联合验证的结果真实 标记 Y N 准确率 召回率
Y 174536 95.87% 97.98%
N 75 28488.75% 79.11%
通过实验可以得出如下结论:本发明对汉语简称的获取具有较好的效果,适用范围广,可以很好弥补汉语简称获取上以往方法的缺陷。
[0110] 上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计构思的前提下,本领域中普通工程技术人员对本发明的技术方案做出的各种变型和改进,均应落入本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈