首页 / 专利库 / 银行与财务事项 / 货币 / 数字货币 / 加密货币 / 比特币 / 一种面向人物属性稀疏页面的人物信息抽取方法

一种面向人物属性稀疏页面的人物信息抽取方法

阅读:810发布:2020-05-15

专利汇可以提供一种面向人物属性稀疏页面的人物信息抽取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种面向人物属性稀疏页面的人物信息 抽取 方法,其步骤包括:1)对页面的人物 属性信息 含量进行量化;其中,页面为根据设定检索关键词搜索到的页面;2)根据页面的量化值确定从该页面抽取的语句数n,作为该页面的文本 块 ;其中,抽取的n个语句为与检索关键词最邻近的n个句子,页面的量化值越高,则对应的语句数n值越大;3)从各所述文本块中抽取人物属性特征,得到包含人物属性特征的候选集。本发明能够在页面人物属性稀疏的场景下依旧能达到较高的准确率、召回率以及F1值,从而为人物检索系统提供准确可靠的数据 基础 。,下面是一种面向人物属性稀疏页面的人物信息抽取方法专利的具体信息内容。

1.一种面向人物属性稀疏页面的人物信息抽取方法,其步骤包括:
1)对页面的人物属性信息含量进行量化;其中,页面为根据设定检索关键词搜索到的页面;
2)根据页面的量化值确定从该页面抽取的语句数n,作为该页面的文本;其中,抽取的n个语句为与检索关键词最邻近的n个句子,页面的量化值越高,则对应的语句数n值越大;
3)从各所述文本块中抽取人物属性特征,得到包含人物属性特征的候选集。
2.如权利要求1所述的方法,其特征在于,对页面的人物属性信息含量进行量化的方法为:
11)设置若干衡量指标,并为每一衡量指标设置一对应的原始权重和该衡量指标对应的属性个数上限;
12)当页面中包含一衡量指标对应的属性个数大于或等于该衡量指标对应的属性个数上限时,则该衡量指标的权重为相应的原始权重;否则该衡量指标的权重为对应的原始权重*页面中包含该衡量指标对应的属性个数/该衡量指标对应的属性个数上限;
13)将该页面的各项衡量指标的权重值相加作为该页面的量化值。
3.如权利要求2所述的方法,其特征在于,所述衡量指标包括但不限于下列衡量指标的一个或若干组合:姓名、地理位置、组织、时间、国家、页面单词个数、关键词个数、邮箱、QQ号、电话号码、比特币、Skype号和微信号
4.如权利要求1所述的方法,其特征在于,抽取人物属性特征的方法为:首先根据待抽取属性类别的不同,将人物属性类别分为三个类别:传统命名实体、特殊类型实体和特殊名词词组;其中,特殊类型实体为存在一定规则的实体;然后,采用命名实体识别工具从文本块中抽取传统命名实体,采用基于规则的抽取方法从文本块中抽取特殊类型实体,采用维基百科构造每个特殊名称词组对应的词典,然后利用所述词典从文本块中抽取特殊名词词组。
5.如权利要求1所述的方法,其特征在于,对候选集中的人物属性特征进行验证,其方法为:对于每个属性分别训练一个相应的分类器,用于从该属性的多个候选属性值中选取可能性最大的属性值;然后将各属性对应的可能性最大的属性值作为检索关键词对应的人物属性信息。
6.如权利要求5所述的方法,其特征在于,对于同一属性a的每一候选值,提取该候选值的特征,然后根据候选值的特征生成该候选值的特征向量;然后根据候选值的特征向量与该属性a对应的一设定特征向量的相似度对该属性a的候选值进行筛选,得到该属性a的候选值集合;然后利用SVM模型对该属性a的候选值集合进行训练,得到该属性a的分类器。
7.如权利要求6所述的方法,其特征在于,所述候选值的特征包括候选值的位置、出现次数、单词个数、是否有关键词、所在段落格式、大写字母个数、大写字母个数占比、首字母个数占比、数字个数、数字占比、首字母大写单词占比、是否在url中、特殊字符个数、特殊字符占比、名词个数、名词占比、介词个数、附近是否有候选词。

说明书全文

一种面向人物属性稀疏页面的人物信息抽取方法

技术领域

[0001] 本发明涉及一种面向人物属性稀疏页面的人物信息抽取方法,属于计算机软件技术领域。

背景技术

[0002] 人物信息抽取是人物搜索引擎的数据基础,它一般指对于给定的人名或者其他检索词,从搜索引擎检索到的各种各样的页面中,抽取得到属于该人物的多个属性信息(国籍、住址等)。不同于命名实体识别的地方在于,此处的人物属性抽取不仅仅要将页面中的人物属性抽取出来,还需要对抽取的多个人物属性值进行判断,选取属于检索人物的属性值。
[0003] 目前,常见的人物信息抽取技术可以分为两类。一类是基于规则的抽取方法,它一般是通过挖掘文本中常见的模式,构建正则从文本中提取属性值。由于海量文本中的模式相对复杂,干扰因素多,因此该类方法的效果很大程度上依赖于挖掘模式的多少与好坏。另一类是基于机器学习的抽取方法,它一般分为两个步骤。第一步是通过传统命名实体识别、词典等方法生成每个待提取属性的候选集;第二步是通过机器学习构造的分类器对候选集进行筛选。
[0004] 按照抽取页面人物属性含量的不同,目前的人物信息抽取技术可以分为两类:一类是面向人物属性含量丰富页面的抽取方法;一类是面向人物属性含量不定(可能丰富、可能稀疏)页面的抽取方法。已有工作虽对上述两种场景做了充分的研究,但缺少在页面人物属性含量稀疏场景下的研究。

发明内容

[0005] 本发明的目的在于提供一种面向人物属性稀疏页面的人物信息抽取方法,使算法在页面人物属性稀疏的场景下依旧能达到较高的准确率、召回率以及F1值(准确率和召回率的调和均值),为人物检索系统提供准确可靠的数据基础。
[0006] 本发明的技术方案为:
[0007] 一种面向人物属性稀疏页面的人物信息抽取方法,其步骤包括:
[0008] 1)对页面的人物属性信息含量进行量化;其中,页面为根据设定检索关键词搜索到的页面;
[0009] 2)根据页面的量化值确定从该页面抽取的语句数n,作为该页面的文本;其中,抽取的n个语句为与检索关键词最邻近的n个句子,页面的量化值越高,则对应的语句数n值越大;
[0010] 3)从各所述文本块中抽取人物属性特征,得到包含人物属性特征的候选集。
[0011] 进一步的,对页面的人物属性信息含量进行量化的方法为:
[0012] 11)设置若干衡量指标,并为每一衡量指标设置一对应的原始权重和该衡量指标对应的属性个数上限;
[0013] 12)当页面中包含一衡量指标对应的属性个数大于或等于该衡量指标对应的属性个数上限时,则该衡量指标的权重为相应的原始权重;否则该衡量指标的权重为对应的原始权重*页面中包含该衡量指标对应的属性个数/该衡量指标对应的属性个数上限;
[0014] 13)将该页面的各项衡量指标的权重值相加作为该页面的量化值。
[0015] 进一步的,所述衡量指标包括但不限于下列衡量指标的一个或若干组合:姓名、地理位置、组织、时间、国家、页面单词个数、关键词个数、邮箱、QQ号、电话号码、比特币、Skype号和微信号
[0016] 进一步的,抽取人物属性特征的方法为:首先根据待抽取属性类别的不同,将人物属性类别分为三个类别:传统命名实体、特殊类型实体和特殊名词词组;其中,特殊类型实体为存在一定规则的实体;然后,采用命名实体识别工具从文本块中抽取传统命名实体,采用基于规则的抽取方法从文本块中抽取特殊类型实体,采用维基百科构造每个特殊名称词组对应的词典,然后利用所述词典从文本块中抽取特殊名词词组。
[0017] 进一步的,对候选集中的人物属性特征进行验证,其方法为:对于每个属性分别训练一个相应的分类器,用于从该属性的多个候选属性值中选取可能性最大的属性值;然后将各属性对应的可能性最大的属性值作为检索关键词对应的人物属性信息。
[0018] 进一步的,对于同一属性a的每一候选值,提取该候选值的特征,然后根据候选值的特征生成该候选值的特征向量;然后根据候选值的特征向量与该属性a对应的一设定特征向量的相似度对该属性a的候选值进行筛选,得到该属性a的候选值集合;然后利用SVM模型对该属性a的候选值集合进行训练,得到该属性a的分类器。
[0019] 进一步的,所述候选值的特征包括候选值的位置、出现次数、单词个数、是否有关键词、所在段落格式、大写字母个数、大写字母个数占比、首字母个数占比、数字个数、数字占比、首字母大写单词占比、是否在url中、特殊字符个数、特殊字符占比、名词个数、名词占比、介词个数、附近是否有候选词。
[0020] 本发明针对页面人物属性稀疏的问题,改进常见的人物信息抽取方法,在原有的基础上增添了文本块选取方法,将页面中的文本块进行过滤筛选,进而对选取出的文本块进行下一步特征提取;为了有效且合理的选取文本块,提出了量化文本人物属性含量方法;以及使用规则、词典、NER多种方法从已经过滤好的文本块中抽取属性的候选集。
[0021] 本发明从候选集的上下文、属性值、词性等方面共提取了30个特征,使用SVM模型对候选集进行验证。
[0022] 与现有技术相比,本发明的积极效果为:
[0023] 1、提出了在页面人物属性稀疏场景下,预抽取文本块的选择方法,有效地清除了页面中的干扰文本。
[0024] 2、结果的验证中采用词向量计算两个单词的相似度,有效地排除了文本的噪声。
[0025] 3、实验采用WePS的数据集,实验结果通过准确率、召回率、F1值三个方面进行衡量。实验结果如表1所示。其中,人名的准确率最高,为89.3%,平均准确率为58%;学校的召回率最高,为45.8%,平均召回率为27.2%;职位的F1值最高,为55.8%,平均F1值为37%。表2为WePS实验结果,通过比较,通过比较,不难发现,在人物属性缺省的场景下,无论在准确率、召回率、F1值方面,本文的结果均要远优于WePS的结果。
[0026] 表1为实验结果
[0027] 属性 推荐数 正确数 总数 准确率 召回率 F1值组织单位 321 121 417 37.7 29.0 37.8
出生地 5 3 10 60.0 50.0 40.0
国籍 34 18 49 52.9 36.7 40.0
位置 79 21 156 26.6 13.5 17.9
学校 22 11 24 50.0 45.8 47.8
职位 246 96 511 39.0 18.8 25.4
邮箱 19 12 24 63.2 50.0 55.8
生日 11 5 41 45.5 12.2 19.2
名字 449 401 1302 89.3 30.8 45.8
平均 1186 668 2534 58.0 27.2 37.0
[0028] 表2为WePS各参赛小组实验结果
[0029]系统 准确率 召回率 F1值
PolyUHK 30.4 7.6 12.2
ECNU_1 6.8 18.8 10.0
ECNU_2 8.0 17.6 11.0
MIVTU 5.7 15.5 8.3
CASIANED 8.5 19.0 11.7
UC3M_1 2.5 2.2 2.3
UC3M_2 2.4 2.2 2.3
UC3M_3 2.2 2.0 2.1
UC3M_4* 2.2 2.0 2.1
UC3M_5* 8.0 3.6 5.0
UvA_1 2.7 27.3 5.0
UvA_2 4.4 27.4 7.6
UvA_3 0.7 0.2 0.2
UvA_5 3.3 2.8 3.1
附图说明
[0030] 图1为人物信息抽取技术流程图
[0031] 图2为面向人物属性稀疏页面的人物信息抽取技术流程图;
[0032] 图3为属性种类数目与量化值关系图。

具体实施方式

[0033] 下面结合附图对本发明的技术方案做进一步的详细说明。
[0034] 为了在人物检索系统中得到更好地检索结果,国内外很早就已经进行人物信息抽取技术的研究,尤其是对英文文本的研究比较深入。目前而言,较为流行且效果较好的人物信息抽取技术主要包含两项关键技术:一项是候选集的生成,另一项是候选集的验证。候选集的生成是指对于预提取属性,采用词典、正则、NER多种方式从文本中提取多个可能的属性值。例如,对于国籍属性,从页面中抽取China、US、Japan作为候选集。候选集的验证是指对于多个可能的属性值,基于机器学习模型等方法,从中选取认为最有可能属于检索人物的属性值。例如,对于上述的国籍候选集,使用训练得到的分类器,选择最有可能的属性值。技术路线如图1所示。
[0035] 上述技术方案,在页面人物属性丰富的场景下,可以取得理想的抽取效果。但是,在页面人物属性稀疏的场景下,如果直接使用常见的人物信息抽取技术,将整个页面文本作为预抽取文本块,则因页面中大部分文本不包含人物属性信息,页面噪音过大,严重影响抽取的效果。对于人物属性信息严重稀疏的页面,比如属于检索人物的信息只有邮箱与发帖日期。在该种场景之下,如果未将页面的干扰文本去除,则与主体部分不相关的文本中的属性信息很有可能被认为是与检索人物相关的信息,而这一结果明显是错误的。
[0036] 因此,在页面人物属性稀疏的场景之下,人物信息抽取技术首先解决的问题应该是如何选提取文本块。也就是说,由于页面属性信息的稀疏性,面向人物属性稀疏页面的人物信息抽取技术需要在常见的方法下增加文本块选取策略。技术方案如图2所示。
[0037] 在接下来的小节中,将依次对文本块选取、候选集生成、候选集验证做逐一的详解。
[0038] 1文本块选取
[0039] 这里的文本块选取是指,因页面人物属性稀疏,故预抽取文本不再是整个页面文本,仅仅是检索词附近的文本。本文提出的文本块选取策略的核心思想是:选取检索关键词附近的句子作为选择的文本块;页面属性信息含量越丰富,则抽取的附近句子越多。
[0040] 其中,因为不同页面的人物属性信息含量是远远不同的,因此,对于不同的页面,选取文本块时,关键词附近句子的选取数目应该随页面人物属性信息含量而变化。人物属性信息含量越高,则应更多地选取附近的句子。因此,这里需要对页面人物属性信息含量进行量化:用[0,1]之间的一个值表示页面人物属性信息的含量,值越大,则表示信息含量越丰富。限定最大提取的句子数目为7,则应提取的句子数目为7与量化值乘积的结果取整。
[0041] 下面对量化方法做详细介绍。本文的量化方法对不同的衡量指标,给予不同的权重。这里将衡量指标分为以下三个类别:
[0042] 1.常见人物属性,如人名、地理位置等。
[0043] 2.强属性,如邮箱、电话号等。
[0044] 3.其它指标,如页面单词个数,检索关键词数目等。
[0045] 不同衡量指标的权重如表3所示,属性个数上限表示,当页面中包含一衡量指标对应的属性个数大于或等于上限时,则该衡量指标可以得到相应的权重值。当页面中包含衡量指标对应的属性个数未达到上限时,则该衡量指标的权重值为原始权重*属性个数/属性个数上限。页面的量化值为各项衡量指标的权重值相加。例如,当“地理位置”属性值个数大于或者等于5时,量化值加0.05;当“地理位置”属性值个数为1时,量化值加0.05*1/5。“关键词个数”表示属性相应的关键词个数,如birthplace对应的关键词born、birth、birthplace等。
[0046] 表3为衡量指标及其权重值
[0047]衡量指标 属性个数上限 权重值
姓名 5 0.05
地理位置 5 0.05
组织 5 0.05
时间 3 0.05
国家 3 0.05
页面单词个数 3800 0.05
关键词个数 1 0.55
邮箱 10 0.1
QQ号 10 0.1
电话号码 10 0.1
比特币 10 0.1
Skype号 10 0.1
微信号 10 0.1
[0048] 通过上述方法,对每一个网页,通过去html得到纯文本之后,便可以计算其量化值。为了验证量化方法的合理性,我们从互联网中随机选取了2397个页面,统计每个页面的属性种类数目并计算其量化值。结果显示,量化值随属性种类数目的增加而增加,两者基本呈现线性关系,如图3所示,因此本文提出的量化方法具有一定的合理性。
[0049] 2候选集的生成
[0050] 候选集生成是指通过信息抽取技术,以经过选择的文本块作为输入,抽取文本块中所有属性的可能属性值。对于一个给定的人物属性,它的属性值通常是特定形式的名词。例如对于邮箱,属性值必须符合邮箱的格式;对于出生地,其属性值必须符合地理位置的格式。
[0051] 根据待抽取属性类别的不同,可以将人物属性类别分为三个类别,如表4所示。
[0052] 表4为不同类型候选集的抽取方法表
[0053]属性值类型 人物属性 属性值抽取方法
传统命名实体 生日,出生地,组织,学校,人名 命名实体识别工具
特殊类型实体 邮箱,电话,网址,Fax 基于规则的抽取方法
特殊名词词组 职位,学校,专业 词典
[0054] 其中,第一个属性类别为传统命名实体(人名等)。已有的命名实体识别工具已经可以得到很好的结果,因此本文不对命名实体识别方法做单独研究,直接采用业界认可度较高的斯坦福大学命名实体识别工具。Stanford Named Entity Recognizer(NER)是斯坦福大学自然语言研究小组发布的成果之一,是一个Java实现的命名实体识别(以下简称NER)程序。NER将文本中的实体按类标记出来,例如人名,公司名,地区等。NER是基于一个训练而得的Model工作,用于训练的数据即大量人工标记好的文本,理论上用于训练的数据量越大,NER的识别效果就越好。
[0055] 第二类为特殊类型实体,例如邮箱、电话、网址等。这类实体通常存在一定的规则,因此对于此类实体,通常采用基于规则的抽取方法。本文分别对邮箱、电话等构造了不同的正则表达式。
[0056] 对于邮箱,其基本格式为“名称@域名”,其中名称中允许使用英文字母、下划线与中划线,域名的一般形式为:“[N级域名.][三级域名.]二级域名.顶级域名”。需要使用“^”匹配邮箱的开始部分,用“$”匹配邮箱结束部分以保证邮箱前后不能有其他字符,所以最终邮箱的正则表达式为:^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$。
[0057] 对于电话,座机号码(可能包含国家代码与区号)的正则表达式为:(\\+\\d{2}-)?0\\d{2,3}-\\d{7,8}$,手机号码(可能包含国家代码与区号)的正则表达式为:^(\\+\\d{2}-)?(\\d{2,3}-)?([1][3,4,5,7,8][0-9]\\d{8})$。
[0058] 对于QQ号码,正则表达式为^[1-9][0-9]{4,14}$。
[0059] 结果显示,对于该类实体,正则表达式可以准确地提取出候选的人物属性值。
[0060] 第三类为特殊名词词组,例如职位、学位等可以穷举的名词词组。对该类的实体,因为其可穷举性,这里通过维基百科构造每个属性的词典。比如,通过得到维基百科中的所有职位列表,我们可以得到一个职位的词典,对于职位属性值候选集,便可以通过文本匹配在词典中出现的词组而得到。
[0061] 通常情况下,通过上述三种方式基本上便可以准确地得到预抽取属性的多个候选属性值。本文中提取的属性如表5所示。但通常情况下,多个候选属性值中往往只有一个是属于检索人物。如果将多个候选属性值同时作为检索人物属性,或者只是随机的选择、就近的选择,会导致人物检索系统的展示效果十分不友好。因此,在候选集生成的基础之上,需要对候选集做进一步的验证,从中选择最有可能为检索人物的属性值。
[0062] 表5为本文预抽取属性列表
[0063] 真实姓名 组织 电话号码 地理位置 职位 国籍QQ号 生日 微信号 出生地 邮箱 学校
[0064] 3候选集的验证
[0065] 候选集的验证承接上一步骤,在抽取的候选集基础上,做候选集的验证,从多个候选的属性值中,通过二分器,选择最有可能属于检索人物的属性值。对于每个属性,都需要单独的训练一个相应的分类器,用于从该属性的多个候选属性值中选取可能性最大的属性值。通过WePS2数据集对每个属性的SVM二分器进行训练,得到训练好的模型,进而使用每个属性的分类器,从该属性的多个候选值中,选择最有可能的属性值。本文所采用的数据来自WePS2。测试数据包括30个人名相应的数据集,30个人名出自于三个不同来源:维基百科,ACL’08和美国人口普查。对于每个名字,WePS2从互联网搜索引擎(Yahoo!API)获得前150个搜索结果。与此同时,他们提供了一个由来自WePS1的17个人名组成的训练数据。其中,人物属性数据由4个独立的工作人员标注。其中三个拥有语言学硕士学位,另一个是在该领域有3年多工作经验的计算机语言学家。
[0066] WePS2训练集的统计如表6所示,在WePS2的测试数据集中含有30个不同的人名,3,468个不同的网页文档(每个人名平均115.6个文档,由于专家标注意见不一,忽视了其中
585个文档。在剩余的2,883个文档中,有2,421个文档至少含有一个人物属性,有462个文档不含有人物属性。
[0067] 表6为数据集文档统计表
[0068] 测试集中文档数量 3,468忽略的文档数量 585
测试集中使用的文档数量 2,883
至少含有一个人物属性的文档数量 2,421
不含有人物属性的文档数量 426
[0069] 本文的候选集验证采用SVM模型,从候选集中同一属性的候选值(即一个或多个候选词)的上下文、属性值、词性等方面共提取了30个特征,如表7所示。不同维度的特征可以描述候选集中候选词不同方面的信息,其中词汇位置、附近是否有候选词等属于上下文特征;大写字母占比、特殊字符个数等属于属性值特征;名词占比等属于词性特征。
[0070] 表7为特征选取表
[0071]词汇位置 出现次数 单词个数
是否有关键词 所在段落格式 大写字母个数
大写字母个数占比 首字母个数占比 数字个数
数字占比 首字母大写单词占比 是否在url中
特殊字符个数 特殊字符占比 名词个数
名词占比 介词个数 附近是否有候选词
[0072] 由于页面文本干扰因素多,很难准确的抽取出候选词,导致候选集中常常包含较大的噪声,进而严重影响结果的判断。例如,预抽取属性值为Columubia University,但因为(B.S.)为学位信息,且位于属性值附近,很容易将Columubia University(B.S.)整体作为候选集。类似的现象在国籍、学位等属性上也会常常出现。若只是单一地将抽取结果与数据集的标记值完全匹配作比较,则会添加很多负例,严重影响训练器的整体效果;设置数据集的标记值是为了训练分类器,数据集的标签是确定的文本,提取出来的候选词有可能与文本相符,但是并不完全与标记值相同,如“Columubia University(B.S.)”,因此应调整判断标准,以更好地训练分类器的效果。因此,针对上述文本,本文对于字符串的比较问题,采用词向量计算候选词的特征向量与该属性对应的一设定特征向量(即数据集的标记值)的相似度,当相似度大于0.9时,则认为该候选值为正例。spaCy是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。其内置word2vec,本文直接采用其接口。本发明在候选集验证部分,利用每一属性的筛选后保留的候选词作为该属性的训练集,训练得到该属性的分类器,从而为每个属性训练分类器;每个属性的训练集来自从公开的WePS2数据集中使用本发明的方法按该属性抽取出的候选集,对应的标签为数据集的原始标签。
[0073] 尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈