专利汇可以提供单文档摘要生成方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种单文档 摘要 生成方法,包括步骤:对待摘要文档的段落进行聚类,每一个类别为一个语义 块 ;计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分核心内容的句子;根据核心句子的出现顺序,连接句子,生成摘要。本发明的方法将词的相似度和 命名实体 识别引入单文档摘要中,提高摘要的提取 精度 ,同时利用了single-pass提高了的聚类的速度,能够准确的提取单文档摘要,对于新闻类型和公告类型的文档具有非常高的摘要准确率。,下面是单文档摘要生成方法专利的具体信息内容。
1.一种单文档摘要生成方法,具体包括如下步骤:
S1.对待摘要文档的段落进行聚类,每一个类别为一个语义块;
S2.计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分内容的核心句子;
步骤S2所述的语义块内两两句子的相似度具体计算过程如下:
计算句子s1、s2的名字动词相似度,记为:
其中,m
为句子s1中的名词和动词数,n为句子s2中的名词和动词数,t1i表示句子s1中的编号为i的名词或动词,t2j,j=1,…,n表示s2中的编号为j的名词或动词;
计算命名实体相似度为 其中,A、B分别为句子s1、s2中命名实体的
集合;
句子s1、s2的相似度为:sim(s1,s2)=αsim1(s1,s2)+βsim2(s1,s2),其中,α、β为预先设定的加权因子,且α+β=1;
S3.根据核心句子的出现顺序,连接句子,生成摘要。
2.根据权利要求1所述的单文档摘要生成方法,其特征在于,待摘要文档的段落进行聚类的具体过程如下:
步骤101:对自然段Pj构建VSM模型,其中,Pj表示第j个自然段,设待摘要文档T有N个自然段,即T=P1∪P2∪P3…Pj…∪Pn;
步骤102:权值计算,对每个自然段Pj进行分词Pj={t1:w1,t2:w2,…,tn:wn},ti是自然段Pj分词后的词语,wi是词语ti的权重,计算自然段Pj中词语ti的权值wi的公式为其中,tf(ti)为词语ti在段落Pj中出现的次数,fi为ti在fi个段落
出现;
步骤103:对待摘要文档T进行聚类,从未聚类的待摘要文档T的自然段中选取自然段P,利用步骤102得到的权值计算自然段P与其它每个已被聚类自然段的相似度;确定最大的相似度;判断最大的相似度是否大于预先设定的阈值,如果大于阈值,则将段落P放入与其具有最大相似度的自然段所在的类中,否则,新建类,将段落P放入该类中。
3.根据权利要求2所述的单文档摘要生成方法,其特征在于,步骤103所述的相似度具体为余弦相似度。
4.根据权利要求3所述的单文档摘要生成方法,其特征在于,所述的余弦相似度的具体计算过程如下:
统计待计算余弦相似度的段落P1、P2的总词语量,记为k,然后分别在P1、P2中添加缺少的词语,并且将添加的词语的权值填写为0;然后利用余弦相似度公式得到段落P1、P2的相似度cos_sim(P1,P2):
ω1i为段落P1中词语ti的权值,ω2i为段落P2中词语ti的权值。
5.根据权利要求4所述的单文档摘要生成方法,其特征在于,所述的命名实体包括人名、地名、机构名、时间、日期、货币和百分比。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
包括特定人的视频摘要 | 2020-05-12 | 725 |
视频摘要生成方法和视频摘要生成装置 | 2020-05-13 | 575 |
摘要翻译器 | 2020-05-11 | 1010 |
单文档摘要生成方法 | 2020-05-12 | 526 |
摘要提取方法以及摘要提取模块 | 2020-05-11 | 357 |
摘要生成方法及装置 | 2020-05-12 | 343 |
摘要评估装置和方法 | 2020-05-13 | 529 |
包括特定人的视频摘要 | 2020-05-13 | 456 |
摘要生成方法及装置 | 2020-05-11 | 328 |
实时视频摘要 | 2020-05-11 | 767 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。