专利汇可以提供一种版式文件图文自动关联的方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种版式文件中的图文自动关联方法及系统,进行图片 块 与文章的自动匹配,使文章中引用的图片块与文章或者正文合并在一起,还原成为文章或者正文的 附图 ,主要方法为:从版式文件中获取图片块集合和文章集合;文章集合中的文章存在以下情况:只有正文的文章;或者包含标题,引题,副题等一项或者多项相关信息,而没有正文的文章;或者包含标题,引题,副题等一项或者多项相关信息而又有正文的文章;从图片块集合中获取与文章集合中匹配的文章,将此图片块设置为该文章的附图,添加到文章对象中。采用本发明所述的方法,能够自动化的提取文章的附图,能够提高自动成文的准确性,减少人工标引文章的工作量。,下面是一种版式文件图文自动关联的方法及系统专利的具体信息内容。
1、一种版式文件图文自动关联方法,其特征在于,该方法包括:
A:从版式文件中获取图片块集合{P}和文章集合{A};
B:从图片块集合{P}中获取与文章集合{A}中匹配的文章,将此图片块设 置为该文章的附图,添加到文章对象中。
2、如权利要求1所述的图文自动关联方法,其特征在于,步骤B具体操 作如下:
(1)从反解版式文件后得到的图片块集合{P}中取出一个与已取图片块不 同的图片块;
(2)依次获取文章集合{A}中的文章,比较获取得到的文章是否与步骤(1) 中取出的图片块近邻,如果没有文章与图片块近邻,直接转至步骤(3);否则, 则将此图片块设置为该文章的附图;
(3)重复以上步骤,直至图片块集合{P}中的所有图片块被取过一次。
3、如权利要求2所述的图文自动关联方法,其特征在于,如果有两个或 者两个以上的文章与图片块近邻,则筛选出图片块与文章重叠度最大的一篇文 章,将此图片块设置为该文章的附图。
4、如权利要求1-3任一所述的图文自动关联方法,其特征在于,在文章 集合{A}中查找与图片块近邻的文章;判断文章与图片块是否近邻具体操作为:
(4.1)设置获取得到的图片块为P1,获取得到的文章为A1;新建文字块 集合{T},从文章A1中获取文章的引题,标题,副题所对应的文字块,放置在 集合{T}中;
(4.2)依次获取文字块集合{T}中的文字块,设为T1,查看图片块P1是 否与文字块T1近邻;如果近邻条件成立,记录图片块P与文章的重叠度;如 近邻条件不成立,继续从文字块集合{T}中获取下一个文字块,继续同该图片 块进行比较是否近邻;如果图片块和文字块集合{T}中任何一个文字块都不存 在近邻的关系,那么执行步骤(4.3);
(4.3)比较图片块P1是否与文章正文近邻:新建文字块集合{L},如果 文章正文对应的文字块的子块个数大于1,则获取得到该正文块的所有子块, 并放置在集合{L}中,依次获取集合{L}中的文字块,设为T1,查看图片块P1 与文字块T1是否近邻;否则比较文章正文对应的文字块同图片块P1是否近邻; 如果近邻条件成立,记录图片块P1与文章的重叠度。
5、如权利要求4所述的图文自动关联方法,其特征在于,步骤(4.2)中 判断图片块P1与文字块T1是否为近邻的方法如下:
版面平均字体大小为所有的文字块的字号的平均值,设置为AvgFontSize;
设取到的图片块P1的左上角坐标为(X1,Y1),右下角坐标为(X1’,Y1’); 图片块P1的宽度为W1=X1’-X1,图片块P1的高度H1=Y1’-Y1;
获取到的文字块T1左上角坐标为(X2,Y2),右下角坐标为(X2’,Y2’);文 字块T1的宽度为W2=X2’-X2,文字块T1的高度H2=Y2’-Y2,文字块T1 的字体大小为f;
然后进行如下操作:
(5.1)计算图片块P1与文字块T1紧邻的有效距离:
DistThreshold=C1*AvgFontSize+f*C2;
其中C1和C2为图片块与文字块紧邻的调节系数,1
垂直方向上的重叠度:
OverlapY=(min(Y1’,Y2’)-max(Y1,Y2))/(max(Y1’,Y2’)-min(Y1,Y2));
水平方向上的重叠度:
OverlapX=(min(X1’,X2’)-max(X1,X2))/(max(X1’,X2’)-min(X1,X2));
(5.3)计算图片块P1与文字块T1最小重叠度:
水平方向上的最小重叠是:
OverlapXMin=(min(X1’,X2’)-max(X1,X2))/min(X1’-X1,X2’-X2);
垂直方向上的最小重叠度:
OverlapYMin=(min(Y1’,Y2’)-max(Y1,Y2))/min(Y1’-Y1,Y2’-Y2);
(5.4)计算文字块T1与图片块P1的重叠距离:
水平方向上的重叠距离DistX:
DistX=max(X1,X2)-min(X1’,X2’);
垂直方向上的重叠距离DistY:
DistY=max(Y1,Y2)-min(Y1’,Y2’);
其中max(a,b)表示取两者的较大值,min(a,b)表示取两者的较小值;
(5.5)判定如下条件是否其中一项成立:
A.OverlapX>Dx且OverlapY>Dy;
B.OverlapXMin>Dxmin且OverlapY>Dy;
C.OverlapYMin>Dymin且OverlapX>Dx;
D.OverlapYMin>Dymin且OverlapXMin>Dxmin且(X2’- X2)>C*AvgFontSize;其中C为文字块与图片块近邻的调节系数,2
6、如权利要求5所述的图文自动关联方法,其特征在于,步骤(4.3)中 查看图片块P1与文字块T1是否相邻的方法具体为:
(6.1)计算图片块P1与文字块T1紧邻的有效距离:
DistThreshold=C1*AvgFontSize;
其中C1为图片块与文字块紧邻的调节系数,1
(6.3)利用步骤(5.3)的方法,计算图片块P1与文字块T1最小重叠度, 得到OverlapXMin和OverlapYMin;
(6.4)判定如下条件是否其中一项成立:
A.OverlapX>Dx且OverlapY>Dy;
B.OverlapXMin>Dxrmin且OverlapY>Dy;
C.OverlapYMin>Dymin且OverlapX>Dx;
D.OverlapX>Dx且OverlapY>Dy且OverlapXMin*OverlapYMin> Dxymin且OverlapX*OverlapY>Dxy;
E.OverlapXMin>Dxmin且OverlapYMin>Dymin;
上述中Dx和Dy为文字块与图片块之间水平和垂直方向上的近邻重叠系 数,0
7、如权利要求2所述的图文自动关联方法,其特征在于,还包括以下操 作:
(7.1)创建文章集合{N},筛选文章集合{A}中只存在正文的文章,添加 到文章集合{N}中,并从文章集合{A}中删除;
(7.2)创建文章集合{M},筛选文章集合{A}中正文为空的文章,添加到 文章集合{M}中,并从文章集合{A}中删除;
(7.3)将{N}中每篇文章正文对应的文字块与文章集合{M}比较,如果能 找到匹配的文章,将此文章正文对应的文字块设置为匹配文章的正文,并从文 章集合{N}中删除该文章;如找不到匹配的文章,则将该文章重新添加到文章 集合{A}中,并从文章集合{N}中删除该文章;最后将文章集合{M}重新添加到 文章集合{A}中。
8、如权利要求7所述的图文自动关联方法,其特征在于:文字块查找匹 配的文章步骤如下:
(8.1)从文章集合{N}中取出一个与已取文章不同的文章;获取该文章正 文所对应的文字块的矩形区域RectT;
(8.2)从文章集合{M}中取出一个与已取文章不同的文章;合并文章所包 含的文字块的矩形区域,得到包含所有文字块的外包矩形区域RectM;
(8.3)求其矩形区域RectT与矩形区域RectM的交集,得到RectInsect;
(8.4)计算矩形区域RectT的面积AreaRectT,矩形区域RectM的面积 AreaRectM,矩形区域RectInsect的面积AreaRectInsect;
(8.5)如果AreaRectInsect/AreaRectT>0.5或者AreaRectInsect/AreaRectM> 0.5成立,表示文字块找到了匹配的文章;否则执行8.2步骤;文章集合{M} 遍历结束后,重新执行8.1步骤,以保证文章集合{N}中的文章被遍历一次。
9、如权利要求2所述的图文自动关联方法,其特征在于,该方法还包括 以下操作:查看图片块集合{P}中是否仍存在图片块,若存在,依次获取该图 片块,并为之单独创建一篇文章,设置该图片块为所述文章的附图。
10、如权利要求9所述的图文自动关联方法,其特征在于,该方法还包括 以下操作:从图片块集合{P}中删除所述图片,并将此文章添加到文章集合{A} 中。
11、一种版式文件图文自动关联系统,其特征在于,该图文自动关联系统 包括:
图片块获取器,用于从版式文件中获取图片块,形成图片块集合;
文章获取器,用于从从版式文件中获取文章,形成文章集合;
匹配器;用于将图片块集合中的图片与文章集合进行聚类,找到图片块在 文章集合中匹配的文章;
图文关联器,用于将图片块在文章集合中匹配的文章进行关联,将此图片 块设置为该文章的附图,并添加到文章对象中。
12、如权利要求11所述的图文自动关联系统,其特征在于,所述匹配器 具体包括:
图片块提取器,用于从反解版式文件后得到的图片块集合中取出一个与已 取图片块不同的图片块,直至图片块集合中的所有图片块被取过一次;
近邻比较器,用于比较文章集合中的文章是否与图片块提取器中取出的图 片块近邻,如果没有文章与图片块近邻,继续提取下一个图片;否则,则将此 图片块设置为该文章的附图;如果有两个或者两个以上的文章与图片块近邻, 则筛选出图片块与文章重叠度最大的一篇文章,将此图片块设置为该文章的附 图。
13、如权利要求12所述的图文自动关联系统,其特征在于,还包括:
文章正文生成器;用于将只有正文的文章和没有正文的文章进行匹配;如 果匹配成功,将只有正文的文章的正文对应的文字块设置为没有正文的文章的 正文。
14、如权利要求11-13任一所述的图文自动关联系统,其特征在于,还包 括:图片块判断器,用于查看经匹配器匹配后图片块集合中是否存在图片块, 若存在,则所述图文关联器还包括以下功能:依次获取该图片块,并为之单独 创建一篇文章,设置该图片块为文章的附图,添加到文章对象中。
本发明涉及信息技术处理领域,尤其涉及一种版式文件中图文自动关联的 方法及系统。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
附图页面的展示方法和装置、文本页面的展示方法和装置 | 2020-05-11 | 528 |
WebGIS环境下规划与自然资源业务附图的制图方法 | 2020-05-11 | 447 |
一种专利文件的处理方法、装置及存储介质 | 2020-05-11 | 653 |
一种重力增能的方法及产品设计方案 | 2020-05-12 | 23 |
内陆城市水资源良性循环与水污染全面治理法 | 2020-05-12 | 511 |
高温超导体 | 2020-05-12 | 761 |
经天纬地市区高速公路网 | 2020-05-13 | 513 |
一种附图翻译方法、装置及存储介质 | 2020-05-11 | 158 |
优化的数据传输系统和方法 | 2020-05-13 | 351 |
一种针对早期专利文档扫描件中图文信息的智能处理方法 | 2020-05-12 | 370 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。