首页 / 专利库 / 电信 / 节点 / 子节点 / 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

阅读:339发布:2024-01-17

专利汇可以提供一种基于网页节点间互信息的网页文章信息自动抽取方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于网页 节点 间互信息的网页文章信息自动 抽取 方法及系统,该方法包括以下步骤:S1、清理网页,构造干净的DOM树;S2、构造空节点序列1(NODES),用于存放步骤S3找到的文本节点、链接节点、图像节点、视频节点;S3、遍历DOM树,将找到的文本、链接、图片、视频节点保存到NODES序列;S4、构造存放DOM树中不可再拆分的布局节点的空节点序列2(NODES2);S5、遍历NODES2,计算其中各个节点之间的互信息;S6、识别文章边界信息节点,所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;S7、合并网页节点;S8、抽取网页文章信息。采用本发明 实施例 ,能够提高网页文章信息自动抽取的准确率。,下面是一种基于网页节点间互信息的网页文章信息自动抽取方法及系统专利的具体信息内容。

1.一种基于网页节点间互信息的网页文章信息自动抽取方法,该方法包括以下步骤:
S1、清理网页,构造干净的DOM树;
S2、构造空节点序列1NODES,用于存放步骤S3找到的文本节点、链接节点、图像节点、视频节点;
S3、遍历DOM树,将找到的文本节点、链接节点、图像节点、视频节点保存到NODES序列;
S4、构造存放DOM树中不可再拆分的布局节点的空节点序列2NODES2;所述布局节点是指网页中影响网页布局的节点,包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD;
S5、遍历NODES2,计算其中各个节点之间的互信息,所述互信息为网页中两个节点的距离;
S6、识别文章边界信息节点,所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;
S7、合并网页节点:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点;并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
S8、抽取网页文章信息。
2.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:所述步骤S1进一步包括:
S1.1、获取网页HTML源代码;
S1.2、网页净化:去掉网页HTML源代码中网页内容无关的无用信息;
S1.3、DOM树生成:对净化后的网页生成DOM树。
3.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:所述步骤S4进一步包括:
S4.1、顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
S4.2将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
4.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:所述步骤S5进一步包括:
S5.1对所述DOM树上每一个布局节点进行初步打分;
S5.2如果所述DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
S5.3、两个节点之间跨越的布局节点分值之和即为两个节点之间的互信息,互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
5.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:其中,所述步骤S6进一步包括:
S6.1、如果一个节点为H1、H2或H3,那么它就是网页标题节点;或者如果节点如H1、H2或H3的节点,被包含在网页的...中,且文本长度>8,那么该节点是网页标题节点;
S6.2、如果一个节点下的文字很短,并且包含特殊的短文本信息,那么该节点就是文章边界信息节点。
6.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:其中,所述步骤S8进一步包括:
S8.1、去除网页干扰信息,去除网页中的非文章信息;
S8.2、获取网页正文信息:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
S8.3、获取网页文章边界信息:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。
7.一种基于网页节点间互信息的网页文章信息自动抽取系统,该系统包括以下模
网页清理模块:清理网页,构造干净的DOM树;
文章信息存储模块:遍历DOM树,将找到的文本节点、链接节点、图像节点、视频节点保存到节点序列1NODES中;
不可再拆分的布局节点存储模块:将DOM树中不可再拆分的布局节点存放于节点序列
2NODES2中;所述布局节点是指网页中影响网页布局的节点,包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD;
互信息计算模块:遍历NODES2,计算其中各个节点之间的互信息,所述互信息为网页中两个节点的距离;
文章边界信息节点识别模块:所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;
网页节点合并模块:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点;并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
网页文章信息抽取模块:抽取网页文章信息。
8.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述网页清理模块进一步包括:
源代码获取子模块、获取网页HTML源代码;
网页净化子模块:去掉网页HTML源代码中网页内容无关的无用信息;
DOM树生成子模块:对净化后的网页生成DOM树。
9.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述不可再拆分的布局节点存储模块进一步包括:
不可再拆分的布局节点查找子模块:顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
不可再拆分的布局节点加入子模块:将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
10.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述互信息计算模块进一步包括:
初步打分子模块:对所述DOM树上每一个布局节点进行初步打分;
加权分值设置子模块:如果所述DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
计算模块:计算两个节点之间跨越的布局节点初步打分与加权分值之和,将其作为两个节点之间的互信息,其中互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
11.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述文章边界信息节点识别模块进一步包括:
标题节点识别子模块:如果一个节点为H1、H2或H3,那么它就是网页标题节点;或者如果节点如H1、H2或H3的节点,被包含在网页的...中,且文本长度>8,那么该节点是网页标题节点;
其他文章边界信息识别子模块:如果一个节点下的文字很短,并且包含特殊的短文本信息,那么该节点就是文章边界信息节点。
12.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述网页文章信息抽取模块进一步包括:
网页干扰信息去除子模块:去除网页中的非文章信息;
网页正文信息获取子模块:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
网页文章边界信息获取子模块:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。

说明书全文

一种基于网页节点间互信息的网页文章信息自动抽取方法及

系统

技术领域

[0001] 本发明涉及互联网信息采集的技术领域,尤其涉及一种基于网页节点互信息的网页信息自动抽取方法及系统。

背景技术

[0002] 网页文章信息的抽取是指将网页中的标题、正文、正文前、中、后部分的图片、视频抽取出来。目前主流的网页内容信息抽取方法,一般都是基于启发式规则或有监督学习,比如基于网页文本密度信息、基于链接文字比信息、基于网页DOM树中标签特征等,对网页内容进行抽取。但是,它们在抽取网页内容时容易弄错或者丢失网页内容的相关信息,比如,有主、副标题的文章,标题容易识别出错;对于正文前面的图片容易丢失等。

发明内容

[0003] 本发明提供了一种基于网页节点互信息的网页文章信息自动抽取方法,其将网页中两个节点的距离作为该两个节点间互信息,对于互信息越小的两个节点,其关系越紧密,越应该合并,本发明利用网页中节点间的互信息,实现网页文章信息的自动抽取。
[0004] 一种基于网页节点间互信息的网页文章信息自动抽取方法,该方法包括以下步骤:
[0005] S1、清理网页,构造干净的DOM树;
[0006] S2、构造空节点序列1(NODES),用于存放步骤S3找到的文本节点、链接节点()、图像节点()、视频节点(
[0011] S7、合并网页节点:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点:并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
[0012] S8、抽取网页文章信息。
[0013] 其中,所述步骤S1进一步包括:
[0014] S1.1、获取网页HTML源代码;
[0015] S1.2、网页净化:去掉网页HTML源代码中的注释、script、css等无用信息;
[0016] S1.3、DOM树生成:对净化后的网页利用jsoup生成DOM树;
[0017] 其中,所述步骤S4进一步包括:
[0018] S4.1、顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
[0019] S4.2将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
[0020] 其中,所述步骤S5进一步包括:
[0021] S5.1对DOM树上每一个布局节点进行初步打分,跨越一个DIV标签算2分,P标签算1分,TABLE标签算3分,TR标签算0.5分,TD标签算0.3分,UL标签算3分,LI标签算0.5分;
[0022] S5.2如果DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型(文本、链接、图片、视频)和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
[0023] 如果网页有效信息的类型是链接,那么节点新分值=节点原分值*系数K1,一般系数K1可以取1.1~1.9;
[0024] 如果网页有效信息的类型是文本,节点新分值=节点原分值*系数K2,一般系数K2可以根据文本长度、段落数量、平均句子长度等因素而定,经验值取1.5~2.5;
[0025] 如果网页有效信息的类型是图片或视频,节点新分值=节点原分值*系数K3,一般系数K3可以取 1.5~2.0:
[0026] S5.3、通过两个节点之间跨越的布局节点分值之和表示两个节点之间的互信息,互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
[0027] 其中,所述步骤S6进一步包括:
[0028] S6.1、如果一个节点为H1、H2或H3,那么它就是网页标题;或者如果节点如H1、H2或H3的节点,被包含在网页的...中,且文本长度>8,那么该节点是标题节点;
[0029] S6.2、如果一个节点下的文字很短,并且包含一些特殊的短文本信息,比如包含“发布日期”,或本身就是日期格式字符串,或者是一个姓名,是一个媒体名称,那么该节点就是文章边界信息节点。
[0030] 其中,所述步骤S8进一步包括:
[0031] S8.1、去除网页干扰信息,去除网页中的非文章信息;
[0032] S8.2、获取网页正文:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
[0033] S8.3、获取网页文章边界信息:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息,比如作者、来源、发布日期等元信息。
[0034] 另外,本发明还提供了一种基于网页节点间互信息的网页文章信息自动抽取系统,该系统包括以下模
[0035] 网页清理模块:清理网页,构造干净的DOM树;
[0036] 文章信息存储模块:遍历DOM树,将找到的文本节点、链接节点、图像节点、视频节点保存到节点序列1(NODES)中;
[0037] 不可再拆分的布局节点存储模块:将DOM树中不可再拆分的布局节点存放于节点序列2(NODES2)中;所述布局节点是指网页中影响网页布局的节点,包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD;
[0038] 互信息计算模块:遍历NODES2,计算其中各个节点之间的互信息,所述互信息为网页中两个节点的距离;
[0039] 文章边界信息节点识别模块:所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;
[0040] 网页节点合并模块:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点;并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
[0041] 网页文章信息抽取模块:抽取网页文章信息。
[0042] 其中,所述网页清理模块进一步包括:
[0043] 源代码获取子模块、获取网页HTML源代码;
[0044] 网页净化子模块:去掉网页HTML源代码中网页内容无关的无用信息;
[0045] DOM树生成子模块:对净化后的网页生成DOM树。
[0046] 其中,所述不可再拆分的布局节点存储模块进一步包括:
[0047] 不可再拆分的布局节点查找子模块:顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
[0048] 不可再拆分的布局节点加入子模块:将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
[0049] 其中,所述互信息计算模块进一步包括:
[0050] 初步打分子模块:对所述DOM树上每一个布局节点进行初步打分,跨越一个DIV标签算2分,P标签算1分,TABLE标签算3分,TR标签算0.5分,TD标签算0.3分,UL标签算3分,LI标签算0.5分;
[0051] 加权分值设置子模块:如果所述DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
[0052] 计算模块:计算两个节点之间跨越的布局节点分值之和,将其作为两个节点之间的互信息,其中互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
[0053] 其中,所述文章边界信息节点识别模块进一步包括:
[0054] 标题节点识别子模块:如果一个节点为H1、H2或H3,那么它就是网页标题节点;或者如果节点如H1、 H2或H3的节点,被包含在网页的...中,且文本长度>8,那么该节点是网页标题节点;
[0055] 其他文章边界信息识别子模块:如果一个节点下的文字很短,并且包含特殊的短文本信息,那么该节点就是文章边界信息节点。
[0056] 其中,所述网页文章信息抽取模块进一步包括:
[0057] 网页干扰信息去除子模块:去除网页中的非文章信息;
[0058] 网页正文信息获取子模块:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
[0059] 网页文章边界信息获取子模块:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。
[0060] 本发明通过计算网页节点的互信息来标识网页节点间的紧密,并根据节点间的紧密关系实现对网页文章信息自动抽取方法,提高了网页文章信息抽取的准确率,有效解决了在抽取网页内容时容易弄错或者丢失网页内容的相关信息的问题。附图说明
[0061] 图1为本发明一种基于网页节点间互信息的网页文章信息自动抽取方法的流程图
[0062] 图2为本发明一种基于网页节点间互信息的网页文章信息自动抽取系统的示意图。

具体实施方式

[0063] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂,以下为本发明的具体实施方式。
[0064] 实施例
[0065] 图1公开了一种基于网页节点间互信息的网页文章信息自动抽取方法,该方法包括以下步骤:
[0066] S1、清理网页,构造干净的DOM树;
[0067] S1.1、获取网页HTML源代码;
[0068] S1.2、网页净化:去掉网页HTML源代码中的注释、script、css等无用信息;
[0069] S1.3、DOM树生成:对净化后的网页利用jsoup生成DOM树;
[0070] S2、构造空节点序列1(NODES),用于存放步骤S3找到的文本节点、链接节点()、图像节点()、视频节点(
[0091] S8.2、获取网页正文:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
[0092] S8.3、获取网页文章边界信息:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息,比如作者、来源、发布日期等元信息。
[0093] 实施例二
[0094] 图2为本发明提供的一种基于网页节点间互信息的网页文章信息自动抽取系统,该系统包括以下模块:
[0095] 网页清理模块:清理网页,构造干净的DOM树;
[0096] 文章信息存储模块:遍历DOM树,将找到的文本节点、链接节点、图像节点、视频节点保存到节点序列1(NODES)中;
[0097] 不可再拆分的布局节点存储模块:将DOM树中不可再拆分的布局节点存放于节点序列2(NODES2)中;所述布局节点是指网页中影响网页布局的节点,包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD;
[0098] 互信息计算模块:遍历NODES2,计算其中各个节点之间的互信息,所述互信息为网页中两个节点的距离;
[0099] 文章边界信息节点识别模块:所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;
[0100] 网页节点合并模块:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点;并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
[0101] 网页文章信息抽取模块:抽取网页文章信息。
[0102] 其中,所述网页清理模块进一步包括:
[0103] 源代码获取子模块、获取网页HTML源代码;
[0104] 网页净化子模块:去掉网页HTML源代码中网页内容无关的无用信息;
[0105] DOM树生成子模块:对净化后的网页生成DOM树。
[0106] 其中,所述不可再拆分的布局节点存储模块进一步包括:
[0107] 不可再拆分的布局节点查找子模块:顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
[0108] 比如:

这里是第一段

 这里是第二段

[0109] 两个P都会找到同一个祖先节点,会在NODES2中删除这两个P,用来代替它俩;
[0110] 不可再拆分的布局节点加入子模块:将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
[0111] 其中,所述互信息计算模块进一步包括:
[0112] 初步打分子模块:对所述DOM树上每一个布局节点进行初步打分,跨越一个DIV标签算2分,P标签算1分,TABLE标签算3分,TR标签算0.5分,TD标签算0.3分,UL标签算3分,LI标签算0.5分;
[0113] 加权分值设置子模块:如果所述DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
[0114] 如果网页有效信息的类型是链接,那么节点新分值=节点原分值*系数K1,一般系数K1可以取1.1~1.9;
[0115] 如果网页有效信息的类型是文本,节点新分值=节点原分值*系数K2,一般系数K2可以根据文本长度、段落数量、平均句子长度等因素而定,经验值取1.5~2.5;
[0116] 如果网页有效信息的类型是图片或视频,节点新分值=节点原分值*系数K3,一般系数K3可以取 1.5~2.0;;
[0117] 计算模块:计算两个节点之间跨越的布局节点分值之和,将其作为两个节点之间的互信息,其中互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
[0118] 其中,所述文章边界信息节点识别模块进一步包括:
[0119] 标题节点识别子模块:如果一个节点为H1、H2或H3,那么它就是网页标题节点;或者如果节点如H1、 H2或H3的节点,被包含在网页的...中,且文本长度>8,那么该节点是网页标题节点;
[0120] 其他文章边界信息识别子模块:如果一个节点下的文字很短,并且包含特殊的短文本信息,那么该节点就是文章边界信息节点。
[0121] 其中,所述网页文章信息抽取模块进一步包括:
[0122] 网页干扰信息去除子模块:去除网页中的非文章信息;
[0123] 网页正文信息获取子模块:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
[0124] 网页文章边界信息获取子模块:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。
[0125] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
相关专利内容
标题 发布/更新时间 阅读量
一种基于CML的智能变电站设备网络结点连锁失效风险分析方法 2020-05-08 991
一种区块链共识方法及装置 2020-05-08 256
一种基于图数据库的建筑设计规范知识图谱构建方法 2020-05-08 337
一种基于RPL路由协议的IPv6无线传感网时间同步方法 2020-05-11 440
一种K8s平台的资源控制方法、装置及相关组件 2020-05-08 102
一种节点宕机修复方法、装置、电子设备及可读存储介质 2020-05-08 382
一种基于机器学习的应收账款兑付风险控制方法及系统 2020-05-08 180
一种基于图分析的反欺诈检测方法及检测系统 2020-05-08 591
直播视频的回看方法、装置、电子设备、系统及存储介质 2020-05-08 510
一种随机接入方法及装置 2020-05-08 413
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈