首页 / 专利库 / 数学与统计 / 解析法 / 文本分析 / 一种网页信息处理方法和装置

一种网页信息处理方法和装置

阅读:200发布:2024-01-25

专利汇可以提供一种网页信息处理方法和装置专利检索,专利查询,专利分析的服务。并且本 申请 提供了一种网页信息处理方法和装置,涉及网络技术领域。本申请的方法包括:接收客户端的网页 请求 ;解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标 服务器 ;接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式;如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。将本申请对于用户 访问 的不能进行压缩传输的 网站 的网页内容,由于减少了网络对页面内容的传输量,从而提高了传输时间,可节省客户端的流量,对于存在流量限制的客户端来说,使其可在同等流量限制的条件下访问更多的网站,获取更多的信息。,下面是一种网页信息处理方法和装置专利的具体信息内容。

1.一种网页信息处理方法,其特征在于,包括:
接收客户端的网页请求
解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器
接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式;
如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
2.根据权利要求1所述的方法,其特征在于,接收到客户端的网页请求后包括:
判断客户端的网页请求是否为动态网页请求;
如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中。
3.根据权利要求2所述的方法,其特征在于,接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式,判断不是压缩模式之后包括:
判断所述目标服务器响应是否为动态页面;
如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
4.根据权利要求2所述的方法,其特征在于,根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中包括:
在代理服务器添加监听事件,监听代理服务器的套接字;
代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,客户端Cookie列表;
依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号构成的五元组,计算所述五元组的MD5值;
根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
5.根据权利要求1所述的方法,其特征在于,接收客户端的网页请求之前还包括:
在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
6.根据权利要求5所述的方法,其特征在于,在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址包括:
通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
7.一种网页信息处理装置,其特征在于,包括:
网页请求接收模,用于接收客户端的网页请求;
网页请求处理模块,用于解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
响应内容判断模块,用于接收目标服务器的响应后,检查所述响应的内容是否为压缩模式;
压缩处理模块,用于如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
8.根据权利要求7所述的装置,其特征在于,接收到客户端的网页请求后包括:
第一判断子模块,用于判断客户端的网页请求是否为动态网页请求;
会话标识生成模块,用于如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口、和/或客户端Cookie列表生成会话标识,并将所述会话标识加入会话图数据结构中。
9.根据权利要求8所述的装置,其特征在于,所述压缩处理模块包括:
第二判断子模块,用于判断所述目标服务器响应是否为动态页面;
第一压缩发送子模块,用于如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
第二压缩发送子模块,用于如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
10.根据权利要求8所述的装置,其特征在于,所述会话标识生成模块包括:
监听分析子模块,用于在代理服务器添加监听事件,监听代理服务器的套接字;
代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,解析客户端Cookie列表;
计算子模块,用于依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号五元组,计算所述五元组的MD5值;
会话标识生成子模块,用于根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
11.根据权利要求7所述的装置,其特征在于,接收客户端的网页请求之前,在客户端包括:
IP地址替换模块,用于在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
12.根据权利要求11所述的装置,其特征在于,所述IP地址替换模块包括:
通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。

说明书全文

一种网页信息处理方法和装置

技术领域

[0001] 本申请涉及网络技术领域,特别是涉及一种网页信息处理方法和装置。

背景技术

[0002] 用户浏览网页是上网的一个主要需求,主要是浏览器通过HTTP协议(超文本传送协议)与Web服务器建立访问请求,Web服务器将相应的网页内容返回给浏览器。超文本传送协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到Web浏览器。HTML是一种用于创建文档的标记语言,这些文档包含到相关信息的链接,用户可以单击一个链接来访问其它文档、图像或多媒体对象,并获得关于链接项的附加信息。客户机和服务器必须都支持HTTP,才能在万维网上发送和接收HTML文档并进行交互。HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。
[0003] 随着网络的发展,HTTP协议也随着发展,而在HTTP1.1以前的HTTP协议版本,如HTTP1.0,即不支持网页的压缩传输,在采用HTTP1.1的很多Web服务器也未配置支持网页压缩传输的功能。并且,基于历史原因,现有网络中存在大量的采用HTTP1.0协议的Web服务器。
[0004] 基于上述情况,现有技术中,对于用户浏览的各种网页中,其中可能存在大量未能以压缩模式传输的网页内容,加大了页面返回的传输时间;并且,对于存在流量限制的用户来说,浪费了用户流量。发明内容
[0005] 本申请所要解决的技术问题是提供一种网页信息处理方法和装置,对于用户浏览的各未支持网页压缩功能的各网页,降低了页面返回的传输时间,节省了用户的流量。
[0006] 为了解决上述问题,本申请公开了一种网页信息处理方法,包括:
[0007] 接收客户端的网页请求;
[0008] 解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
[0009] 接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式;
[0010] 如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
[0011] 优选的,接收到客户端的网页请求后包括:
[0012] 判断客户端的网页请求是否为动态网页请求;
[0013] 如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中。
[0014] 优选的,接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式,判断不是压缩模式之后包括:
[0015] 判断所述目标服务器响应是否为动态页面;
[0016] 如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
[0017] 如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
[0018] 优选的,根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中包括:
[0019] 在代理服务器添加监听事件,监听代理服务器的套接字;
[0020] 代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,客户端Cookie列表;
[0021] 依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号构成的五元组,计算所述五元组的MD5值;
[0022] 根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
[0023] 优选的,接收客户端的网页请求之前还包括:
[0024] 在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
[0025] 优选的,在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址包括:
[0026] 通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
[0027] 相应的,本申请公开了一种网页信息处理装置,包括:
[0028] 网页请求接收模,用于接收客户端的网页请求;
[0029] 网页请求处理模块,用于解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
[0030] 响应内容判断模块,用于接收目标服务器的响应后,检查所述响应的内容是否为压缩模式;
[0031] 压缩处理模块,用于如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
[0032] 优选的,接收到客户端的网页请求后包括:
[0033] 第一判断子模块,用于判断客户端的网页请求是否为动态网页请求;
[0034] 会话标识生成模块,用于如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口、和/或客户端Cookie列表生成会话标识,并将所述会话标识加入会话图数据结构中。
[0035] 优选的,所述压缩处理模块包括:
[0036] 第二判断子模块,用于判断所述目标服务器响应是否为动态页面;
[0037] 第一压缩发送子模块,用于如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
[0038] 第二压缩发送子模块,用于如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
[0039] 优选的,所述会话标识生成模块包括:
[0040] 监听分析子模块,用于在代理服务器添加监听事件,监听代理服务器的套接字;
[0041] 代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,解析客户端Cookie列表;
[0042] 计算子模块,用于依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号五元组,计算所述五元组的MD5值;
[0043] 会话标识生成子模块,用于根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
[0044] 优选的,接收客户端的网页请求之前,在客户端包括:
[0045] IP地址替换模块,用于在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
[0046] 与现有技术相比,本申请包括以下优点:
[0047] 本申请利用代理服务器,将用户浏览的各web服务器返回的为压缩的页面,根据客户端可接收和解析的压缩格式,在代理服务器中压缩完毕后再发送给客户端,如此,可减少因为网络对页面内容的传输量,从而可节省页面内容在网络中传输的时间;并且,对于用户访问的不能进行压缩传输的网站的网页内容,由于减少了网络对页面内容的传输量,从而可节省客户端的流量,对于存在流量限制的客户端来说,使其可在同等流量限制的条件下访问更多的网站,获取更多的信息。比如对于使用现有3G的移动终端用户来说,一般都存在流量限制,还比如对于教育网用户来说,也一般存在流量限制,那么通过本申请即可在同等流量的条件下,访问更多的网站或网页。附图说明
[0048] 图1是本申请一种网页信息处理方法的流程示意图;
[0049] 图2是本申请一种网页信息处理装置的结构示意图;
[0050] 图3是本申请一种网页信息处理系统的结构示意图。

具体实施方式

[0051] 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
[0052] 本申请的核心思想之一在于,针对无法将网页内容以压缩模式返回给客户端的情况,通过代理服务器根据客户端的可解析的压缩格式进行压缩,并将压缩后的包返回至客户端。
[0053] 参照图1,示出了本申请一种网页信息处理方法的流程示意图,包括:
[0054] 步骤110,接收客户端的网页请求。
[0055] 对于客户端来说,其可能访问各种类型的web网站,而这些各种类型的web网站采用的可能是不同版本的HTTP协议。而基于历史原因,现在大量存在HTTP1.0的web服务器,而HTTP1.0的web服务器不支持页面压缩传输的功能。同时,由于对于web网站来说,即使采用HTTP1.1协议进行构建,如果对于各网页都进行压缩传输,可能影响服务器的性能,从而许多HTTP1.1web服务器也可能不会配置页面压缩传输功能。那么在这种情况下,客户端可将其网页请求发送至本申请的代理服务器中,由代理服务器接收客户端的网页请求,然后代理服务器对于目标服务器的网页请求响应,如果未压缩,则对其进行压缩传输至客户端。
[0056] 优选的,接收客户端的网页请求之前还包括:
[0057] 在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
[0058] 在实际中,如果客户端需要通过本申请访问网站,节省流量时,首先需要将网页请求发送至本代理。那么在网页请求发送时,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址,即可保证客户端的网页请求发送至本申请的代理服务器。
[0059] 进一步的,在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址包括:
[0060] 通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。实际中,所述域名查询函数为getaddrinfo。
[0061] 在实际中,当客户端浏览器初始化时,通过钩子函数钩取(hook)系统域名查询函数getaddrinfo,然后对于客户端的网页请求,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
[0062] 在实际中,用户端通过发送HTTP请求报文至代理服务器,从代理服务器获取HTTP响应报文。
[0063] 在实际中,用户端会发送HTTP GET请求至代理服务器,比如访问www.baidu.com的HTTP GET请求示例部分如下:
[0064] GET/HTTP/1.1
[0065] Accept:*/*
[0066] Accept-Language:zh-cn
[0067] User-Agent:Mozilla/4.0(compatible;MSIE 8.0 ;Windows NT 5.1;Trident/4.0;.NET CLR 2.0.50727;.NET CLR 3.0.04506.648;.NET CLR3.5.21022;.NET CLR 3.0.4506.2152;.NET CLR 3.5.30729;.NET CLR1.1.4322;.NET4.0C;.NET4.0E;
WWTClient2;IE0006_ver1;EN_US;360SE)
[0068] Accept-Encoding:gzip,deflate
[0069] Host:www.baidu.com
[0070] Connection:Keep-Alive
[0071] 其中:请求的第一部分说明了该请求是一个GET请求,该行的第二部分是一个斜杠(/),用来说明请求的是该域名的根目录.该行的最后一部分说明使用的是HTTP1.1版本(另一个可选荐是1.0).
[0072] 第2行是请求的第一个请求头部:User-Agent:产生请求的浏览器类型。Accept:客户端可识别的内容类型列表。Host:请求的主域名。
[0073] Connection:Keep-Alive,表示保持连接,客户端和代理服务器之间用于传输HTTP数据的TCP连接不会关闭,如果客户端再次访问这个服务器上的网页,会继续使用这一条已经建立的连接。一般Keep-Alive不会永久保持连接,它有一个保持时间,可以在不同的服务器软件(如Apache)中设定这个时间。
[0074] 实际中,在报文中,请求头部后面存在一个空行,发送回车符和换行符,通知服务器以下不再有请求头。
[0075] 其中,Host中的www.baidu.com加上“GET/HTTP/1.1”中第一个“/”后“HTTP”之前的请求相对主机路径,为一个完整的客户端HTTP请求的URL。比如对于“ww.baidu.com/s?wd=chinese”这个URL,那么“s?wd=chinese”即写在第一个“/”后“HTTP”之前,即“GET/s?wd=chinese HTTP/1.1”形式。
[0076] 步骤120,解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
[0077] 当代理服务器接收到客户端发送的网页请求后,解析所述网页请求,即前述网页请求报文,获得客户端可接收的压缩格式,即客户端可以接收并且在客户端浏览器中可以进行解析的压缩格式。
[0078] 然后将所述客户端的接收压缩格式对应客户端标识存储与代理服务器中,以备后续步骤使用。
[0079] 在本步骤中,为了获取客户端网页请求对应的目标服务器的网页内容,代理服务器还会将客户端的网页请求转发至目标服务器。在实际转发的过程中,代理服务器会以网页请求中的域名重构网页请求转发至目标服务器,即代理服务器以自身属性构造前述User-Agent,针对客户端的网页请求中的URL重构网页请求,然后转发至目标服务器。
[0080] 在本步骤中,优选的,接收到客户端的网页请求后包括:
[0081] 步骤S1,判断客户端的网页请求是否为动态网页请求;
[0082] 实际中,是与静态网页相对应的,也就是说,网页URL的后缀不是htm、html、shtml、xml等形态,而是以aspxasp、sp、php、perl、cgi等形式为后缀,在动态网页网址URL中有一个标志性的符号“?”,因此,可通过判断网页请求的URL中是否包括“?”判定网页请求是否为动态;如果包括,那么所述网页请求即为动态网页请求,如果不包括,那么所述网页请求即为静态网页请求。比如前述URL“ww.baidu.com/s?wd=chinese”,其中存在“?”那么该URL对应的网页请求即为动态网页请求;对于前述URL“ww.baidu.com”,其中不存在“?”,那么该URL对应的网页请求即为静态网页请求。
[0083] 步骤S2,如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中。
[0084] 对于客户端的动态网页请求,在客户端与代理服务器,代理服务器与目标服务器交互过程中,需要通过会话图数据结构(session map)进行交互,而这两个过程中的session map需要以一定的标识标志是哪一个客户端在请求,是哪一个目标服务器在提供所述请求的网页内容。
[0085] 那么此时,可根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中。
[0086] 在实际中,客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口必然存在,而在客户端第一次发送网页请求到服务器时,不一定存在,因为cookie信息的内容服务器为该客户端生成,然后发送至客户端,客户端对其进行处理后获得本地的cookie信息。当客户端的网页请求中不存在cookie信息时,所述5元组中的cookie信息即为缺省。
[0087] 进一步的,根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成会话标识,并将所述会话标识加入会话图数据结构中包括:
[0088] 步骤S21,在代理服务器添加监听事件,监听代理服务器的套接字;
[0089] 现有技术中,网络中各终端的应用程序一般是通过套接字进行数据传输的,比如客户端浏览器与代理服务器,代理服务器与web服务器之间。那么即可通过添加套接字监听事件获取其中的数据。
[0090] 步骤S22,代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,客户端Cookie列表;
[0091] 在实际中,客户端发送HTTP请求之前,一般会发送网页请求报文至代理服务器进行连接。在客户端发送的网页请求报文中,包括了目标服务器IP地址和目标服务器端口号,本申请在客户端发送的网页请求报文中采用私有参数的形式将客户端IP和端口进行设置,当代理服务器接收到所述网页请求报文后,解析到目标服务器IP和端口号,客户端IP和端口号后,再将所述网页请求报文中的私有参数删除,再进行发送。
[0092] 在实际中,当客户端存在cookie信息时,客户端的网页请求还包括了客户端对应网站主域名的cookie列表信息,那么代理服务器可根据HTTP协议解析客户端的cookie列表。
[0093] 步骤S24,依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号构成的五元组,计算所述五元组的MD5值;
[0094] 当得到所述客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口后,将其作为五元组计算所述五元组的MD5值。(MD5,Message Digest Algorithm 5,中文名为消息摘要算法第五版)
[0095] 步骤S25,根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
[0096] 比如前述五元组示例如下:
[0097] 220.181.126.42【客户端IP】,1000【客户端端口】,CookieList【TAOBAOSIDA=5723055450375193901_20120323193804;TAOBAOCHIDA=109_20120323193804;TAOBAOMIDA=5723055450375259437;TAOBAOAIDA=5723055450375324973】,125.76.224.251【目的服务器IP】,80【目的服务器端口】。
[0098] 然后基于上述五元组生成MD5值,将其插入会话图数据结构,实际中会话图数据结构一般以sessionMap标识。
[0099] 步骤130,接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式;
[0100] 代理服务器获得目的服务器HTTP Response后,检查返回HTTP头是否标识压缩模式。若返回内容是压缩模式,则直接返回给客户端。比如对于如下响应示例:
[0101] HTTP Response示例
[0102] HTTP/1.1 200OK
[0103] Server:nginx
[0104] Date:Fri,23 Mar 2012 11:38:06 GMT
[0105] Content-Type:image/gif
[0106] Content-Length:49
[0107] Connection:close
[0108] P3P:CP=″NOI DSP COR CURa ADMa DEVa PSAa PSDa OUR IND UNI PUR NAV″[0109] Expires:Sat,16 Jan 1980 12:00:00 GMT
[0110] Pragma:no-cache
[0111] 可根据Content-Type:image/gif判断当前响应内容是否为压缩模式。
[0112] 步骤140,如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
[0113] 优选的,接收目标服务器的网页请求响应后,检查所述网页请求响应的内容是否为压缩模式,判断不是压缩模式之后包括:
[0114] 步骤S131,判断所述目标服务器响应是否为动态页面;
[0115] 实际中,响应对应客户端的请求的URL,则可判断所述响应对应的URL中是否包括“?”,如果包括则是动态页面,如果不包括,则是静态页面。
[0116] 步骤S131,如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
[0117] 如果是静态页面,则可以标准HTTP协议规定gzip格式对网页进行自动压缩、打包,重写HTTP头添加压缩模式标签,并返回给客户端。
[0118] 步骤S132,如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
[0119] 如果是动态页面,则根据响应对应的session map中的会话ID,在代理服务器中查询匹配前述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识;若匹配上,则可以标准HTTP协议规定gzip格式对网页进行自动压缩、打包,重写HTTP头添加压缩模式标签。并返回给客户端。
[0120] 另外,还包括:
[0121] 步骤150,如果所述响应的内容是不是压缩模式,则将所述网页请求转发至客户端。
[0122] 因此,对于客户端来说无论目的服务器支持压缩格式或不支持压缩格式,都会被特定代理服务器压缩打包,从而节省客户端的实际下载流量。
[0123] 参照图2,其示出了本申请一种网页信息处理装置,包括:
[0124] 代理服务器210,所述代理服务器包括:
[0125] 网页请求接收模块211,用于接收客户端的网页请求;
[0126] 网页请求处理模块212,用于解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
[0127] 响应内容判断模块213,用于接收目标服务器的响应后,检查所述响应的内容是否为压缩模式;
[0128] 压缩处理模块,用于如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
[0129] 所述压缩处理模块还用于如果所述响应的内容是不是压缩模式,则将所述网页请求转发至客户端。
[0130] 其中,接收到客户端的网页请求后包括:
[0131] 第一判断子模块,用于判断客户端的网页请求是否为动态网页请求;
[0132] 会话标识生成模块,用于如果是,则根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口、和/或客户端Cookie列表生成会话标识,并将所述会话标识加入会话图数据结构中。
[0133] 其中,所述压缩处理模块包括:
[0134] 第二判断子模块,用于判断所述目标服务器响应是否为动态页面;
[0135] 第一压缩发送子模块,用于如果不是,则对所网页进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端;
[0136] 第二压缩发送子模块,用于如果是,则查找所述根据客户端IP地址、客户端端口、目标服务器IP地址、目标服务器端口和客户端Cookie列表构成的五元组生成的会话标识,并将所述会话标识与响应的会话图数据结构中的会话标识进行匹配;若匹配上,则对响应的会话中的内容进行压缩打包,在HTTP头添加压缩模式标签,并返回给用户端。
[0137] 其中,所述会话标识生成模块包括:
[0138] 监听分析子模块,用于在代理服务器添加监听事件,监听代理服务器的套接字;
[0139] 代理服务器从套接字中获取客户端的网页请求报文,按超文本传输协议解析客户端IP地址和客户端端口号,目标服务器IP地址和目标服务器端口号,客户端Cookie列表;
[0140] 计算子模块,用于依据得到的客户端IP地址、客户端端口号、客户端Cookie列表、目标服务器IP地址和目标服务器端口号五元组,计算所述五元组的MD5值;
[0141] 会话标识生成子模块,用于根据所述MD5值生成会话标识,并将所述会话标识插入相应会话图数据结构中。
[0142] 另外对应使用本申请的代理服务器的客户端中,接收客户端的网页请求之前,在客户端包括:
[0143] IP地址替换模块,用于在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
[0144] 其中,所述IP地址替换模块包括:
[0145] 通过钩子函数钩取系统域名查询函数,通过所述域名查询函数将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。所述域名查询函数为getaddrinfo。
[0146] 参照图3,其示出了本申请一种网页信息处理系统的结构示意图,包括:
[0147] 代理服务器310和客户端320;
[0148] 所述代理服务器310包括:
[0149] 网页请求接收模块311,用于接收客户端的网页请求;
[0150] 网页请求处理模块312,用于解析所述网页请求,获得客户端的接收压缩格式,并将所述网页请求转发至目标服务器;
[0151] 响应内容判断模块313,用于接收目标服务器的响应后,检查所述响应的内容是否为压缩模式;
[0152] 压缩处理模块314,用于如果不是,则将所述网页请求响应的内容根据所述压缩格式进行压缩,并转发至客户端。
[0153] 所述客户端320包括:IP地址替换模块321,用于在客户端中,将客户端的网页请求中域名对应的IP地址替换为代理服务器的IP地址。
[0154] 对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0155] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0156] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0157] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0158] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0159] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0160] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0161] 尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
[0162] 以上对本申请所提供的一种网页信息处理方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈