首页 / 专利库 / 软件 / 命令行界面 / 访问日志数据的统计方法、装置、计算机设备和存储介质

访问日志数据的统计方法、装置、计算机设备和存储介质

阅读:418发布:2020-05-13

专利汇可以提供访问日志数据的统计方法、装置、计算机设备和存储介质专利检索,专利查询,专利分析的服务。并且本 申请 涉及一种 访问 日志数据的统计方法、装置、计算机设备和存储介质。方法包括:获取统计命令行,统计命令行包括统计参数;查询访问记录统计库,从访问记录统计库中确定与统计参数对应的目标存储主键;其中,访问记录统计库包括存储主键以及存储主键对应的访问记录数量,存储主键包括访问信息字段值以及访问时间;读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量。采用本方法能够基于命令行工具实现多维度的访问日志统计,提高过滤访问日志、统计访问日志的效率。,下面是访问日志数据的统计方法、装置、计算机设备和存储介质专利的具体信息内容。

1.一种访问日志数据的统计方法,其特征在于,所述方法包括:
获取统计命令行,所述统计命令行包括统计参数;
查询访问记录统计库,从所述访问记录统计库中确定与所述统计参数对应的目标存储主键;其中,所述访问记录统计库包括存储主键以及所述存储主键对应的访问记录数量,所述存储主键包括访问信息字段值以及访问时间;
读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量。
2.根据权利要求1所述的方法,其特征在于,所述获取统计命令行的步骤之前,还包括:
获取原始访问日志中各行访问记录中不同字段的字段值以及访问时间;
将各所述字段的字段值确定为访问信息字段值,根据所述访问信息字段值以及访问时间,生成存储主键;
统计在所述原始访问日志中访问记录的对应字段的字段值以及访问时间,与所述存储主键中访问信息字段值以及访问时间相匹配的访问记录数量;
将所述访问记录数量作为存储主键的值,生成访问记录统计库。
3.根据权利要求1所述的方法,其特征在于,所述读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量的步骤,包括:
获取预设的数值区间;
确定各所述目标存储主键中的访问信息字段值所落入的数值区间;
计算访问时间相同且访问信息字段值落入同一数值区间的目标存储主键对应的访问记录数量的和值,得到在不同访问时间下,访问信息字段值落入不同数值区间时的访问记录数量。
4.根据权利要求1所述的方法,其特征在于,所述统计命令行还包括时间粒度参数;
所述读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量的步骤,包括:
根据所述时间粒度参数设置时间区间;
确定各所述目标存储主键中的访问时间所落入的时间区间;
计算落入同一时间区间的目标存储主键对应的访问记录数量的和值,得到不同时间区间下,访问信息字段值与所述统计参数匹配的访问记录数量。
5.根据权利要求2所述的方法,其特征在于,所述访问记录中的字段包括原始访问路径字段;
所述将各所述字段的各字段值确定为访问信息字段值,根据所述访问信息字段值以及访问时间,生成存储主键的步骤,包括:
对各行访问记录中的原始访问路径字段的原始访问路径进行收敛,得到各行访问记录对应的收敛访问路径;
根据不同的所述收敛访问路径以及所述访问时间,生成存储主键。
6.根据权利要求2所述的方法,其特征在于,所述访问记录中的字段包括终端代理信息字段;
所述将各所述字段的各字段值确定为访问信息字段值,根据所述访问信息字段值以及访问时间,生成存储主键的步骤,包括:
将各行访问记录中的终端代理信息字段的终端代理信息,与爬虫特征信息库中的不同搜索引擎的爬虫特征信息进行匹配;
若在爬虫特征信息库中匹配到与所述终端代理信息一致的目标爬虫特征信息,则将目标爬虫特征信息对应的搜索引擎确定为访问记录的终端代理信息字段值;
根据不同的所述搜索引擎以及所述访问时间,生成存储主键。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量的步骤之后,还包括:
根据不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量,生成统计结果列表;
通过命令行界面展示所述统计结果列表。
8.一种访问日志数据的统计装置,其特征在于,所述装置包括:
统计命令行获取模,用于获取统计命令行,所述统计命令行包括统计参数;
访问记录库查询模块,用于查询访问记录统计库,从所述访问记录统计库中确定与所述统计参数对应的目标存储主键;其中,所述访问记录统计库包括存储主键以及所述存储主键对应的访问记录数量,所述存储主键包括访问信息字段值以及访问时间;
访问记录数量获取模块,用于读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

说明书全文

访问日志数据的统计方法、装置、计算机设备和存储介质

技术领域

[0001] 本申请涉及数据处理技术领域,特别是涉及一种访问日志数据的统计方法、装置、计算机设备和存储介质。

背景技术

[0002] 网站服务器会对用户的访问进行记录并生成对应的访问日志,其中,访问日志会记录网站服务器对于用户的请求响应性能和状态。所以,在日常的网站访问故障排查过程中,技术人员会对访问日志进行统计分析,从而排查用户在访问网站过程中可能存在的问题情况。
[0003] 在访问日志统计分析工作中,使用命令行工具对不同时间下访问日志进行统计分析是必不可少的工作项,但是传统的命令行统计工具都只能对访问日志进行单一条件的统计分析,统计结果为单维度的统计结果,统计访问日志的效率低,日常的访问日志统计分析工作浪费大量的时间成本以及人成本。发明内容
[0004] 基于此,有必要针对上述技术问题,提供一种访问日志数据的统计方法、装置、计算机设备和存储介质。
[0005] 一种访问日志数据的统计方法,所述方法包括:
[0006] 获取统计命令行,所述统计命令行包括统计参数;
[0007] 查询访问记录统计库,从所述访问记录统计库中确定与所述统计参数对应的目标存储主键;其中,所述访问记录统计库包括存储主键以及所述存储主键对应的访问记录数量,所述存储主键包括访问信息字段值以及访问时间;
[0008] 读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量。
[0009] 在其中一个实施例中,所述获取统计命令行的步骤之前,还包括:
[0010] 获取原始访问日志中各行访问记录中不同字段的字段值以及访问时间;
[0011] 将各所述字段的字段值确定为访问信息字段值,根据所述访问信息字段值以及访问时间,生成存储主键;
[0012] 统计在所述原始访问日志中访问记录的对应字段的字段值以及访问时间,与所述存储主键中访问信息字段值以及访问时间相匹配的访问记录数量;
[0013] 将所述访问记录数量作为存储主键的值,生成访问记录统计库。
[0014] 在其中一个实施例中,所述读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量的步骤,包括:
[0015] 获取预设的数值区间;
[0016] 确定各所述目标存储主键中的访问信息字段值所落入的数值区间;
[0017] 计算访问时间相同且访问信息字段值落入同一数值区间的目标存储主键对应的访问记录数量的和值,得到在不同访问时间下,访问信息字段值落入不同数值区间时的访问记录数量。
[0018] 在其中一个实施例中,所述统计命令行还包括时间粒度参数;
[0019] 所述读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量的步骤,包括:
[0020] 根据所述时间粒度参数设置时间区间;
[0021] 确定各所述目标存储主键中的访问时间所落入的时间区间;
[0022] 计算落入同一时间区间的目标存储主键对应的访问记录数量的和值,得到不同时间区间下,访问信息字段值与所述统计参数匹配的访问记录数量。
[0023] 在其中一个实施例中,所述访问记录中的字段包括原始访问路径字段;
[0024] 所述将各所述字段的各字段值确定为访问信息字段值,根据所述访问信息字段值以及访问时间,生成存储主键的步骤,包括:
[0025] 对各行访问记录中的原始访问路径字段的原始访问路径进行收敛,得到各行访问记录对应收敛访问路径;
[0026] 根据不同的所述收敛访问路径以及所述访问时间,生成存储主键。
[0027] 在其中一个实施例中,所述访问记录中的字段包括终端代理信息字段;
[0028] 所述将各所述字段的各字段值确定为访问信息字段值,根据所述访问信息字段值以及访问时间,生成存储主键的步骤,包括:
[0029] 将各行访问记录中的终端代理信息字段的终端代理信息,与爬虫特征信息库中的不同搜索引擎的爬虫特征信息进行匹配;
[0030] 若在爬虫特征信息库中匹配到与所述终端代理信息一致的目标爬虫特征信息,则将目标爬虫特征信息对应的搜索引擎确定为访问记录的终端代理信息字段值;
[0031] 根据不同的所述搜索引擎以及所述访问时间,生成存储主键。
[0032] 在其中一个实施例中,所述读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量的步骤之后,还包括:
[0033] 根据不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量,生成统计结果列表;
[0034] 通过命令行界面展示所述统计结果列表。
[0035] 一种访问日志数据的统计装置,所述装置包括:
[0036] 统计命令行获取模,用于获取统计命令行,所述统计命令行包括统计参数;
[0037] 访问记录库查询模块,用于查询访问记录统计库,从所述访问记录统计库中确定与所述统计参数对应的目标存储主键;其中,所述访问记录统计库包括存储主键以及所述存储主键对应的访问记录数量,所述存储主键包括访问信息字段值以及访问时间;
[0038] 访问记录数量获取模块,用于读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量。
[0039] 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0040] 获取统计命令行,所述统计命令行包括统计参数;
[0041] 查询访问记录统计库,从所述访问记录统计库中确定与所述统计参数对应的目标存储主键;其中,所述访问记录统计库包括存储主键以及所述存储主键对应的访问记录数量,所述存储主键包括访问信息字段值以及访问时间;
[0042] 读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量。
[0043] 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0044] 获取统计命令行,所述统计命令行包括统计参数;
[0045] 查询访问记录统计库,从所述访问记录统计库中确定与所述统计参数对应的目标存储主键;其中,所述访问记录统计库包括存储主键以及所述存储主键对应的访问记录数量,所述存储主键包括访问信息字段值以及访问时间;
[0046] 读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量。
[0047] 上述访问日志数据的统计方法、装置、计算机设备和存储介质,通过获取统计命令行,从访问记录统计库中确定与统计命令行中统计参数对应的目标存储主键,读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,以获取不同访问时间下,目标存储主键对应访问信息字段值的访问记录数量,实现对访问日志进行访问时间结合其它特征维度的多维度统计分析,提高过滤访问日志、统计访问日志的效率,降低日常的访问日志统计工作大量的时间成本以及人力成本。附图说明
[0048] 图1为一个实施例中访问日志数据的统计方法的应用场景图;
[0049] 图2为一个实施例中原始访问日志的示意图;
[0050] 图3为一个实施例中访问日志数据的统计方法的流程示意图;
[0051] 图4为一个实施例中访问记录统计库生成方法的流程示意图;
[0052] 图5为一个实施例中访问日志数据的统计装置的结构框图

具体实施方式

[0053] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0054] 本申请提供的访问日志数据的统计方法,可以应用于如图1所示的应用环境中。其中,该计算机设备可以是服务器,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始日志数据、访问记录统计库等数据信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种访问日志数据的统计方法。
[0055] 对于本申请的技术方案中的原始访问日志进行简单说明,以便更清楚本申请所提供的技术方案,如图2所示,图2提供了一个实施例中原始访问日志中部分数据的示意图,访问用户访问网站时,网站服务器会把每一个访客来访时的一些信息自动记录下来生成原始访问日志(Raw Access Log),在原始访问日志中有多行不同的访问记录,每一行访问记录是访问用户访问网站某一个网页内的内容一次所产生的数据,每行访问记录包括用于描述不同信息的字段,例如访客IP地址信息、访问时间、操作系统信息、浏览器信息、显示器信息、访问页面路径,访问状态信息等不同访问信息字段。
[0056] 在一个实施例中,如图3所示,提供了一种访问日志数据的统计方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
[0057] 步骤S310:获取统计命令行,统计命令行包括统计参数。
[0058] 本步骤中,统计命令行可以是用户通过键盘在命令行界面(Command-Line Interface)键入的指令,服务器接收到该统计命令后,予以执行;统计参数是指对访问日志数据进行统计的统计条件,可以是原始访问日志的某个字段的字段名,也可以是原始访问日志某个字段。
[0059] 具体的,网站服务器中安装了用于统计分析访问日志数据的命令行工具,用户通过键盘在命令行工具提供的命令行界面中键入统计命令行,使得命令行工具响应统计命令行,对统计命令行进行分析获取其中的统计参数,并根据统计参数对已加载生成的访问记录进行统计。统计命令行可以支持正则表达式以及逻辑运算,用户可以使用正则表达式以及逻辑运算进行访问日志的筛选、统计等操作。
[0060] 步骤S320:查询访问记录统计库,从访问记录统计库中确定与统计参数对应的目标存储主键;其中,访问记录统计库包括存储主键以及存储主键对应的访问记录数量,存储主键包括访问信息字段值以及访问时间。
[0061] 访问记录统计库是对原始访问日志进行预处理后得到的数据信息,访问记录统计库包括多个存储主键以及存储主键对应的访问记录数量;其中,访问内容字段值是指原始访问日志中每行访问内容中用于描述不同信息的字段,存储主键是访问时间结合原始访问日志的访问信息字段值的生成的,例如,在原始访问日志中,每行访问记录都有用于描述访问状态的访问响应码,其中访问响应码包括“200”、“401”、“504”等,则结合访问记录对应的访问时间,可生成存储主键“201904180903_200”、“201904180903_401”等;存储主键对应的访问记录数量是指在存储主键对应的访问时间下,在原始访问日志中访问记录对应字段的字段值为存储主键的访问信息字段值的访问内容的数量,例如,在原始访问日志中,在访问时间“201904180903”下访问响应码为“200”的访问记录数量为56条,则存储主键“201904180903_200”对应的访问记录数量为“56”。
[0062] 本步骤中,命令行工具获得统计命令行中的统计参数后,查询访问记录统计库,确定与统计参数对应的访问信息字段值,从而从访问记录统计库中确定访问信息字段值与统计参数对应的多个目标存储主键,这些目标存储主键中的访问时间不同。
[0063] 步骤S330:读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量。
[0064] 本步骤中,命令行工具逐个读取目标存储主键中的访问时间,以及该目标存储主键下的访问记录数量,从而得到在不同访问时间下,访问记录中字段与统计参数匹配的访问记录的数量。
[0065] 上述访问日志数据的统计方法中,通过获取统计命令行,从访问记录统计库中确定与统计命令行中统计参数对应的目标存储主键,读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,以获取不同访问时间下,目标存储主键对应访问信息字段值的访问记录数量,实现对访问日志进行访问时间结合其它特征维度的多维度统计分析,提高过滤访问日志、统计访问日志的效率,降低日常的访问日志统计工作大量的时间成本以及人力成本。此外,该访问日志数据的统计方法是基于命令行工具中实现的,能够避免图形界面的额外系统资源的开销,减少操作图形界面的时间,实现快速的命令下发,提高访问日志数据的统计效率。
[0066] 以统计参数为访问响应码“200”为例对上述实施例进行进一步说明。命令行工具获取统计命令行,其中统计命令行中的统计参数为访问响应码“200”,是原始日志的具体字段值,命令行工具查询访问记录统计库,从访问记录统计库中确定访问信息字段值为“200”的多个目标存储主键,这些目标存储主键中的访问时间不同,即获得“201904180903_200”、“201904180904_200”等多个目标存储主键,命令行工具读取“201904180903_200”、“201904180904_200”等多个目标存储主键的访问时间,以及对应的访问记录数量,以得到在201904180903、201904180904等多个不同的访问时间时,访问响应码为“200”的访问记录数量。
[0067] 在一个实施例中,如图4所示,提供了访问记录统计库的生成方法,在获取统计命令行的步骤之前,还包括:
[0068] 步骤S410:获取原始访问日志中各行访问记录中不同字段的字段值以及访问时间。
[0069] 步骤S420:将各字段的字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键。
[0070] 步骤S430:统计在原始访问日志中访问记录的对应字段的字段值以及访问时间,与存储主键中访问信息字段值以及访问时间相匹配的访问记录数量。
[0071] 步骤S440:将访问记录数量作为存储主键的值,生成访问记录统计库。
[0072] 本实施例中,从网站服务器中加载原始访问日志,并确定原始访问日志中每条访问记录的访问时间以及各个字段的字段值;将不同字段的各个字段值一一作为一个访问信息字段值,结合访问时间,生成存储主键;每当从原始访问日志中读入一条访问内容中,访问信息字段值以及访问时间均与存储主键匹配,则存储主键对应的访问记录数量增加1,从而实现统计原始访问日志中,不同访问时间下,访问记录中对应字段为该访问信息字段值为访问记录数量;将访问记录数量作为对应存储主键的特征值,生成访问记录。本实施例实现将原始访问日志中各个字段结合访问时间作为的主键,以key-value模式进行横向存储,为后续的访问日志数据统计提供数据基础
[0073] 以统计参数为访问响应码为例对本实施例进行说明,在原始访问日志中,每行访问内容都有用于描述访问状态的访问响应码,其中访问响应码包括“200”、“401”、“504”等,则结合访问内容的访问时间,可生成存储主键“201904180903_200”、“201904180903_401”、“201904180903_504”、“201904180904_200”、“201904180904_401”、“201904180903_504”等,在加载原始访问日志的过程中,从原始访问日志中读入一条访问记录中,当该访问记录的访问响应码以及访问时间分别为“200”与“201904180903”,则可以认为该访问记录的访问响应码以及访问时间与存储主键“201904180903_200”相匹配,存储主键“201904180903_200”对应的访问记录数量增加1,通过对原始访问日志中所有访问记录进行统计,访问响应码为“200”且访问时间为“201904180903”的访问记录的数量为56条,则存储主键“201904180903_200”对应的访问记录数量为“56”。
[0074] 在一个实施例中,读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量的步骤,包括:获取预设的数值区间;确定各目标存储主键中的访问信息字段值所落入的数值区间;计算访问时间相同且访问信息字段值落入同一数值区间的目标存储主键对应的访问记录数量的和值,得到在不同访问时间下,访问信息字段值落入不同数值区间时的访问记录数量。
[0075] 本实施例中,数值区间可以由根据选取的统计参数设置的;服务器读取目标存储主键的访问信息字段值,确定访问信息字段值入的数值区间,进而确定落入各个数值区间的访问记录数据,通过访问记录数据的目标存储主键中的访问时间,确定在不同访问时间下,目标存储主键的特征值落入到不同数值区间中访问记录的数量,实现对目标存储主键的值的分层统计。
[0076] 以访问响应时间为例,命令行工具根据访客访问响应时间的不同空间范围设置时间区段,具体的,访问响应时间是指网站服务器从接收请求到响应请求完成的所用时间,可以根据访客的访问体验,将访问响应时间区段设置为小于0.1秒区段、大于等于0.1秒且小于0.3秒区段、大于等于0.3秒且小于1秒区段以及大于1秒区段;当统计参数为“访问响应时间”时,此时统计参数是原始日志字段具体的字段名,命令行工具查询访问记录统计库,从访问记录统计库中确定访问信息字段值对应的字段名为“访问响应时间”的多个目标存储主键,这些目标存储主键中的访问时间不同,但是访问信息字段值都是访问响应时间;命令行工具读取各个目标存储主键中的访问信息字段值(具体的访问响应时长值),并确定该访问信息字段值(具体的访问响应时长值)落入的访问响应时间区段,然后将同一访问时间下且落入同一访问响应时间区间的目标存储主键对应的访问记录数量进行相加,得到不同访问时间下,访问信息字段值(具体的访问响应时长值)落入不同数值区间时访问记录数据的数量,例如,得到在原始访问日志中,在访问时间为201904180903时且访问响应时间小于0.1秒的访问记录的数量、访问时间为201904180903时且访问响应时间大于等于0.1秒且小于0.3秒的访问记录的数量、在访问时间为201904180904时且访问响应时间小于0.1秒的访问记录的数量、在访问时间为201904180904时且访问响应时间大于等于0.1秒且小于0.3秒的访问记录的数量等多个统计结果。
[0077] 在一个实施例中,统计命令行还包括时间粒度参数;读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量的步骤,包括:根据时间粒度参数设置时间区间;确定各目标存储主键中的访问时间所落入的时间区间;计算落入同一时间区间的目标存储主键对应的访问记录数量的和值,得到不同时间区间下,访问信息字段值与统计参数匹配的访问记录数量。
[0078] 在本实施例中,时间粒度参数用于设置进行访问记录统计的时间段,例如时间粒度参数可以设置为以一小时为一个粒度对访问记录进行统计,也可以设置为以五分钟为一个粒度对访问记录进行统计。
[0079] 命令行工具获取到统计命令行后,对统计命令行进行分析,获取其中的时间粒度参数,并根据时间粒度参数设置对应的时间区间,并确定目标存储主键中的访问时间所落入的时间区间,从而将落入同一时间区间的目标存储主键对应的访问记录数量进行相加计算中数量,得到不同时间区间下,访问信息字段值与统计参数匹配的访问记录数量;
[0080] 以统计参数为访问响应码“200”为例进说明,当时间粒度参数设置为以每小时为一个粒度对访问记录进行统计,在获得目标存储主键的访问时间以及目标存储主键对应的访问记录数量,即获得得到在“201904180903”、“201904180904”、“201904180905”等以一分钟为粒度的多个不同访问时间下,访问响应码为“200”的访问记录数量,然后命令行工具根据目标存储主键的访问时间(“201904180903”、“201904180904”、“201904180905”等),将属于同一小时内的、访问响应码为“200”的存储主键对应的访问记录数量相加,得到每个小时内访问响应码为“200”的访问记录数量,并将该结果作为统计结果输出至用户端。
[0081] 在一个实施例中,访问记录中的字段包括原始访问路径字段;将各字段的各字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键的步骤,包括:对各行访问记录中的原始访问路径字段的原始访问路径进行收敛,得到各行访问记录对应的收敛访问路径;根据不同的收敛访问路径以及访问时间,生成存储主键。
[0082] 不同访问用户访问同一网页时,由于网站服务器为访问用户提供的服务功能中搭配的参数不一样,导致同一网页具有很多分散访问路径,本实施例中,命令行工具获取原始访问数据中各行访问记录中的访问路径,对访问路径中的数字或连续数字进行收敛统计,得到列子收敛后的收敛访问路径,从而将收敛访问路径确定为一个字段,在后续处理原始访问数据生成访问记录时,可以将不同收敛访问路径结合访问访问时间生成一个存储主键,进而统计原始访问日志中访问记录中收敛访问路径与访问时间均与存储主键匹配的访问记录数据,并保存到访问记录数据库中,为后续的访问日志数据统计提供数据基础。通过对收敛后的收敛访问路径进行统计,获取在某一时间内访问不同网页的访问数据的数量,同时,在利用访问日志数据进行网站功能性能汇总分析时,可以对同一页面的数据进行汇总统计。
[0083] 具体的,以一个实例对本实施中收敛访问路径例进行说明,收敛前的访问路径为:
[0084] “/zt/gz20170630haibao/index24.html?yituType=35&marketId=20866656&sale sId=202”;
[0085] 收敛后的访问路径:
[0086] “/zt/gz20170630haibao/index24.html?yituType=[0-9]&marketId=[0-9]&salesI d=[0-9]”。
[0087] 以一个具体实例对上述实施例进行进一步说明。在原始访问日志中,每行访问内容都有访问路径URI,不同访问用户访问同一网页时,由于网站服务器为访问用户提供的服务功能中搭配的参数不一样,导致同一网页具有很多分散访问路径,这不利于访问日志数据的统计。因而,命令行工具在加载原始访问数据过程中,读取每一行访问记录中的访问路径,对访问路径中的数字或连续数字进行收敛统计,得到收敛后的收敛访问路径,从而将收敛访问路径确定为一个字段,例如某一行访问记录的访问路径为“/forum.do?fid=250&pageNo=2”,其中收敛后的收敛访问路径为“/forum.do?fid=[0-9]&pageNo=[0-9]”,则结合访问内容的访问时间,可生成存储主键:
[0088] “201904180903_/forum.do?fid=[0-9]&pageNo=[0-9]”、
[0089] “201904180904_/forum.do?fid=[0-9]&pageNo=[0-9]”等多个不同的存储主键。
[0090] 在加载原始访问日志的过程中,从原始访问日志中读入一条访问记录中,当该访问记录的收敛后的收敛访问路径以及访问时间分别为“200”与“/forum.do?fid=[0-9]&pageNo=[0-9]”,则可以认为该访问记录的收敛访问路径以及访问时间与存储主键“201904180903_/forum.do?fid=[0-9]&pageNo=[0-9]”相匹配,存储主键“201904180903_/forum.do?fid=[0-9]&pageNo=[0-9]”对应的访问记录数量增加1,通过对原始访问日志中所有访问记录进行统计,收敛访问路径为“/forum.do?fid=[0-9]&pageNo=[0-9]”且访问时间为“201904180903”的访问记录的数量为96条,则存储主键“201904180903_/forum.do?fid=[0-9]&pageNo=[0-9]”对应的访问记录数量为“96”。
[0091] 在一个实施例中,访问记录中的字段包括终端代理信息字段;将各字段的各字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键的步骤,包括:将各行访问记录中的终端代理信息字段的终端代理信息,与爬虫特征信息库中的不同搜索引擎的爬虫特征信息进行匹配;若在爬虫特征信息库中匹配到与终端代理信息一致的目标爬虫特征信息,则将目标爬虫特征信息对应的搜索引擎确定为访问记录的终端代理信息字段值;根据不同的搜索引擎以及访问时间,生成存储主键。
[0092] 本步骤中,命令行工具预先构建爬虫特征信息库,在爬虫信息特征库中包括有不同搜索引擎的爬虫特征信息;命令行工具在获取到对爬虫标识符的统计命令行后,服务器逐条读取原始访问日志中各行访问记录中的终端代理信息,并将读取到的终端代理信息匹配爬虫特征信息库中不同搜索引擎的爬特征信息,当在爬虫特征信息库中匹配到与用户终端代理信息一致的搜索引擎的爬虫特征信息,则认为访问记录是由搜索引擎发出,并将匹配到的搜索引擎确定为访问记录的终端代理信息字段值,从而将对应的搜索引擎确定为一个字段,在后续处理原始访问数据生成访问记录时,可以将不同的搜索引擎结合访问访问时间生成一个存储主键,进而统计原始访问日志中访问记录中搜索引擎与访问时间均与存储主键匹配的访问记录数据,并保存到访问记录数据库中,为后续的访问日志数据统计提供数据基础,实现统计在不同访问时间下,该访问时段内由不同搜索引擎爬虫生成的访问记录的数据。
[0093] 在大部分实际业务场景中,网站访问请求并不是简单地从访问者的浏览器直达网站服务器的,中间可能经过不同的代理服务器,例如CDN(Content Delivery Network,内容分发网络)、高防服务器等,此时,网站访问请求是经过多层加速或代理转发的,此时在原始访问日志中每行访问内容的请求信息并非真实的访问用户IP地址。因此,在一个实施例中,在加载原始访问日志时,可以读取原始访问日志中的HTTP的请求头部信息中读取X-For-Forwarded信息;若在X-For-Forwarded信息中读取到公网IP地址,则将该公网IP地址确定为原始访问日志的真实访问用户IP地址,否则,将原始访问日志HTTP的请求头部信息中Remote IP的IP地址确定为真实访问用户IP地址,实现自动识别访问用户真实IP地址,将真实访问用户IP地址作为一个字段,在后续处理原始访问数据生成访问记录时,可以统计在不同访问时间下的访问IP数量作为一个存储主键,保存到访问记录中,为后续的访问日志数据统计提供数据基础。
[0094] 在一个实施例中,读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量的步骤之后,还包括:根据不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量,生成统计结果列表;通过命令行界面展示统计结果列表。
[0095] 本实施例中,在获取到不同访问时间下,目标存储主键的特征值为不同值时的访问记录数据的统计结果后,将访问时间作为行键,目标存储主键的访问信息字段值作为列键,生成统计结果列表,并将统计列表通过命令行界面反馈给技术人员。
[0096] 应该理解的是,虽然图3至图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0097] 在一个实施例中,如图5所示,提供了一种访问日志数据的统计装置,包括:统计命令行获取模块510、访问记录库查询模块520和访问记录数量获取模块530,其中:
[0098] 统计命令行获取模块510,用于获取统计命令行,统计命令行包括统计参数;
[0099] 访问记录库查询模块520,用于查询访问记录统计库,从访问记录统计库中确定与统计参数对应的目标存储主键;其中,访问记录统计库包括存储主键以及存储主键对应的访问记录数量,存储主键包括访问信息字段值以及访问时间;
[0100] 访问记录数量获取模块530,用于读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量。
[0101] 在一个实施例中,访问日志数据的统计装置还包括访问记录统计库生成模块,用于获取原始访问日志中各行访问记录中不同字段的字段值以及访问时间;将各字段的字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键;统计在原始访问日志中访问记录的对应字段的字段值以及访问时间,与存储主键中访问信息字段值以及访问时间相匹配的访问记录数量;将访问记录数量作为存储主键的值,生成访问记录统计库。
[0102] 在一个实施例中,访问记录数量获取模块,用于获取预设的数值区间;确定各目标存储主键中的访问信息字段值所落入的数值区间;计算访问时间相同且访问信息字段值落入同一数值区间的目标存储主键对应的访问记录数量的和值,得到在不同访问时间下,访问信息字段值落入不同数值区间时的访问记录数量。
[0103] 在一个实施例中,统计命令行还包括时间粒度参数;访问记录数量获取模块430,用于根据时间粒度参数设置时间区间;确定各目标存储主键中的访问时间所落入的时间区间;计算落入同一时间区间的目标存储主键对应的访问记录数量的和值,得到不同时间区间下,访问信息字段值与统计参数匹配的访问记录数量。
[0104] 在一个实施例中,访问记录中的字段包括原始访问路径字段;访问记录统计库生成模块,用于对各行访问记录中的原始访问路径字段的原始访问路径进行收敛,得到各行访问记录对应的收敛访问路径;根据不同的收敛访问路径以及访问时间,生成存储主键。
[0105] 在一个实施例中,访问记录中的字段包括终端代理信息字段;访问记录统计库生成模块,用于将各字段的各字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键的步骤,包括:将各行访问记录中的终端代理信息字段的终端代理信息,与爬虫特征信息库中的不同搜索引擎的爬虫特征信息进行匹配;若在爬虫特征信息库中匹配到与终端代理信息一致的目标爬虫特征信息,则将目标爬虫特征信息对应的搜索引擎确定为访问记录的终端代理信息字段值;根据不同的搜索引擎以及访问时间,生成存储主键。
[0106] 在一个实施例中,访问日志数据的统计装置还包括统计结果列表生成模块,用于根据不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量,生成统计结果列表;通过命令行界面展示统计结果列表。
[0107] 关于访问日志数据的统计装置的具体限定可以参见上文中对于访问日志数据的统计方法的限定,在此不再赘述。上述访问日志数据的统计装置中的各个模块可全部或部分通过软件硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0108] 本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0109] 在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0110] 获取统计命令行,统计命令行包括统计参数;
[0111] 查询访问记录统计库,从访问记录统计库中确定与统计参数对应的目标存储主键;其中,访问记录统计库包括存储主键以及存储主键对应的访问记录数量,存储主键包括访问信息字段值以及访问时间;
[0112] 读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量。
[0113] 在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取原始访问日志中各行访问记录中不同字段的字段值以及访问时间;将各字段的字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键;统计在原始访问日志中访问记录的对应字段的字段值以及访问时间,与存储主键中访问信息字段值以及访问时间相匹配的访问记录数量;将访问记录数量作为存储主键的值,生成访问记录统计库。
[0114] 在一个实施例中,处理器执行计算机程序实现读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量的步骤时,具体实现以下步骤:获取预设的数值区间;确定各目标存储主键中的访问信息字段值所落入的数值区间;计算访问时间相同且访问信息字段值落入同一数值区间的目标存储主键对应的访问记录数量的和值,得到在不同访问时间下,访问信息字段值落入不同数值区间时的访问记录数量。
[0115] 在一个实施例中,统计命令行还包括时间粒度参数;处理器执行计算机程序实现所述读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量的步骤时,具体实现以下步骤:根据时间粒度参数设置时间区间;确定各目标存储主键中的访问时间所落入的时间区间;计算落入同一时间区间的目标存储主键对应的访问记录数量的和值,得到不同时间区间下,访问信息字段值与统计参数匹配的访问记录数量。
[0116] 在一个实施例中,访问记录中的字段包括原始访问路径字段;处理器执行计算机程序实现将各字段的各字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键的步骤时,具体实现以下步骤:对各行访问记录中的原始访问路径字段的原始访问路径进行收敛,得到各行访问记录对应收敛访问路径;根据不同的收敛访问路径以及访问时间,生成存储主键。
[0117] 在一个实施例中,访问记录中的字段包括终端代理信息字段;处理器执行计算机程序实现将各字段的各字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键的步骤时,具体实现以下步骤:将各行访问记录中的终端代理信息字段的终端代理信息,与爬虫特征信息库中的不同搜索引擎的爬虫特征信息进行匹配;若在爬虫特征信息库中匹配到与终端代理信息一致的目标爬虫特征信息,则将目标爬虫特征信息对应的搜索引擎确定为访问记录的终端代理信息字段值;根据不同的搜索引擎以及访问时间,生成存储主键。
[0118] 在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量,生成统计结果列表;通过命令行界面展示统计结果列表。
[0119] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0120] 获取统计命令行,统计命令行包括统计参数;
[0121] 查询访问记录统计库,从访问记录统计库中确定与统计参数对应的目标存储主键;其中,访问记录统计库包括存储主键以及存储主键对应的访问记录数量,存储主键包括访问信息字段值以及访问时间;
[0122] 读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量。
[0123] 在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始访问日志中各行访问记录中不同字段的字段值以及访问时间;将各字段的字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键;统计在原始访问日志中访问记录的对应字段的字段值以及访问时间,与存储主键中访问信息字段值以及访问时间相匹配的访问记录数量;将访问记录数量作为存储主键的值,生成访问记录统计库。
[0124] 在一个实施例中,计算机程序被处理器执行实现读取目标存储主键中的访问时间,以及目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量的步骤时,具体实现以下步骤:获取预设的数值区间;确定各目标存储主键中的访问信息字段值所落入的数值区间;计算访问时间相同且访问信息字段值落入同一数值区间的目标存储主键对应的访问记录数量的和值,得到在不同访问时间下,访问信息字段值落入不同数值区间时的访问记录数量。
[0125] 在一个实施例中,统计命令行还包括时间粒度参数;计算机程序被处理器执行实现所述读取所述目标存储主键中的访问时间,以及所述目标存储主键对应的访问记录数量,得到不同访问时间下,访问信息字段值与所述统计参数匹配的访问记录数量的步骤时,具体实现以下步骤:根据时间粒度参数设置时间区间;确定各目标存储主键中的访问时间所落入的时间区间;计算落入同一时间区间的目标存储主键对应的访问记录数量的和值,得到不同时间区间下,访问信息字段值与统计参数匹配的访问记录数量。
[0126] 在一个实施例中,访问记录中的字段包括原始访问路径字段;计算机程序被处理器执行实现将各字段的各字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键的步骤时,具体实现以下步骤:对各行访问记录中的原始访问路径字段的原始访问路径进行收敛,得到各行访问记录对应收敛访问路径;根据不同的收敛访问路径以及访问时间,生成存储主键。
[0127] 在一个实施例中,访问记录中的字段包括终端代理信息字段;计算机程序被处理器执行实现将各字段的各字段值确定为访问信息字段值,根据访问信息字段值以及访问时间,生成存储主键的步骤时,具体以下步骤:将各行访问记录中的终端代理信息字段的终端代理信息,与爬虫特征信息库中的不同搜索引擎的爬虫特征信息进行匹配;若在爬虫特征信息库中匹配到与终端代理信息一致的目标爬虫特征信息,则将目标爬虫特征信息对应的搜索引擎确定为访问记录的终端代理信息字段值;根据不同的搜索引擎以及访问时间,生成存储主键。
[0128] 在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据不同访问时间下,访问信息字段值与统计参数匹配的访问记录数量,生成统计结果列表;通过命令行界面展示统计结果列表。
[0129] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0130] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0131] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈