首页 / 专利库 / 人工智能 / 剪枝 / 用于实时套牌车分析的决策树模型建立方法和使用方法

用于实时套牌车分析的决策树模型建立方法和使用方法

阅读:997发布:2020-05-08

专利汇可以提供用于实时套牌车分析的决策树模型建立方法和使用方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种用于实时套牌车分析的 决策树 模型建立方法,应用于套牌车实时分析模型的构建技术领域,S11. 训练数据 集和验证数据集的准备步骤和步骤S12.决策树模型的构建,以及用于实时套牌车分析的决策树模型使用方法中,通过所构建的决策树模型将每个RDD数据集通过车牌号进行聚合,过滤出地点一致的数据,分别计算出相同车牌的每条过车记录的时间差值,连同每条记录的抓拍设备点位信息作为源数据导入决策树模型,获得决策树模型分析结果,其中,所述分析结果包括符合套牌车条件的车牌信息以及其过车记录。应用本发明 实施例 ,通过建立的决策树模型对实时过车数据进行分析,将符合条件的套牌车数据推送报警,实现了对套牌车的实时分析。,下面是用于实时套牌车分析的决策树模型建立方法和使用方法专利的具体信息内容。

1.一种用于实时套牌车分析的决策树模型建立方法,其特征在于,所述方法包括:
S11.训练数据集和验证数据集的准备步骤;
获取历史数据库中出现的套牌车数据,并根据套牌车的出现时间,获取与所述出现时间对应的时间范围内的非套牌车数据,基于所述套牌车数据和所述非套牌车数据获得套牌车与对应真车相关联的第一五维向量数据,其中,针对任意一个车牌号所对应的所述第一五维向量数据包括:车牌号、套牌车出现时间、套牌车出现地点、真车出现时间、真车出现地点;以及,获取历史数据库中出现的真车数据,并根据每一真车出现的时间、地点获取多个真车数据组成的第二五维向量数据,其中,所述第二五维向量数据包括:车牌号、车出现的第一时间、真车出现的第一地点、真车出现的第二时间、真车出现的第二地点;
基于所述第一五维向量数据和所述第二五维向量数据,获得与每一车牌号对应的三维向量数据,其中,所述三维向量数据包括:车牌号、车辆出现的时间差、车辆出现的距离;
将所述三维向量数据作为训练数据集的样本和测试数据集的样本;
S12.决策树模型的构建;
根据训练数据集的三维数据中每一车牌号,将真车和套牌车出现的时间差、真车和套牌车出现的距离分别作为特征,计算其对应的信息增益;
根据每一车牌号所对应的信息增益,构建根节点和叶子节点,以构成初步决策树模型;
根据训练数据集对初步决策树模型进行验证和剪枝,获得决策树模型。
2.根据权利要求1所述的用于实时套牌车分析的决策树模型建立方法,其特征在于,所述基于所述第一五维向量数据和所述第二五维向量数据,获得与每一车牌号对应的三维向量数据的步骤,包括:
基于所述第一五维向量数据,获得针对该车牌号的第一三维数据,其中,所述第一三维数据包括:车牌号、真车和套牌车出现的时间差、真车和套牌车出现的距离;所述第二五维向量数据,获得针对该车牌号的第二三维数据,其中,所述第二三维数据包括:车牌号、真车出现的时间差、真车出现的距离;
将所述第一三维数据和所述第二三维数据组合成三维向量数据。
3.根据权利要求1或2所述的用于实时套牌车分析的决策树模型建立方法,其特征在于,计算信息增益g(X,A)所采用的公式表达为:
g(X,A)=H(X)-H(X|A)
其中,
H(X)是随机变量的熵,H(X|A)是特征A的条件熵,n是特征A的取值个数,pi是第i个样本在集合中的概率分布,车辆出现的时间差、车辆出现的距离;其中,D表示相应特征X的样本集合,Di表示特征Xi里面的K个划分中的一个子划分,也就是说Di表示特征Xi的样本集,Dik表示特征Xi中划分k的样本集。
4.根据权利要求3所述的用于实时套牌车分析的决策树模型建立方法,其特征在于,所述根据每一车牌号所对应的信息增益,构建根节点和叶子节点,以构成初步决策树模型的步骤,包括:
根据每一车牌号所对应的信息增益,选取信息增益最大的特征作为根节点,其余特征作为叶子节点;
获取每一个特征所对应的根节点和叶子节点;
基于所获取的根节点和叶子节点构成初步决策树模型。
5.根据权利要求1-2、4任一项所述的用于实时套牌车分析的决策树模型建立方法,其特征在于,所述根据训练数据集对初步决策树模型进行验证和剪枝,获得决策树模型的步骤,包括:
通过训练数据集对初步决策树模型进行验证;
根据验证结果和预设公式进行剪枝,获得决策树模型。
6.根据权利要求5所述的用于实时套牌车分析的决策树模型建立方法,其特征在于,所述预设公式的具体表达为:
其中,Ap、Aq分别表示特征A的p划分与q划分,S表示检验数据集,Model表示决策树模型,如果剪枝模型与剪枝之前模型的精度对比大于1,则表示剪枝后的划分有效。
7.根据权利要求1所述的用于实时套牌车分析的决策树模型建立方法,其特征在于,所述三维向量数据的具体表达为:
其中Δt=|ti-tj|,i,j∈[1,n]
其中,p表示车牌号,m1、m2分别表示两条样本数据的唯一标识,ti为车牌号p在m1的出现时间、tj车牌号p在m2的出现时间,Δt表示两条样本数据的时间差,Δd表示车牌号p的两个出现时间对应的距离,
其中,EARTH_RADIUS表示地球半径,lat是在ti时间所对应的抓拍设备的经纬度,lng是在tj时间所对应的抓拍设备的经纬度。
8.一种用于实时套牌车分析的决策树模型使用方法,其特征在于,所述方法包括:
选取决策树模型中的时间差特征的最大划分值作为获取实时流数据的时间窗口长度,通过SparkStreamming消费Kafka获取实时流数据,将实时流数据划分为长度为最大划分值的RDD数据集:
将每个RDD数据集通过车牌号进行聚合,过滤出地点一致的数据,分别计算出相同车牌的每条过车记录的时间差值,连同每条记录的抓拍设备点位信息作为源数据导入决策树模型,获得决策树模型分析结果,其中,所述分析结果包括符合套牌车条件的车牌信息以及其过车记录。

说明书全文

用于实时套牌车分析的决策树模型建立方法和使用方法

技术领域

[0001] 本发明涉及车辆套牌分析模型的技术领域,尤其涉及一种用于实时套牌车分析的决策树模型建立方法和使用方法。

背景技术

[0002] 套牌车辆是指参照真实牌照,将号码相同的假车牌套在其他车上,以使不法车辆在表面披上了“合法”的外衣,因此套牌车辆属于非法车辆,在行驶的过程中很难通过交警进行非法车辆的识别,只能依赖于技术手段进行自动分析。
[0003] 当前大多数套牌车分析都是根据相同车牌号的车辆的出现时间、出现地点、车身颜色、号牌颜色、车辆款型等方面进行比对分析,有时甚至还需要依赖于车管所的车辆登记注册信息,而实际过程中,车辆在行驶时,通过每一个点设置的抓拍设备进行车辆的车牌号获取、行驶时间和行驶地点(每一个抓拍设备的地点是固定的,因此,抓拍到车辆的地点在抓拍设备的监控范围内,可以粗略获得对应的经纬度)是能够获取的,而与该车牌号对应的车辆信息(例如车辆品牌、外观参数等)却是无法获得的,因此基于现有的分析的过程中往往受限于比对数据来源,无法进行实时分析;又例如,对套牌车分析所采用的时空点位模型也存在无法排除因设备点位临近而导致车辆掉头误报的问题。上述问题也从侧面增加了实时套牌车分析的难度和降低了套牌车分析的准确度。

发明内容

[0004] 本发明的目的在于克服现有技术缺陷,提供了一种用于实时套牌车分析的决策树模型建立方法和使用方法,旨在通过建立的决策树模型对实时过车数据进行分析,将符合条件的套牌车数据推送报警,实现了对套牌车的实时分析,同时所采用的决策树模型通过对实时数据多重时间、空间比对,实现了对车辆掉头情况的过滤,减少了套牌车因此而产生的误报概率,提高了分析的准确率。
[0005] 本发明是这样实现的:
[0006] 本发明实施例公开了一种用于实时套牌车分析的决策树模型建立方法,所述方法包括:
[0007] S11.训练数据集和验证数据集的准备步骤;
[0008] 获取历史数据库中出现的套牌车数据,并根据套牌车的出现时间,获取与所述出现时间对应的时间范围内的非套牌车数据,基于所述套牌车数据和所述非套牌车数据获得套牌车与对应真车相关联的第一五维向量数据,其中,针对任意一个车牌号所对应的所述第一五维向量数据包括:车牌号、套牌车出现时间、套牌车出现地点、真车出现时间、真车出现地点;以及,获取历史数据库中出现的真车数据,并根据每一真车出现的时间、地点获取多个真车数据组成的第二五维向量数据,其中,所述第二五维向量数据包括:车牌号、车出现的第一时间、真车出现的第一地点、真车出现的第二时间、真车出现的第二地点;
[0009] 基于所述第一五维向量数据和所述第二五维向量数据,获得与每一车牌号对应的三维向量数据,其中,所述三维向量数据包括:车牌号、车辆出现的时间差、车辆出现的距离;
[0010] 将所述三维向量数据作为训练数据集的样本和测试数据集的样本;
[0011] S12.决策树模型的构建;
[0012] 根据训练数据集的三维数据中每一车牌号,将真车和套牌车出现的时间差、真车和套牌车出现的距离分别作为特征,计算其对应的信息增益;
[0013] 根据每一车牌号所对应的信息增益,构建根节点和叶子节点,以构成初步决策树模型;
[0014] 根据训练数据集对初步决策树模型进行验证和剪枝,获得决策树模型。
[0015] 一种实现方式中,所述基于所述第一五维向量数据和所述第二五维向量数据,获得与每一车牌号对应的三维向量数据的步骤,包括:
[0016] 基于所述第一五维向量数据,获得针对该车牌号的第一三维数据,其中,所述第一三维数据包括:车牌号、真车和套牌车出现的时间差、真车和套牌车出现的距离;所述第二五维向量数据,获得针对该车牌号的第二三维数据,其中,所述第二三维数据包括:车牌号、真车出现的时间差、真车出现的距离;
[0017] 将所述第一三维数据和所述第二三维数据组合成三维向量数据。
[0018] 一种实现方式中,计算信息增益g(X,A)所采用的公式表达为:
[0019] g(X,A)=H(X)-H(X|A)
[0020] 其中,
[0021] H(X)是随机变量的熵,H(X|A)是特征A的条件熵,n是特征A的取值个数,pi是第i个样本在集合中的概率分布,车辆出现的时间差、车辆出现的距离;D表示相应特征X的样本集合,Di表示特征Xi里面的K个划分中的一个子划分,也就是说Di表示特征Xi的样本集,Dik表示特征Xi中划分k的样本集。
[0022] 一种实现方式中,所述根据每一车牌号所对应的信息增益,构建根节点和叶子节点,以构成初步决策树模型的步骤,包括:
[0023] 根据每一车牌号所对应的信息增益,选取信息增益最大的特征作为根节点,其余特征作为叶子节点;
[0024] 获取每一个特征所对应的根节点和叶子节点;
[0025] 基于所获取的根节点和叶子节点构成初步决策树模型。
[0026] 一种实现方式中,所述根据训练数据集对初步决策树模型进行验证和剪枝,获得决策树模型的步骤,包括:
[0027] 通过训练数据集对初步决策树模型进行验证;
[0028] 根据验证结果和预设公式进行剪枝,获得决策树模型。
[0029] 一种实现方式中,所述预设公式的具体表达为:
[0030]
[0031] 其中,Ap、Aq分别表示特征A的p划分与q划分,S表示检验数据集,Model表示决策树模型,如果剪枝模型与剪枝之前模型的精度对比大于1,则表示剪枝后的划分有效。
[0032] 一种实现方式中,所述三维向量数据的具体表达为:
[0033]
[0034] 其中,p表示车牌号,m1、m2分别表示两条样本数据的唯一标识,ti为车牌号p在m1的出现时间、tj车牌号p在m2的出现时间,Δt表示两条样本数据的时间差,Δd表示车牌号p的两个出现时间对应的距离,
[0035]
[0036] 其中,EARTH_RADIUS表示地球半径,lat是在ti时间所对应的抓拍设备的经纬度,lng是在tj时间所对应的抓拍设备的经纬度。
[0037] 此外,本发明还公开了一种用于实时套牌车分析的决策树模型使用方法,所述方法包括:
[0038] 选取决策树模型中的时间差特征的最大划分值作为获取实时流数据的时间窗口长度,通过SparkStreamming消费Kafka获取实时流数据,将实时流数据划分为长度为最大划分值的RDD数据集:
[0039] 将每个RDD数据集通过车牌号进行聚合,过滤出地点一致的数据,分别计算出相同车牌的每条过车记录的时间差值,连同每条记录的抓拍设备点位信息作为源数据导入决策树模型,获得决策树模型分析结果,其中,所述分析结果包括符合套牌车条件的车牌信息以及其过车记录。
[0040] 应用本发明的一种用于实时套牌车分析的决策树模型建立方法和使用方法,决策树模型使用中,首先选取时间差特征的最大划分值作为获取实时流数据的时间窗口长度,通过消费实时获取的流数据,将实时流数据划分为长度为最大划分值的RDD数据集:将每个RDD数据集通过车牌号进行过滤出地点一致的数据,分别计算出相同车牌的每条过车记录的时间差值,连同每条记录的抓拍设备点位信息作为源数据导入决策树模型,获得样本对应的地点和任意两个时间的车牌号所对应的距离,并基于时间和距离进行分析。本发明实施例中,由于构建的决策树模型时使用了包含车辆掉头情况的训练数据作为非套牌车数据,故而将在分析的过程中减少因车辆调头误报为套牌车的情况,提高了分析的准确率。附图说明
[0041] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0042] 图1为本发明实施例提供的用于实时套牌车分析的决策树模型建立方法的一种流程示意图;
[0043] 图2为本发明实施例提供的用于实时套牌车分析的决策树模型使用方法的一种应用流程示意图;
[0044] 图3为本发明实施例提供的用于实时套牌车分析的决策树模型使用方法的另一种应用示意图。

具体实施方式

[0045] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0046] 参见图1,本发明实施例提供本发明实施例提供的一种用于实时套牌车分析的决策树模型建立方法,所述方法包括:
[0047] S11.训练数据集和验证数据集的准备步骤。
[0048] 可以理解的是,训练数据集和验证数据集是通过对历史数据进行整合后获得的样本,具体实现步骤包括:首先获取历史数据库中出现的套牌车数据,并根据套牌车的出现时间,获取与所述出现时间对应的时间范围内的非套牌车数据,基于所述套牌车数据和所述非套牌车数据获得套牌车与对应真车相关联的第一五维向量数据,其中,针对任意一个车牌号所对应的所述第一五维向量数据包括:车牌号、套牌车出现时间、套牌车出现地点、真车出现时间、真车出现地点;以及,获取历史数据库中出现的真车数据,并根据每一真车出现的时间、地点获取多个真车数据组成的第二五维向量数据,其中,所述第二五维向量数据包括:车牌号、车出现的第一时间、真车出现的第一地点、真车出现的第二时间、真车出现的第二地点。
[0049] 具体实现中,可以随机选取套牌车历史数据作为套牌车数据,同时选择相同时间范围(例如,在获得套牌车的时间是t1时刻,那么设置一个时间范围,例如时间范围为:t1-t2,t1+t3)的真实车牌数据作为非套牌车数据。
[0050] 需要说明的是,抓拍设备的位置是固定的,例如设置抓拍设备的编号,每一个编号的抓拍设备对应一个经纬度,则其监视的范围也是固定的邻近区域,在这个区域出现的车辆经纬度可以近似用该设备的经纬度代替,因此,根据每一个套牌车对应的抓拍设备,能够获得套牌车的出现时间和出现地点。因此,根据每一个套牌车对应的抓拍设备,能够获得套牌车的出现时间和出现地点。而对于套牌车来说,如果在规定的时间范围内获得了真车的历史数据,那么对应的,也可以获得真车的出现时间和出现地点,所以针对该车牌号能够构成一个包含车牌号、套牌车的出现时间、套牌车的出现地点、真车的出现时间和真车的出现地点,由这5个数据所构成的五维向量。
[0051] 依据上述车辆出现的时间和地点的获取方式,对于历史的真车来说,其也会在一个时间范围内出现在不同的地点,因此,能够获得在两个不同时刻该真车对应的出现地点,因此,将该真车车牌号、每一次出现的时间(两次)、每一次的出现地点(与两次出现时间对应的两次地点),获得这五个数据组成的五维向量。
[0052] 基于所述第一五维向量数据和所述第二五维向量数据,获得与每一车牌号对应的三维向量数据,其中,所述三维向量数据包括:车牌号、车辆出现的时间差、车辆出现的距离。
[0053] 具体步骤包括:基于所述第一五维向量数据,获得针对该车牌号的第一三维数据,其中,所述第一三维数据包括:车牌号、真车和套牌车出现的时间差、真车和套牌车出现的距离;所述第二五维向量数据,获得针对该车牌号的第二三维数据,其中,所述第二三维数据包括:车牌号、真车出现的时间差、真车出现的距离;将所述第一三维数据和所述第二三维数据组合成三维向量数据。
[0054] 需要说明的是,针对第一五维向量数据或者第二五维向量数据中的任意一个五维向量来说,将两次出现的时间相减,获得两次出现的时间差;对应的将两次出现的地点进行求距离,可以获得车辆在两次出现时间所对应的距离。这样可以获得在一个时间差内,车辆所出现两个地址的距离。可以理解的是,如果在时间差为很短范围,两辆车的距离较远,根据车辆的行驶速度(形式速度是具有一定范围的),将速度与时间的乘积可以获得车辆的行驶距离,如果形式距离与车辆所出现两个地址的距离相差较大,则表示是两辆车(那么其中一辆车则是套牌车),所以将这种车辆出现的规律和特性参数作为训练数据,是决策树学习的训练样本。同样,针对真车,其对应的车辆所出现两个地址的距离和出现的时间差之间的关系是符合正常车辆的形式速度所能够达到的时间和位移的关系,因此,通过大量的样本学习,决策树能够学习到真车的形式特性和套牌车的形式特性。
[0055] 示例性的,三维向量数据组成训练数据集H,针对任意一个样本的表达为:
[0056]
[0057] 其中,p表示车牌,m1、m2分别表示两条原始数据的唯一标识,ti,与tj表示车辆出现的时间,Δt表示两车出现的时间差(单位是秒),Δd表示两车辆两次出现所对应的空间距离差值(单位是米)。
[0058]
[0059] 其中,EARTH_RADIUS表示地球半径,6371千米,lat和lng抓拍设备的表示经纬度(或者是两次车辆对应的经纬度)。
[0060] 将所述三维向量数据作为训练数据集的样本和测试数据集的样本。
[0061] S12.决策树模型的构建。
[0062] 根据训练数据集的三维数据中每一车牌号,将真车和套牌车出现的时间差、真车和套牌车出现的距离分别作为特征,计算其对应的信息增益。
[0063] 根据套牌车的分析与原理,对每个训练数据集H中的三维向量数据提取出时间差与距离作为目标特征,采用决策树C.45算法构建决策树:
[0064] 历史数据在训练集合中的概率分布:
[0065] P(X=xi)=pi,i=1,2,···,n
[0066] 其中,p表示样本X为xi时,在集合中的概率分布情况。
[0067] 首先,计算随机变量的熵H(X),
[0068]
[0069] X是特征(时间差或者距离差),Xi是第i个样本,i是第一个样本,其中也可以表示任意一一个样本t。
[0070] 计算划分后特征A的条件熵:
[0071] 其中n是特征A的取值个数;
[0072]
[0073] 其中,D表示相应特征X的样本集合,Di表示特征Xi里面的K个划分中的一个子划分,也就是说Di表示特征Xi的样本集,Dik表示特征Xi中划分k的样本集;
[0074] 求取特征A的信息增益为:
[0075] g(X,A)=H(X)-H(X|A)
[0076] 还可以计算特征A的信息增益率为:
[0077]
[0078] 针对一个特征,则可以根据上述计算选取信息增益最大的特征作为根节点,其余特征作为叶子节点。
[0079] 针对每一个特征,重复上述计算过程能够获得所有特征对应的根节点和叶子节点,并加入决策树模型。
[0080] 决策树模型剪枝,通过预留的历史套牌车训练数据集合进行验证,根据验证的情况对模型进行剪枝,重新定义划分。
[0081]
[0082] Ap、Aq分别表示特征A的p划分与q划分,S表示检验数据集,Model表示决策树模型,如果剪枝模型与剪枝之前模型的精度对比大于1,则表示剪枝后的划分有效。
[0083] 需要说明的是,C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化。C4.5算法训练的结果是一个分类模型,这个分类模型可以理解为一个决策树,分裂属性就是一个树节点,分类结果是树的结点。每个节点都有左子树和右子树,结点无左右子树。
[0084] 此外,本发明还公开了一种用于实时套牌车分析的决策树模型使用方法,所述方法包括:
[0085] 选取决策树模型中的时间差特征的最大划分值作为获取实时流数据的时间窗口长度,通过SparkStreamming消费Kafka获取实时流数据,将实时流数据划分为长度为最大划分值的RDD数据集:
[0086] 将每个RDD数据集通过车牌号进行聚合,过滤出地点一致的数据,分别计算出相同车牌的每条过车记录的时间差值,连同每条记录的抓拍设备点位信息作为源数据导入决策树模型,获得决策树模型分析结果,其中,所述分析结果包括符合套牌车条件的车牌信息以及其过车记录。
[0087] 如图2所示,决策树模型训练完成以后,在实际的样本分析过程中,首先是判断是否为相同车牌号,如果是进入时间间隔分析,如果否,则结束;在时间间隔中可以划分为多个时间段,例如在90s的划分为例,划分为0-30、30-60、60-90、90-+∞;在0-30的时间段内,在去判断车辆的距离,将距离8km又划分为0-2k、2k-4k、4k-8k、8k-+∞,因此,根据任意一个样本所对应的时间差值和距离均可以按照这种方式进行划分,最终得到定的判断结果。例如,车牌号皖AXXXXX,具有相同的车牌号,且时间间隔为55s,距离为1.5km,那么对应的是在时间间隔为60-90,距离是0-2k,对应的分析结果为yes,表示为套牌车。
[0088] 如图3所示,预剪枝后的模型,其中叶子节点yes表示是套牌车,no表示不是套牌车,剪枝后的模型减少了特征划分节点,提高了效率。
[0089] 具体实现方式中,通过SparkStreamming,根据模型对实时过车数据进行分析。选取决策树模型中的时间差特征的最大划分值T秒作为获取实时流数据的时间窗口长度,通过SparkStreamming消费Kafka获取实时流数据,将实时流数据划分为长度为T秒的RDD数据集:将每个RDD数据集(时序的)通过车牌号进行聚合,过滤出地点一致的数据,分别计算出相同车牌的每条过车记录的时间差值,连同每条记录的抓拍设备点位信息作为源数据导入模型进行分析,将分析后符合套牌车条件的车牌信息以及其过车记录批量推出Kafka,同时持久化进入数据库中。由于在构建决策树模型时使用了包含车辆掉头情况的训练数据作为非套牌车数据,故而将在分析的过程中减少因车辆调头误报为套牌车的情况,提高了分析的准确率。还可以应用平台消费Kafka中的套牌车告警数据展示给用户,用于用户筛选。
[0090] 需要说明的是,Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
[0091] Spark Streamming是基于spark流式处理引擎,基本原理是将实时输入的数据以时间片(秒级)为单位进行拆分,然后经过spark引擎以类似批处理的方式处理每个时间片数据。
[0092] ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。
[0093] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈