首页 / 专利库 / 人工智能 / 对话代理 / 聊天机器人 / 一种大数据智能采集处理方法和系统

一种大数据智能采集处理方法和系统

阅读:240发布:2020-05-14

专利汇可以提供一种大数据智能采集处理方法和系统专利检索,专利查询,专利分析的服务。并且大数据 智能采集处理方法,包括以下步骤:S1.设置第一 数据库 和第二数据库;S2.设置网络智能 机器人 ,获得采集数据;S3.将采集数据逐条同第一数据库中数据进行对比,将数据A存入第一数据库;否则将数据A存入第二数据库;S4.将数据A存入所述第二数据库时,进行相似度γ计算;S41.当相似度γ大于 阈值 β时,则将数据A,替换相似度γ最高的一条数据;S42.否则将数据A直接存入第二数据库;S5.超过时间阈值δ时,将第二数据库中的数据存入第一数据库,同时清除第二数据库中数据;S6.将第二数据库中的数据分别同第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。,下面是一种大数据智能采集处理方法和系统专利的具体信息内容。

1.一种大数据智能采集处理方法,其特征在于包括以下步骤:
S1.设置第一数据库和第二数据库;
S2.设置一个或多个网络智能机器人,实时智能抓取公开信息,获得采集数据;
S3.将所述采集数据逐条同所述第一数据库中数据进行对比,当所述采集数据中数据A,同所述第一数据库中数据相似度γ均小于阈值α时,则将所述采集数据中数据A存入所述第一数据库;否则将所述采集数据中数据A存入所述第二数据库;
S4. 将所述采集数据中数据A存入所述第二数据库时,将所述采集数据中数据A同所述第二数据库中数据进行相似度γ计算;
S41.当所述采集数据中数据A同所述第二数据库中某一条或多条数据相似度γ大于阈值β时,则将所述采集数据中数据A,替换所述第二数据库中同所述采集数据中数据A相似度γ最高的一条数据;
S42.否则将所述采集数据中数据A直接存入所述第二数据库;
S5.超过时间阈值δ时,将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据;
S6.将所述第二数据库中的数据存入所述第一数据库时,将所述第二数据库中的数据分别同所述第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。
2.根据权利要求1所述的大数据智能采集处理方法,其特征在于所述采集数据,至少包括发布人、发布内容、发布类型三个数据标签。
3.根据权利要求1所述的大数据智能采集处理方法,其特征在于,进行数据检索时,只检索所述第一数据库中数据,而对于所述第一数据库中所述同一类数据只显示所述同一类数据中最后添加的一条数据。
4.根据权利要求2所述的大数据智能采集处理方法,其特征在于所述相似度γ的计算方法为:γ=∑ρi*σi ,(i=1..n)
n为数据标签的个数;
ρi为第i个数据标签的权重值;
σi为两条数据第i个数据标签的标签相似度。
5.根据权利要求1所述的大数据智能采集处理方法,其特征在于:
如果所述第一数据库中有被标注为同一类数据的数据Φ={ψ1…ψn},n≥2;
ψn+1同Φ中任何一条数据或多条数据,被标注为同一类数据,则同一类数据的数据Φ={ψ1…ψn+1}。
6.根据权利要求1所述的大数据智能采集处理方法,其特征在于: 所述实时智能抓取公开信息的抓取数据源包括网站、即时聊天工具的公开信息。
7.根据权利要求1所述的大数据智能采集处理方法,其特征在于: 所述实时智能抓取公开信息时,通过关键词或算法,对原始数据进行智能提取分类,获得具有多个数据标签的所述采集数据。
8.一种大数据智能采集处理系统,其特征在于包括:
数据采集,用于实时智能抓取公开信息,获得采集数据;
第一数据库,用于最终储存数据,并对外提供检索查询数据;
第二数据库,用于临时储存数据;
数据处理模块,用于判断和操作所述采集数据存入所述第一数据库或所述第二数据库;
数据同步模块,用于定期将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据。

说明书全文

一种大数据智能采集处理方法和系统

技术领域

[0001] 本发明涉及信息技术领域,特别是涉及一种大数据智能采集处理方法和系统。

背景技术

[0002] 随着大数据时代的到来,人们对数据的需求越来越旺盛。由于数据源在实际生活中千奇百怪,因此不经多重处理就进入数据库的数据很可能让数据的整体可靠性和有效性会大大降低,用这样的数据在进行后续的数据使用,其使用效率是很低的。为了获得更有效的文本数据,特别是适用于供应、需求、销售、交易、电商的数据处理,用户需要提取最及时有用的含有信息量大的数据,同时在适当时候,更新信息量相对较小的数据。
[0003] 数据清洗方法及装置201010578479.9,获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;对所述样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。

发明内容

[0004] 本发明的目的是提供一种大数据智能采集处理方法和系统。通过该方法可以有效的及时对采集数据进行处理,提取最及时有用的含有信息量大的数据,同时保留信息量相对较小的数据,方便用户高效的使用数据。
[0005] 一种大数据智能采集处理方法,包括以下步骤:S1.设置第一数据库和第二数据库;
S2.设置一个或多个网络智能机器人,实时智能抓取公开信息,获得采集数据;
S3.将所述采集数据逐条同所述第一数据库中数据进行对比,当所述采集数据中数据A,同所述第一数据库中数据相似度γ均小于阈值α时,则将所述采集数据中数据A存入所述第一数据库;否则将所述采集数据中数据A存入所述第二数据库;
S4. 将所述采集数据中数据A存入所述第二数据库时,将所述采集数据中数据A同所述第二数据库中数据进行相似度γ计算;
S41.当所述采集数据中数据A同所述第二数据库中某一条或多条数据相似度γ大于阈值β时,则将所述采集数据中数据A,替换所述第二数据库中同所述采集数据中数据A相似度γ最高的一条数据;
S42.否则将所述采集数据中数据A直接存入所述第二数据库;
S5.超过时间阈值δ时,将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据;
S6.将所述第二数据库中的数据存入所述第一数据库时,将所述第二数据库中的数据分别同所述第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。
[0006] 作为优化,大数据智能采集处理方法采集的数据,至少包括发布内容一个数据标签。实际应用时采集到的数据至少含有发布人、发布内容、发布类型三个数据标签。
[0007] 作为优化,大数据智能采集处理方法,进行数据检索时,只检索所述第一数据库中数据,而对于所述第一数据库中所述同一类数据只显示所述同一类数据中最后添加的一条数据。
[0008] 作为优化,大数据智能采集处理方法,相似度γ的计算方法为:γ=∑ρi*σi ,(i=1..n)
n为数据标签的个数;
ρi为第i个数据标签的权重值;
σi为两条数据第i个数据标签的标签相似度。
[0009] 标签相似度可以采用但不限于余弦相似性算法,简单共有词算法,编辑距离算法、Jaccard距离算法等算法计算。
[0010] 作为优化,大数据智能采集处理方法,如果所述第一数据库中有被标注为同一类数据的数据Φ={ψ1…ψn},n≥2;ψn+1同Φ中任何一条数据或多条数据,被标注为同一类数据,则同一类数据的数据Φ={ψ1…ψn+1}。
[0011] 作为优化,大数据智能采集处理方法,所述实时智能抓取公开信息的抓取数据源包括网站、即时聊天工具的公开信息。
[0012] 作为优化,大数据智能采集处理方法,实时智能抓取公开信息时,通过关键词或算法,对原始数据进行智能提取分类,获得具有多个数据标签的所述采集数据。
[0013] 一种大数据智能采集处理系统,包括:数据采集,用于实时智能抓取公开信息,获得采集数据;
第一数据库,用于最终储存数据,并对外提供检索查询数据;
第二数据库,用于临时储存数据;
数据处理模块,用于判断和操作所述采集数据存入所述第一数据库或所述第二数据库;
数据同步模块,用于定期将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据。
[0014] 本发明大数据智能采集处理方法和系统,采集到的海量数据中包括最新的含有高信息量数据,同时具有大量接近于重复的低信息量数据;通过本发明的方法,可以及时提取含有高信息量数据,同时保留低信息量数据的数据,通过数据的错位更新,方便用户在数据查看时及时的查看到需要的有用信息,提高使用效率,适用于供应、需求、交易、电商等大数据信息服务平台。附图说明
[0015] 下面结合附图和具体实施方式来详细说明本发明;图1为本发明实施例1涉及的流程示意图;
图2为本发明实施例2涉及的结构示意图;
图3为本发明实施例3涉及的采集处理示意图。

具体实施方式

[0016] 下面给出的实施例拟对本发明作进一步说明,但不能理解为是对本发明保护范围的限制,本领域技术人员根据本发明内容对本发明的一些非本质的改进和调整,仍属于本发明的保护范围。
[0017] 实施例1:如图1所示,大数据智能采集处理方法,包括以下步骤:S1.设置第一数据库和第二数据库;
S2.设置一个或多个网络智能机器人,实时智能抓取网站、即时聊天工具的公开信息,获得采集数据,采集到的数据至少含有发布人、发布内容、发布类型三个数据标签;
S3.将采集数据逐条同第一数据库中数据进行对比,当采集数据中的某一条数据A,同第一数据库中数据相似度γ均小于阈值α时,则将采集数据中某一条数据A存入第一数据库;否则将采集数据中某一条数据A存入第二数据库;
S4. 将采集数据中某一条数据A存入所述第二数据库时,将采集数据中某一条数据A同第二数据库中数据进行相似度γ计算;
S41.当采集数据中某一条数据A同第二数据库中某一条或多条数据相似度γ大于阈值β时,则将采集数据中某一条数据A,替换第二数据库中同采集数据中某一条数据A相似度γ最高的一条数据;
S42.否则将采集数据中某一条数据A直接存入第二数据库;
S5.设定一个时间阈值δ,超过时间阈值δ时,将第二数据库中的数据存入第一数据库,同时清除第二数据库中数据;
S6.将第二数据库中的数据存入第一数据库时,将第二数据库中的数据分别同第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。
[0018] S7.进行数据检索时,只检索所述第一数据库中数据,而对于所述第一数据库中所述同一类数据只显示所述同一类数据中最后添加的一条数据。
[0019] 相似度γ的计算方法为:γ=∑ρi*σi ,(i=1..n)n为数据标签的个数;
ρi为第i个数据标签的权重值;
σi为两条数据第i个数据标签的标签相似度。
[0020] 标签相似度可以采用但不限于余弦相似性算法,简单共有词算法,Jaccard距离算法、编辑距离算法等算法计算。
[0021] 第一数据库中有被标注为同一类数据的数据Φ={ψ1…ψn},n≥2;ψn+1同Φ中任何一条数据或多条数据,被标注为同一类数据,则同一类数据的数据Φ={ψ1…ψn+1}。
[0022] 实施例2:如图2所示,大数据智能采集处理系统,包括:数据采集模块,用于实时智能抓取网站、即时聊天工具的公开信息,获得采集数据;
第一数据库,用于最终储存数据,并对外提供检索查询数据;
第二数据库,用于临时储存数据;
数据处理模块,用于判断和操作所述采集数据存入第一数据库或第二数据库;
数据同步模块,用于定期将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据。
[0023] 实施例3:大数据智能采集处理方法,包括以下步骤:S1.设置第一数据库和第二数据库;
S2.设置多个网络智能机器人,例如QQ网络智能机器人;实时智能采集即时聊天工具的公开信息,例如QQ群,获得采集数据,采集到的数据含有发布人、发布内容、发布类型三个数据标签;
S3.将采集数据逐条同第一数据库中数据进行对比,当采集数据中的某一条数据A,同第一数据库中数据相似度γ均小于阈值α=0.85时,则将采集数据中某一条数据A存入第一数据库;否则将采集数据中某一条数据A存入第二数据库;
S4. 将采集数据中某一条数据A存入所述第二数据库时,将采集数据中某一条数据A同第二数据库中数据进行相似度γ计算;
S41.当采集数据中某一条数据A同第二数据库中某一条或多条数据相似度γ大于阈值β=0.85时,则将采集数据中某一条数据A,替换第二数据库中同采集数据中某一条数据A相似度γ最高的一条数据;
S42.否则将采集数据中某一条数据A直接存入第二数据库;
S5.设定每日凌晨时,将第二数据库中的数据存入第一数据库,同时清除第二数据库中数据;
S6.将第二数据库中的数据存入第一数据库时,将第二数据库中的数据分别同第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。
[0024] S7.进行数据检索时,只检索所述第一数据库中数据,而对于第一数据库中同一类数据只显示同一类数据中最后添加的一条数据。
[0025] 相似度γ的计算方法为:γ=∑ρi*σi ,(i=1、2、3)1发布人、2发布内容、3发布类型
ρ1=0.10、ρ2=0.65、ρ3=0.25、
ρi为第i个数据标签的权重值;
σi为两条数据第i个数据标签的标签相似度,采用编辑距离算法计算。
[0026] 当第二数据库为空,当日采集的数据如图3所示,采集处理后第二日凌晨前的第一数据库数据,第二日凌晨后的第一数据库数据如图3所示。
[0027] 以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈