首页 / 专利库 / 保护装置和系统 / 安全完整性等级 / 一种基于互联网大数据的服务提供方法

一种基于互联网大数据的服务提供方法

阅读:746发布:2020-05-14

专利汇可以提供一种基于互联网大数据的服务提供方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于互联网 大数据 的服务提供方法,包括互联网数据标准化定义、互联网 数据采集 、互联网数据预处理、互联网数据安全处理和互联网数据服务提供。根据国标或行标建立起数据元的标准规范,依标建模,根据数据元的标准,创建业务逻辑模型;模型落地,引用业务逻辑模型,对模型进行实例化;标准服务,通过定义数据服务协议标准,对外提供统一的 接口 服务。本发明互联网大数据的服务提供,涵盖从数据采集、标准化、 数据处理 、数据服务、运行期监控等全生命周期的管理活动,基于 数据治理 的能 力 ,提供高 质量 的数据,进一步提供专业化的数据资产服务,为数据资产管理和增值提供全面支持,提供稳定可靠的数据服务,满足实际应用的需要。,下面是一种基于互联网大数据的服务提供方法专利的具体信息内容。

1.一种基于互联网大数据的服务提供方法,其特征在于,包括以下步骤:
步骤一:互联网数据标准化,包含数据元标准管理、数据模型管理和数据服务等级协议管理;数据元标准管理,对互联网数据标准化定义是根据国标或行标建立起数据元的标准规范;数据模型管理:依据数据元标准规范建业务逻辑标准模型,引用业务逻辑标准模型,进行实例化;数据服务等级协议是通过定义数据服务协议标准,对外提供统一的接口服务;
步骤二:互联网数据采集,根据项目和客户专题需求,明确互联网数据采集目标,抓取各大媒体、网站、微博、微信或论坛上的网页与相关的链接,设置数据采集的周期,对结构化数据创建数据模型,并与采集点进行关联,采集系统对配置的互联网采集点进行数据采集;
步骤三:互联网数据预处理,通过步骤二对互联网采集的数据需要经过多重预处理,然后加载到数据存储层,并为各种业务应用服务,完成数据在组件间及层次间中转、缓冲、转换及调度;数据预处理工作包括异构多源数据汇聚规整,汇聚各个通道采集器采集结果数据,通过数据总线订阅采集结果,为采集器指定数据回传的文件格式,按各通道数据存储标准对各通道采集抽取后的信息进行必要的规整;垃圾过滤是将数据垃圾分为两个级别,页面级和页面内容级,根据统一指定的垃圾过滤规则,使用网页去噪技术,将开源数据垃圾剔除掉;数据去重是通过相关唯一数据标识,通过全局键-值对存储服务进行数据去重;文本字段分词是对标题、摘要和内容的文本字段的分词处理,并保留分词结果字段;实体/关键词抽取是针对垃圾过滤后的数据,从信息标题和内容中提取重要属性元素,包括涉及的人物、组织机构、地点、关键词向量和信息摘要;数据信息分类打标签是针对经垃圾过滤后的数据,根据信息内容和业务分类打标签;实时监控是通过配置监测规则维护监测规则的状态内容对业务系统下发的任务进行实时监测与推送;
步骤四:互联网数据安全处理是对数据进行分类分级、加密和访问控制的处理,使数据脱敏后为其他应用提供服务,分类分级是对数据进行不同类别和密级的划分,根据类别和密级制定不同管理和使用原则,对数据做到有差别和针对性的防护;数据加密包括数据存储加密、加密传输和数据脱敏,实现再存储和传输阶段的数据安全管控;同时还提供身份认证、访问控制、分级授权和安全审计功能,对受控的访问数据和追溯访问轨迹,做到访问中监控,访问后留痕;
步骤五:互联网数据服务提供,服务调用通过OAuth进行管理,向资源所有者请求授权,资源所有者返回凭证,客户端通过授权服务器进行身份验证,并提供授权凭证,请求访问令牌,授权服务器对客户端进行身份验证,客户端向资源服务器请求保护的资源,资源服务器验证访问令牌,返回后保护的资源;配置监控服务时,设定监控服务的当前服务等级,根据设定的当前服务等级,启动监控服务;按照预定的时间间隔周期性地采集与当前服务等级相关联的指标;当采集到与当前服务等级相关联的指标时,计算当前服务等级的服务指数;
判断当前服务等级的服务指数是否大于预定的第一综合阈值;若当前服务等级的服务指数大于预定的第一综合阈值,提高监控服务的当前服务等级,然后执行按照预定的时间间隔周期性地采集与当前服务等级相关联的指标的步骤。
2.根据权利要求1所述的基于互联网大数据的服务提供方法,其特征在于,步骤五中互联网数据服务提供的数据服务有以下分类:
(1)数据订阅/发布服务:将所有类型的主数据注册到企业数据总线平台上,各目标系统提供接收各类主数据的接口,到企业数据总线平台自主订阅相应的主数据,所有目标系统通过企业数据总线平台订阅规范完成数据的订阅服务;
(2)数据调用API服务:指定数据类型,通过关键字查询数据详细信息;基于接口层面的点对点的方式的查询服务;
(3)数据资源服务:通过相关工具将源系统的数据抽取到大数据平台,经过整合、清洗和归并后形成各种主题数据,对外提供不同的数据服务,将源系统大数据集中在数据资源中心,通过大数据技术工具,提供各类数据自助式服务;
(4)数据即时服务:基于搜索服务器,面向所有业务系统提供快速查询检索的服务;将不同类型的全量主数据同步到搜索服务器的存储中,然后业务通过搜索服务器提供的API接口进行查询,解决了大数据量查询时,查询效率比较低的问题,提供了数据的及时服务。
3.根据权利要求1所述的基于互联网大数据的服务提供方法,其特征在于,步骤四中,互联网数据安全处理过程还包括色授权:在数据分级和分类后,了解数据在被谁访问,这些访问者如何使用和访问数据,针对不同角色制定不同安全政策。
4.根据权利要求1所述的基于互联网大数据的服务提供方法,其特征在于,步骤四中,互联网数据安全处理过程还包括场景化安全:针对不同角色在不同场景下,研究数据使用需求;满足数据被正常使用的目标下,完成相应安全要求和安全工具选择。
5.根据权利要求1所述的基于互联网大数据的服务提供方法,其特征在于,还包括数据运行期监控监控,监控过程中需要从技术、业务和管理三个方面分析要监控的目标,监控的数据,并且明确数据背后的含义以及如何进行预警;整合数据标准执行合规和互联网数据处理的完整性情况,数据服务运行情况监控三个维度进行实施运维监控,通过监控各个环节的基础数据和服务,对存在的险发出预报与警示,第一时间通知到所有人,通过调用链关系快速定位出了问题的环节。
6.根据权利要求5所述的基于互联网大数据的服务提供方法,其特征在于,步骤一中标准数据元管理:数据监控时,在数据标准执行合规情况方面,应实时关注数据元、数据物理模型和数据模型参考完整性对象的更新情况,对变更后的情况与数据元标准和数据逻辑模型进行比对,并将对比报告通过EMAIL通知到相关人员,驱动后续的数据元变更流程;数据监控时,在互数据处理的完整情况,一方面,应实时监控互联网数据源的更新情况,通过设定采集频率,及时得将数据采集到本地;另一方面,应在数据抽取和数据入库量进行数据的对账分析比对,在数据进行预处理的调度过程冲,每个环节的任务执行情况都按照数据守恒原理进行数据量的统计监控;数据监控时,对数据服务运行情况监控,包括服务调用链关系展示和服务工作状态监测,采用微服务方式进行数据服务提供,运行在容器化服务平台上,采用jaeger来实现调用服务链的追踪和grafana实现工作状态的监控展现,并通过设置数据服务的等级,对不满足服务等级协议的接口服务进行预告警。
7.根据权利要求1所述的基于互联网大数据的服务提供方法,其特征在于,步骤一中所述的标准数据元管理:标准数据元是元数据管理的重要输入,标准数据元管理将数据标准定义映射到元数据信息上;标准数据元是数据质量检测规则的制定依据,数据标准也为数据采集、加工、存储、应用和安全管理提供依据,通过标准化的方式对数据元的属性进行定义。
8.根据权利要求1所述的基于互联网大数据的服务提供方法,其特征在于,步骤一中所述的数据模型管理:创建逻辑数据模型,引用数据元标准中的字段,通过设定字段是否为空、是否为主键和是否是分区字段的方式对数据架构进行定义,形成了全局统一的数据字段描述;创建物理模型,引用逻辑数据模型,设置外键、调整主键、调整分区字段和调整是否为空的属性,自动在目标数据库建物理模型;通过数据模型使用稽核,进行一致性检查,发现差异时,不直接修改数据元标准中的数据,系统给出各类元数据的差异报告,结合数据元标准的变更流程,利用数据源标准工具进行数据元更新,实现数据模型的闭环管理。
9.根据权利要求1所述的基于互联网大数据的服务提供方法,其特征在于,步骤一中所述的数据服务协议:是服务提供方和客户之间就服务提供中关键的服务目标及双方的责任的有关细节问题而签订的协议,定义以下3个工作步骤:
(1)确定服务目录,梳理服务内容;
(2)确定服务级别协议,确定是所提供的服务的范围和质量,明确IT服务商与客户的职责与服务内容;
(3)组织服务团队,根据服务级别和成本配置相关资源,组建服务团队,按照SLA的要求,采用多种技术和解决方案去监控和管理网络性能及流量,以满足 SLA 中的相关需求,并产生对应的客户结果报告。
10.根据权利要求1所述的基于互联网大数据的服务提供方法,其特征在于,还包括互联网数据存储,互联网数据包括结构化数据、半结构化数据和非结构化数据,其中,结构化数据管包括全系统的配置类数据和分析结果数据;半结构化数据包括网页数据和图结构数据;非结构化数据管理模管理多媒体数据和附件数据;同时,进行数据生命周期管理,根据数据对企业的价值进行分类分级,形成数据资产目录,然后制定相应的策略,确定最优服务平和最低成本,将数据转移到相应的存储介质上,争取以最低的成本提供适当级别的保护、复制和恢复。

说明书全文

一种基于互联网大数据的服务提供方法

技术领域

[0001] 本发明属于数据服务治理技术领域,具体涉及一种基于互联网大数据的服务提供方法。

背景技术

[0002] 全球已步入大数据时代,互联网上的数据量每两年会翻一番。截止到 2013 年,全球数据量为4.3 泽字节,2020年有望达到40泽字节。当前,世界各国政府和国际组织都认识到了大数据的重要作用,将大数据的开发利用作为夺取制高点的重要抓手,发达国家纷纷制定相关政策,积极推动大数据相关技术的研发与落实。我国正处于数字经济发展的转型时期,信息的公开、共享与服务成为时代发展的主题。信息逐渐成为与物质和能源同等重要的资源,以开发和利用信息资源为目的的经济活动迅速扩大,通过互联网数据的采集、应用,在支持保障公共 安全、实施社会治理,重大决策和改进公共服务等方面发挥出越来越重要的作用。
[0003] 与本方案相近的方案公开号为CN110069479的专利文献“一种公安大数据治理方法”,提供了一种数据治理的方法,其在实现的时候侧重于数据治理方面,对数据获取、数据服务方面没有明确的描述。另一公开号为CN102315991的专利文献“一种基于互联网数据采集的方法”,重点介绍了互联网数据采集的实现方法,并没有对互联网数据采集和处理过程做描述。

发明内容

[0004] 本发明提出一种关于数据采集和服务提供的处理方法,用以适应于现行的互联网数据的应用,对实际的生产活动能够起到指导作用,为企业内、外部提供稳定、高效的数据服务。
[0005] 实现上述目的的技术方案是采用一种基于互联网大数据的服务提供方法,具体包括以下步骤:步骤一:对互联网数据标准化定义包含数据元标准管理、数据模型管理和数据服务等级协议管理。根据国标或行标建立起数据元的标准规范,依标建模(依据数据元标准规范建立数据源的标准模型),根据数据元的标准模型,创建业务逻辑模型;模型落地(逻辑模型创建后),引用业务逻辑模型,对模型(数据元的标准模型)进行实例化;标准服务时通过定义数据服务协议标准,对外提供统一的接口服务。
[0006] 步骤二:互联网数据采集是根据项目和客户专题需求,明确互联网数据采集目标,抓取各大媒体、网站、微博、微信和论坛上的网页与相关的链接,设置数据采集的周期,对结构化数据创建数据模型,并与采集点进行关联,采集系统对配置的互联网采集点进行数据采集。
[0007] 步骤三:互联网数据预处理,通过步骤二对互联网采集的数据需要经过多重预处理,然后加载到数据存储层,并为各种业务应用服务,完成数据在组件间及层次间中转、缓冲、转换及调度。数据预处理工作包括异构多源数据汇聚规整:汇聚各个通道采集器采集结果数据,通过数据总线订阅采集结果,为采集器指定数据回传的文件格式,按各通道数据存储标准对各通道采集抽取后的信息进行必要的规整;垃圾过滤是将数据垃圾分为两个级别,页面级和页面内容级,根据统一指定的垃圾过滤规则,使用网页去噪技术,将开源数据垃圾剔除掉;数据去重是通过相关唯一数据标识(新闻类数据如URL的hash,微博ID等),在存储服务中进行数据去重;文本字段分词是对标题、摘要和内容等主要文本字段的分词处理,并保留分词结果字段;实体/关键词抽取是针对垃圾过滤后的数据,从信息标题和内容中提取重要属性元素,包括涉及的人物、组织机构、地点、关键词向量和信息摘要等;数据信息分类打标签是针对经垃圾过滤后的数据,根据信息内容和业务分类打标签;实时监控是通过配置监测规则维护监测规则的状态(启用、停用)等内容对业务系统下发的任务进行实时监测与推送。
[0008] 步骤四:互联网数据安全处理是对数据进行分类分级、加密和访问控制的处理,使数据脱敏后为其他应用提供服务,分类分级是对数据进行不同类别和密级的划分,根据类别和密级制定不同管理和使用原则,对数据做到有差别和针对性的防护;数据加密包括数据存储加密、加密传输和数据脱敏,实现再存储和传输阶段的数据安全管控。同时还提供身份认证、访问控制、分级授权和安全审计功能,对受控的访问数据和追溯访问轨迹,做到访问中监控,访问后留痕。
[0009] 步骤五:互联网数据服务提供,服务调用通过OAuth进行管理,向资源所有者请求授权,资源所有者返回凭证,客户端通过授权服务器进行身份验证,并提供授权凭证,请求访问令牌,授权服务器对客户端进行身份验证,客户端向资源服务器请求保护的资源,资源服务器验证访问令牌,返回后保护的资源。配置监控服务时,设定监控服务的当前服务等级。根据设定的当前服务等级,启动监控服务;按照预定的时间间隔周期性地采集与当前服务等级相关联的指标;当采集到与当前服务等级相关联的指标时,计算当前服务等级的服务指数;判断当前服务等级的服务指数是否大于预定的第一综合阈值;若当前服务等级的服务指数大于预定的第一综合阈值,提高监控服务的当前服务等级,然后执行按照预定的时间间隔周期性地采集与当前服务等级相关联的指标的步骤。
[0010] 其中,步骤五中互联网数据服务提供的数据服务有以下分类:(1)数据订阅/发布服务:将所有类型的主数据注册到企业数据总线平台上,各目标系统提供接收各类主数据的接口,到企业数据总线平台自主订阅相应的主数据,所有目标系统通过企业数据总线平台订阅规范完成数据的订阅服务。
[0011] (2)数据调用API服务:指定数据类型,通过关键字查询数据详细信息。基于接口层面的点对点的方式的查询服务。
[0012] (3)数据资源服务:通过相关工具将源系统的数据抽取到大数据平台,经过整合、清洗和归并后形成各种主题数据,对外提供不同的数据服务,将源系统大数据集中在数据资源中心,通过大数据技术工具,提供各类数据自助式服务。
[0013] (4)数据即时服务:基于搜索服务器,面向所有业务系统提供快速查询检索的服务。主要原理是将不同类型的全量主数据同步到搜索服务器的存储中,然后业务通过搜索服务器提供的API接口进行查询,解决了大数据量查询时,查询效率比较低的问题,提供了数据的及时服务。
[0014] 其中,步骤三:互联网数据预处理,包括数据汇聚规整、垃圾过滤、数据去重、文本字段分词、实体/关键词抽取、数据信息分类打标签和实时监控、数据标签和NLP处理多维度的分析加工处理。
[0015] 步骤四中,互联网数据安全处理过程还包括色授权和场景化安全。其中互联网数据安全处理过程还包括角色授权:在数据分级和分类后,了解数据在被谁访问,这些人如何使用和访问数据,针对不同角色制定不同安全政策。常见角色:业务人员、数据运维人员、开发测试人员、分析人员、外包人员、数据共享第三方等。互联网数据安全处理过程还包括场景化安全:针对不同角色在不同场景下,研究数据使用需求;满足数据被正常使用的目标下,完成相应安全要求和安全工具选择。
[0016] 还包括数据运行期监控监控,监控过程中需要从技术、业务和管理三个方面分析要监控的目标,监控的数据,并且明确数据背后的含义以及如何进行预警。
[0017] 数据监控时,在数据标准执行合规情况方面,应实时关注数据元、数据物理模型和数据模型参考完整性对象的更新情况,对变更后的情况与数据元标准和数据逻辑模型进行比对,并将对比报告通过EMAIL通知到相关人员,驱动后续的数据元变更流程。
[0018] 数据监控时,在互数据处理的完整情况,一方面,应实时监控互联网数据源的更新情况,通过设定采集频率,及时得将数据采集到本地。另一方面,应在数据抽取、数据入库量等进行数据的对账分析比对,在数据进行预处理的调度过程冲,每个环节的任务执行情况都可以按照数据守恒原理,进行数据总量的统计监控。
[0019] 数据监控时,对数据服务运行情况监控,主要是服务调用链关系展示,以及服务工作状态监测,本发明采用微服务方式进行数据服务提供,运行在容器化服务平台上,主要采用jaeger(开源分布式追踪系统)来实现调用服务链的追踪、grafana(可视化监控指标展示工具)实现工作状态的监控展现,并通过设置数据服务的等级,对不满足服务等级协议的接口服务进行预告警。
[0020] 整合数据标准执行合规、互联网数据处理的完整性情况,数据服务运行情况监控三个维度进行实施运维监控,通过监控各个环节的基础数据、服务,对存在的险发出预报与警示,第一时间通知到所有人,能快速发现问题。通过调用链关系,可以快速定位出了问题的环节,为进一部分析提供支持。
[0021] 步骤一中标准数据元管理:标准数据元是元数据管理的重要输入,标准数据元管理将数据标准定义映射到元数据信息上;标准数据元是数据质量检测规则的制定依据,数据标准也为数据采集、加工、存储、应用、安全管理提供依据,通过标准化的方式对数据元的属性进行定义。所涉及的业务属性主要包括:标识符、中文名称、字段名、数据类型、值域、计量单位、语境、批准日期、版本、说明、备注、类型等。
[0022] 步骤一中数据模型管理:创建逻辑数据模型,引用数据元标准中的字段,通过设定字段是否为空、是否为主键、是否是分区字段等方式对数据架构进行定义,形成了全局统一的数据字段描述;创建物理模型,引用逻辑数据模型,设置外键、调整主键、调整分区字段、调整是否为空等属性,自动在目标数据库建物理模型。通过数据模型使用稽核,进行一致性检查,发现差异时,不直接修改数据元标准中的数据,系统给出各类元数据的差异报告,结合数据元标准的变更流程,利用数据源标准工具进行数据元更新,实现数据模型的闭环管理。
[0023] 步骤一中,数据服务协议:数据服务协议是服务提供方和客户之间就服务提供中关键的服务目标及双方的责任等有关细节问题而签订的协议。定义以下3个工作步骤。
[0024] (1)确定服务目录,梳理服务内容。
[0025] (2)确定服务级别协议,确定是所提供的服务的范围和质量,明确IT服务商与客户的职责与服务内容。
[0026] (3)组织服务团队,根据服务级别、成本配置相关资源,组建服务团队,按照SLA的要求,采用多种技术和解决方案去监控和管理网络性能及流量,以满足 SLA 中的相关需求,并产生对应的客户结果报告。
[0027] 还包括互联网数据存储,互联网数据包括结构化数据、半结构化数据和非结构化数据。其中,结构化数据管包括全系统的配置类数据和分析结果数据;半结构化数据包括网页数据和图结构数据,如新闻网页、论坛博客、微博等;非结构化数据管理模管理多媒体数据和附件数据,如文档、图片、音频、视频文件等。同时,进行数据生命周期管理,根据数据对企业的价值进行分类分级,形成数据资产目录,然后制定相应的策略,确定最优服务平和最低成本,将数据转移到相应的存储介质上,争取以最低的成本提供适当级别的保护、复制和恢复。
[0028] 本发明的技术效果:本发明是针对互联网大数据提供服务,通过数据治理和服务治理两种方式,实现了对互联网数据进行资产化和服务化的转变,为最终的数据变现提供了可能。
[0029] 本发明中互联网大数据的服务提供,涵盖从数据采集、标准化、数据处理、数据服务、运行期监控等全生命周期的管理,基于数据治理的能,提供高质量的数据,进一步提供专业化的数据资产服务,为数据资产管理和增值提供全面支持。以实战应用为向导,完善数据治理体系的建设,从数据采集、数据分级分类、数据资产管理、数据服务监控、数据质量组织保障等方面着手,对互联网数据的采集、处理、存储、服务、监控全流程进行可视化管理,从而提供稳定可靠的数据服务,满足实际应用的需要。附图说明
[0030] 图1是互联网数据预处理流程图

具体实施方式

[0031] 下面将结合具体实施例对本发明进行进一步详细说明。
[0032] 关键技术路线本发明中在提供互联网大数据服务建设时采用的关键技术路线如下。
[0033] 构建统一的数据标准构建统一的数据标准:统一数据标准的构建,遵从上位标准、完善本地标准、补充空白标准、标准指导应用的原则进行展开,对现有各类数据标准进行梳理,包括:业务涉及到的国家标准、地方标准和行业标准,对现有标准不完善的地方进行补充和升级,以适应业务发展需要,对业务执行过程中约定俗成的各种数据分类和标准进行梳理和提取,新建标准;所有经过标准化清洗,进入平台的数据都数据元目录和代码集进行登记和描述,数据必须遵循数据标准。
[0034] 灵活地创建数据处理流程利用可视化数据处理工具,通过拖拉拽的方式来设置数据处理的流程,一方面可以接入各种数据源的数据,通过数据模型管理,引入标准的数据模型,对数据进行清洗、过滤、转换,完成数据的转换,形成加工后的初始数据完成数据的汇聚;另一方面可以通过对初始数据进行关联、汇总、调用数据挖掘算法,实现各系统的数据集中管理,通过系统的资产目录提供统一的数据视图。
[0035] 数据运行期监控数据运行期监控监控能够及时反馈出数据标准的执行合规情况、数据的异常情况、任务的执行情况、服务的提供的及时性等数据质量方面的问题,进而分析数据问题产生的原因,带动数据治理。数据监控过程中需要从技术、业务、管理三个方面分析要监控的目标,监控的数据,并且明确数据背后的含义以及如何进行预警。
[0036] 数据质量制度保障本发明中,通过上述的1.1、1.2和1.3三个关键技术路线,来实现数据治理过程中的“采,存,通,用,管”,完成数据资产化,资产服务化的转变,提供数据服务是数据治理的最终体现,如何最好数据治理工作,提供高质量的数据,需要由流程制度进行协调,具体涉及到的工作如下。
[0037] 组织保障与数据质量管理相关的组织有:数据质量管理小组、相关系统维护组织、系统使用部。其中相关系统维护组织提供源系统的数据质量保障以及与本系统的数据质量协查;系统使用部门则从业务角度进行数据质量管控;数据质量管理小组则是本系统中进行数据质量保障的关键组织,该小组的主要职责包括如下内容。
[0038] 制定数据质量检测标准。
[0039] 制定数据质量管理、保障、控制和维护流程。
[0040] 监控数据质量问题处理的整个流程并进行结果评估。
[0041] 定期(如每月、每季)或不定期进行数据质量状况评估。
[0042] 负责与其它组织机构的协调,如与数据源系统维护机构、本系统管理人员协调解决数据源系统接口问题。
[0043] 负责处理数据质量需求变更的评估与实施。
[0044] 角色保障与数据质量管理相关的角色包括:数据质量管理员、本系统运维人员、运维人员、系统使用人员。
[0045] 本系统运维人员、运维人员、系统使用人员属于数据质量管理的执行层面的角色。数据质量管理员则是数据质量管理中最主要的角色,该角色是数据质量管理小组的工作核心,在管理小组的组织结构中属于常设岗位如下。
[0046] 编写和维护数据质量管理工作相关文档,如数据质量检查报告。
[0047] 组织相关人员对系统需求影响分析报告的正确性和完备性进行评估。
[0048] 定期、不定期地进行数据质量评估,并提交评估报告。
[0049] 数据质量相关知识及流程的培训。
[0050] 组织协调相关机构对异常或有争议数据质量问题进行协商解决。
[0051] 建立、维护数据质量问题解决的知识库
[0052] 根据实际使用情况,对数据质量管理的建设提出需求和建议。
[0053] 负责与系统其它人员或源系统管理员的联络,协调解决数据质量问题。
[0054] 系统运维人员在数据质量管理流程中的主要职责应包括以下几个方面的内容。
[0055] 接受数据质量管理员的任务安排,接受数据质量管理员的工作监督。
[0056] 负责数据质量日常的管理任务,如数据质量告警处理、数据质量问题处理和需求变更实施等。
[0057] 参与数据质量各种文档和流程的评审。
[0058] 互联网大数据的服务提供3.1互联网数据标准化定义
互联网数据标准化,包含数据元标准管理、数据模型管理和数据服务等级协议管理。数据元标准管理,对互联网数据标准化定义是根据国标或行标建立起数据元的标准规范;数据模型管理:依据数据元标准规范建业务逻辑标准模型,引用业务逻辑标准模型,进行实例化;数据服务等级协议是通过定义数据服务协议标准,对外提供统一的接口服务。
[0059] 标准数据元管理标准数据元是元数据管理的重要输入,标准数据元管理将数据标准定义映射到元数据信息上;标准数据元是数据质量检测规则的制定依据,数据标准也为数据采集、加工、存储、应用、安全管理提供依据,通过标准化的方式对数据元的属性进行定义。所涉及的业务属性主要包括:标识符、中文名称、字段名、数据类型、值域、计量单位、语境、批准日期、版本、说明、备注和类型等。
[0060] 数据模型管理创建逻辑数据模型,引用数据元标准中的字段,通过设定字段是否为空、是否为主键、是否是分区字段等方式对数据架构进行定义,形成了全局统一的数据字段描述;创建物理模型,引用逻辑数据模型,设置外键、调整主键、调整分区字段、调整是否为空等属性,自动在目标数据库建物理模型。通过数据模型使用稽核,进行一致性检查,发现差异时,不直接修改数据元标准中的数据,系统给出各类元数据的差异报告,结合数据元标准的变更流程,利用数据源标准工具进行数据元更新,实现数据模型的闭环管理。
[0061] 数据服务协议数据服务协议是服务提供方和客户之间就服务提供中关键的服务目标及双方的责任等有关细节问题而签订的协议。通常应定义以下3个工作步骤。
[0062] (1)确定服务目录,梳理服务内容。
[0063] (2)确定服务级别协议,确定是所提供的服务的范围和质量,明确IT服务商与客户的职责与服务内容。
[0064] (3)组织服务团队,根据服务级别、成本配置相关资源,组建服务团队,按照SLA的要求,采用多种技术和解决方案去监控和管理网络性能及流量,以满足 SLA 中的相关需求,并产生对应的客户结果报告。
[0065] 互联网数据采集根据项目和客户专题需求,明确互联网数据采集目标,抓取各大媒体、网站、微博、微信和论坛上的网页与相关的链接,设置数据采集的周期,对结构化数据创建数据模型,并与采集点进行关联,采集系统对配置的互联网采集点进行数据采集。
[0066] 互联网数据预处理如图1所示,互联网采集的数据需要经过多重预处理,然后加载到数据存储层,并为各种业务应用服务。完成数据在组件间及层次间中转、缓冲、转换及调度。典型的数据预处理包括垃圾清洗、数据去重、数据抽取、数据标签、NLP处理等多维度的分析加工处理等工作步骤,具体如下:
步骤一:异构多源数据汇聚规整。汇聚各个通道采集器采集结果数据,通过数据总线订阅采集结果,为采集器指定数据回传的文件格式,按各通道数据存储标准对各通道采集抽取后的信息进行必要的规整。
[0067] 步骤二:垃圾过滤。将数据垃圾分为两个级别,页面级、页面内容级,根据统一指定的垃圾过滤规则,使用网页去噪技术,将开源数据垃圾剔除掉。
[0068] 步骤三:数据去重。通过相关唯一数据标识(新闻类数据如URL的hash,微博ID等)在存储服务中进行数据去重。
[0069] 步骤四:文本字段分词。对标题、摘要、内容等主要文本字段的分词处理,并保留分词结果字段。
[0070] 步骤五:实体和关键词抽取。针对垃圾过滤后的数据,从信息标题和内容中提取重要属性元素,包括本篇信息涉及的人物、组织机构、地点、关键词向量、信息摘要等。
[0071] 步骤六:数据信息分类打标签。针对经垃圾过滤后的数据,根据信息内容和业务分类打标签。
[0072] 步骤七:实时监控。通过配置监测规则维护监测规则的状态(启用、停用)等内容对业务系统下发的任务进行实时监测与推送。
[0073] 互联网数据安全处理互联网数据安全处理,主要是对数据进行分类分级、加密、访问控制的处理,使数据脱敏后为其他应用提供服务,包括以下内容。
[0074] (1)数据层面,实现对数据的分类分级、加密、脱敏、定期稽核等内容。
[0075] 数据的分类分级:对数据进行不同类别和密级的划分;根据类别和密级制定不同管理和使用原则,对数据做到有差别和针对性的防护。
[0076] 数据加密:数据存储加密、加密传输、数据脱敏等,实现再存储和传输阶段的数据安全管控。
[0077] (2)应用层面,主要是提供身份认证、访问控制、分级授权、安全审计功能是保障系统应用安全的重要功能,实现对受控的访问数据、追溯访问轨迹等功能,做到访问中监控,访问后留痕。
[0078] 角色授权:在数据分级和分类后,了解数据在被谁访问,这些人如何使用和访问数据,针对不同角色制定不同安全政策。常见角色:业务人员、数据运维人员、开发测试人员、分析人员、外包人员、数据共享第三方等。
[0079] 场景化安全:针对不同角色在不同场景下,研究数据使用需求;满足数据被正常使用的目标下,完成相应安全要求和安全工具选择。比如对于运维人员,在备份和调优场景下,并不需要对真实数据的直接访问能力,提供行为审计、敏感数据掩码能力即可。
[0080] 互联网数据存储互联网数据包括结构化数据、半结构化数据和非结构化数据。其中,结构化数据管包括全系统的配置类数据和分析结果数据;半结构化数据包括网页数据和图结构数据,如新闻网页、论坛博客、微博等;非结构化数据管理模块管理多媒体数据和附件数据,如文档、图片、音频、视频文件等。同时,进行数据生命周期管理,根据数据对企业的价值进行分类分级,形成数据资产目录,然后制定相应的策略,确定最优服务水平和最低成本,将数据转移到相应的存储介质上,争取以最低的成本提供适当级别的保护、复制和恢复。
[0081] 互联网数据服务方式服务调用是通过OAuth进行管理,向资源所有者请求授权,资源所有者返回凭证,客户端通过授权服务器进行身份验证,并提供授权凭证,请求访问令牌,授权服务器对客户端进行身份验证,客户端向资源服务器请求保护的资源,资源服务器验证访问令牌,返回后保护的资源。提供的数据服务有以下分类。
[0082] (1)数据订阅/发布服务。将所有类型的主数据注册到企业数据总线平台上,各目标系统提供接收各类主数据的接口,到企业数据总线平台自主订阅相应的主数据,所有目标系统通过企业数据总线平台订阅规范即可完成数据的订阅服务。
[0083] (2)数据调用API服务。指定数据类型,通过关键字查询数据详细信息。基于接口层面的点对点的方式的查询服务。
[0084] (3)数据资源服务。通过相关工具将源系统的数据抽取到大数据平台,经过整合、清洗、归并后形成各种主题数据,对外提供不同的数据服务,将源系统数据大集中在数据资源中心,通过大数据技术工具,提供各类数据自助式服务。
[0085] (4)数据即时服务。基于搜索服务器,面向所有业务系统提供快速查询检索的服务。主要原理是将不同类型的全量主数据同步到搜索服务器的存储中,然后业务通过搜索服务器提供的API接口进行查询,解决了大数据量查询时,查询效率比较低的问题,提供了数据的及时服务。
[0086] 互联网数据服务的监控配置监控服务时,设定监控服务的当前服务等级,启动监控服务;按照预定的时间间隔周期性地采集与当前服务等级相关联的响应时间、错误率、系统运行(CPU、内存利用率、LOAD、丢弃连接数、异常后端server数)等指标;计算当前服务等级的服务指数,当前服务等级的服务指数大于预定的阈值,第一时间通知到系统运维人员,这样就能快速发现问题。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈