首页 / 专利库 / 资料储存系统 / 数据集市 / 电信行业基于数据仓库的决策支持系统的构造方法

电信行业基于数据仓库决策支持系统的构造方法

阅读:684发布:2020-09-06

专利汇可以提供电信行业基于数据仓库决策支持系统的构造方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种电信行业基于 数据仓库 的 决策支持系统 的构造方法,其特征是,利用业务 支撑 系统产生的信息资源,结合相关支撑系统提供的信息,采用数据仓库、 数据挖掘 、多维分析等技术构造所述决策支持系统,构造步骤是:构建符合电信业务特点的数据仓库模型;对源业务系统的数据进行统一的分析;将源系统中的数据进行 抽取 转换加载;对数据仓库中的数据进行不同粒度的汇总;通过各种 访问 方式展现分析结果;设定各种流程化的控制。本发明采用了目前领先的数据挖掘、数据仓库、OLAP分析等技术,创造性的将企业数据融合在一起,为企业的经营生产提供全方位的决策支持。本发明属于数据仓库领域,应用于电信行业。,下面是电信行业基于数据仓库决策支持系统的构造方法专利的具体信息内容。

1、一种电信行业基于数据仓库决策支持系统的构造方法,其特征是,利用 业务支撑系统产生的信息资源,结合相关支撑系统提供的信息,采用数据仓库技 术、数据挖掘技术、多维分析技术构造所述决策支持系统,构造步骤如下:
步骤1、构建符合电信业务特点的数据仓库模型:根据电信行业的具体特点, 将整个数据仓库模型设计为如下八个主题域:客户、服务使用、客服、营销、服 务、结算、资源、账务,数据仓库模型包括逻辑数据模型和物理数据模型,高层 逻辑数据模型切实反映电信行业的业务关系,包括所有主题和主要实体以及相互 之间的关系;物理模型是数据的存储方式;
步骤2、对源业务系统的数据进行统一的分析:在构建好数据仓库模型后,对 源业务系统,也就是数据仓库的数据源中的数据进行统一的分析;源数据分析包 括如下内容:数据的业务范围及业务含义、数据所在平台,包括系统平台和数据 库平台、数据结构、数据更新周期、数据更新方式和数据量,分析这些系统中的 数据,根据数据仓库系统物理数据模型的需要,将源数据同目的数据进行匹配, 即源数据映射;
步骤3、将源系统中的数据进行抽取转换加载:ETL即数据抽取、转换和加载, 是数据仓库实现过程中,进行数据由数据源系统向数据仓库加载的主要过程;
步骤4、对数据仓库中的数据按分析需要进行不同粒度的汇总:在中央数据仓 库的基础之上根据分析需求会创建相应的从属的数据集市,从属数据集市的数据 直接来自于中央数据仓库;
步骤5、通过各种访问方式展现分析结果:数据访问层提供多种数据加工展现 方法,包括预定义报表、即席查询、多维动态分析和数据挖掘,并提供一个统一 的户入口和界面,实现预定义报表、即席查询和多维动态分析的无缝连接,并 提供集成化的认证、信息发布和管理环境;
步骤6、为确保系统的正常运行设定各种流程化的控制:自动作业调度监控,管 理平台包括自动作业调度系统,该系统可按指定的时间周期自动执行相应的作业,调 度的作业包括对关系数据库、多维数据库和操作系统进行的各种操作,系统监控的事 件被触发时,可自动调度指定的作业进行处理,增加对自动调度事件执行情况的监控; 网络安全管理;系统备份恢复管理,根据电信行业数据的特点,制定备份策略和恢复 计划,构建系统备份恢复系统。
2、根据权利要求1所述的构造方法,其特征在于:步骤1中所述的八个主题 域,其中客户包括所有对电信业服务有现实或潜在需求的机构或个人,客户因为 购买电信业的产品或享受其服务而成为电信业用户,客户主题包含所有有关客户 的基本信息和扩展信息,也包括开户、销户信息;服务使用指电信公司对客户订 购、使用产品和服务的过程的记录,其中主要包含用户、标准服务使用记录、清 单;客服即客户服务,描述了电信公司及合作商为客户提供服务的所有信息,包 括传统的客户服务和业务受理,服务部门和服务渠道,以及相关的行为记录;营 销指电信公司为了拓展业务、发展用户,针对一定的市场及特定的客户群体所进 行的市场宣传、促销活动,包括一系列的营销战略以及相应的战术;服务即电信 公司广义上的产品,包括电信公司向客户销售的所有产品以及服务;结算是指电 信公司同合作服务方之间的费用清算及划割关系;资源是电信公司拥有,为客户 提供服务的所有载体,包括号码资源、终端资源、网络资源,以及相应的产品供 应商;帐务主题主要反映客户与帐户之间的关系,包括费用发生、费用交付。
3、根据权利要求1所述的构造方法,其特征在于:步骤1中所述的数据模型 采用星型模式,星型模式由事实表和维表构成,事实表存放需要分析的细节数据, 维表存放各分析维度的属性;物理模型以星型模式存放在关系型数据库中或构建 Cube。
4、根据权利要求1所述的构造方法,其特征在于:步骤2中所述的源业务系 统包括营业系统、计费系统、帐务系统、网管系统和客服系统。
5、根据权利要求1所述的构造方法,其特征在于:步骤3中所述的数据抽取, 是针对电信行业源数据的特点,对于不同数据平台、不同源数据形式、不同性能 要求和业务量的业务系统以及不同数据量的源数据,将采取不同的数据抽取接口, 制定相应的策略,包括抽取方式、抽取时机、抽取周期;数据转换是指对从业务 系统中抽取的源数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆 分、汇总处理,保证来自不同系统、不同格式的数据的一致性和完整性,并按要 求装入数据仓库,根据实际情况确定数据转换技术和策略;数据加载是将从数据 源系统中抽取、转换后的数据加载到数据仓库系统中,根据业务分析需求和系统 加载的代价,对不同业务系统的数据采用不同的加载周期,同时又可以保持同一 时间业务数据的完整性,根据数据的抽取策略以及业务规则确定数据的追加策略;
6、根据权利要求4所述的构造方法,其特征在于:所述的抽取方式包括增量 抽取和完全抽取,其中流型增长且数据量大的数据适合采用增量抽取的方式; 变化更新的数据适合采用完全抽取的方式;对于两者结合的数据,如果能提取增 量信息,则进行增量抽取,否则采用完全抽取的方式进行。
7、根据权利要求4所述的构造方法,其特征在于:所述的追加策略,包括三 种类型:直接追加、全部覆盖和更新追加,其中,直接追加是指每次加载时直接 将数据追加到目的表中,对于典型的流水数据采用此方法;全部覆盖:对于抽取 数据本身已包括了数据的当前和所有历史状况,对目标表采用全部覆盖方式;更 新追加:对于需要连续记录业务的状态变化,用当前的最新状态同历史状态数据 进行比对的情况采用更新追加的方式。
8、根据权利要求1所述的构造方法,其特征在于:步骤5中所述的预定义报表, 是一种经营分析人员在使用系统的过程中,根据需求和有关分析结果进行预定义后、 格式内容相对固定的报表;即席查询的内容可由经营分析系统使用人员自由定义,允 许使用者控制数据的访问方法,并对查询结果提供多种可选择的展现方式;多维动态 分析是基于多维数据模型的分析方法,用于支持复杂的分析和预测,包括趋势分析、 What-if分析;数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数 据进行探索,揭示隐藏其中的规律,并将其模型化,指导并应用于实际的企业经营中, 在经营分析系统中,不同的实际问题所采用的数据挖掘方法不同,数据挖掘的方法一 般分为预测型和描述型,其中,预测型方法包括分类/决策树算法、回归分析、时间序 列分析;描述型方法包括关联分析、序列关联分析、聚类分析

说明书全文

技术领域

发明涉及一种电信行业基于数据仓库决策支持系统的构造方法

背景技术

当前国内的分析系统基本上是建立在各个不同生产环节上,辅以一些常用、简 便的工具,如数据库、报表工具,甚至Excel(数据表格工具)等,直接对生产数 据进行分析,来了解企业的经营运行情况。其不可避免的问题在于,企业中的数 据源是分散的,在此基础上建立的分析系统必然是孤立的。而在这一个个“信息 孤岛”之间缺乏有效的关联和综合分析,无法形成企业数据的统一视图。在分析 度和深度,以及关联分析和预测分析方面比较薄弱。
随着企业信息化建设的推进,各大企业纷纷建立各自的业务运营系统,以电信 行业为例,各运营商都有自己的营业系统、网管系统、计费系统、帐务系统、客 服系统等,各大系统各自发展,彼此缺乏相关性,给企业的决策者的决策带来很 大的困难,各系统中统计的数字各不相同,难以取信,在这种情况下,数据仓库 技术应运而生。
数据仓库技术整合企业各大系统中的数据,形成企业“统一数据视图”,为企 业决策提供全面、统一、准确的数据。数据仓库技术在20世纪90年代,开始出现。 到21世纪初进入中国开始应用,在国内的应用最先出现在金融、航空与电信领域。 随着几年的建设已初具规模。

发明内容

本发明所要解决的技术问题在于避免上述现有技术中的不足,而提出一种电 信行业基于数据仓库的决策支持系统的构造方法,该方法是利用数据仓库系统将 分散在企业中的各个“信息孤岛”,有效、完整的集合在一起,建立统一的企业 数据视图,并在此基础之上,将企业各个生产环节的数据综合在一起进行分析, 并利用数据挖掘、OLAP分析等技术,形成各种关联分析和预测分析,为企业的决 策提供更为可靠且全面的支持。
本发明所提供的技术方案是:一种电信行业基于数据仓库的决策支持系统的 构造方法,利用业务支撑系统产生的信息资源,结合相关支撑系统提供的信息, 采用数据仓库技术、数据挖掘技术、多维分析技术构造所述决策支持系统,构造 步骤如下:
步骤1、构建符合电信业务特点的数据仓库模型:根据电信行业的具体特点, 将整个数据仓库模型设计为如下八个主题域:客户、服务使用、客服、营销、服 务、结算、资源、账务,数据仓库模型包括逻辑数据模型和物理数据模型,高层 逻辑数据模型切实反映电信行业的业务关系,包括所有主题和主要实体以及相互 之间的关系;物理模型是数据的存储方式;
步骤2、对源业务系统的数据进行统一的分析:在构建好数据仓库模型后,对 源业务系统,也就是数据仓库的数据源中的数据进行统一的分析,就中国目前的 电信运营商来说,无论是电信、网通、移动还是联通,其业务系统基本都会包括, 营业系统、计费系统、帐务系统、网管系统、客服系统;源数据分析包括如下内 容:数据的业务范围及业务含义、数据所在平台,包括系统平台和数据库平台、 数据结构、数据更新周期、数据更新方式和数据量,分析这些系统中的数据,根 据数据仓库系统物理数据模型的需要,将源数据同目的数据进行匹配,即源数据 映射;
步骤3、将源系统中的数据进行抽取转换加载:ETL即数据抽取、转换和加载, 是数据仓库实现过程中,进行数据由数据源系统向数据仓库加载的主要过程;
步骤4、对数据仓库中的数据按分析需要进行不同粒度的汇总:在中央数据仓 库的基础之上根据分析需求会创建相应的从属的数据集市,从属数据集市的数据 直接来自于中央数据仓库;
步骤5、通过各种访问方式展现分析结果:数据访问层提供多种数据加工展现 方法,包括预定义报表、即席查询、多维动态分析和数据挖掘,并提供一个统一 的户入口和界面,实现预定义报表、即席查询和多维动态分析的无缝连接,并 提供集成化的认证、信息发布和管理环境;
步骤6、为确保系统的正常运行设定各种流程化的控制:自动作业调度监控, 管理平台包括自动作业调度系统,该系统可按指定的时间周期自动执行相应的作 业,调度的作业包括对关系数据库、多维数据库和操作系统进行的各种操作,系 统监控的事件被触发时,可自动调度指定的作业进行处理,增加对自动调度事件 执行情况的监控;网络安全管理;系统备份恢复管理,根据电信行业数据的特点, 制定备份策略和恢复计划,构建系统备份恢复系统。
步骤1中所述的八个主题域,其中客户包括所有对电信业服务有现实或潜在 需求的机构或个人,客户因为购买电信业的产品或享受其服务而成为电信业用户, 客户主题包含所有有关客户的基本信息和扩展信息,也包括开户、销户等信息; 服务使用指电信公司对客户订购、使用产品和服务的过程的记录,其中主要包含 用户、标准服务使用记录、清单等;客服即客户服务,描述了电信公司及合作商 为客户提供服务的所有信息,包括传统的客户服务和业务受理,服务部门和服务 渠道,以及相关的行为记录;营销指电信公司为了拓展业务、发展用户,针对一 定的市场及特定的客户群体所进行的市场宣传、促销等活动,包括一系列的营销 战略以及相应的战术;服务即电信公司广义上的产品,包括电信公司向客户销售 的所有产品以及服务;结算是指电信公司同合作服务方之间的费用清算及划割关 系;资源是电信公司拥有,为客户提供服务的所有载体,包括号码资源、终端资 源、网络资源,以及相应的产品供应商等;帐务主题主要反映客户与帐户之间的 关系,包括费用发生、费用交付等。
步骤1中所述的数据模型采用星型模式,星型模式由事实表和维表构成,事 实表存放需要分析的细节数据,维表存放各分析维度的属性;物理模型以星型模 式存放在关系型数据库中或构建Cube。
步骤2中所述的源业务系统包括营业系统、计费系统、帐务系统、网管系统 和客服系统。
步骤3中所述的数据抽取,是针对电信行业源数据的特点,对于不同数据平 台、不同源数据形式、不同性能要求和业务量的业务系统以及不同数据量的源数 据,将采取不同的数据抽取接口,制定相应的策略,包括抽取方式、抽取时机、 抽取周期;数据转换是指对从业务系统中抽取的源数据根据数据仓库系统模型的 要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格 式的数据的一致性和完整性,并按要求装入数据仓库,根据实际情况确定数据转 换技术和策略;数据加载是将从数据源系统中抽取、转换后的数据加载到数据仓 库系统中,根据业务分析需求和系统加载的代价,对不同业务系统的数据采用不 同的加载周期,同时又可以保持同一时间业务数据的完整性,根据数据的抽取策 略以及业务规则确定数据的追加策略;
所述的抽取方式包括增量抽取和完全抽取,其中流型增长且数据量大的数 据适合采用增量抽取的方式,最为典型的是清单、帐单类数据;变化更新的数据 适合采用完全抽取的方式,最为典型的是反映当前状态的资源配置类数据;对于 两者结合的数据,如果能提取增量信息,则进行增量抽取,否则采用完全抽取的 方式进行,最为典型的是客户资料变更数据或其他的客户服务记录数据。
所述的追加策略,包括三种类型:直接追加、全部覆盖和更新追加,其中, 直接追加是指每次加载时直接将数据追加到目的表中,对于典型的流水数据,一 般采用此方法,清单、帐务等数据可以采用直接追加的方式;全部覆盖:对于抽 取数据本身已包括了数据的当前和所有历史状况,对目标表采用全部覆盖方式。 典型情况是资费规则定义的数据可以全部覆盖的方式;更新追加:对于需要连续 记录业务的状态变化,用当前的最新状态同历史状态数据进行比对的情况采用更 新追加的方式。典型情况是客服记录数据的加载。
步骤5中所述的预定义报表,是一种经营分析人员在使用系统的过程中,根 据需求和有关分析结果进行预定义后、格式内容相对固定的报表;即席查询的内 容可由经营分析系统使用人员自由定义,允许使用者控制数据的访问方法,并对 查询结果提供多种可选择的展现方式;多维动态分析是基于多维数据模型的分析 方法,用于支持复杂的分析和预测,包括趋势分析、What-if(与原因和影响分析 不同,what if分析是观察在人为指定改变条件时,结果的变化情况,以便预测 为了达到目标,最佳条件组合是什么)分析等;数据挖掘是根据企业的既定业务目 标和存在的问题,对大量的业务数据进行探索,揭示隐藏其中的规律,并将其模 型化,指导并应用于实际的企业经营中,在经营分析系统中,不同的实际问题所 采用的数据挖掘方法不同,数据挖掘的方法一般分为预测型和描述型,其中,预测 型(Predictive)方法包括分类(Classification)/决策树算法(Decision Tree)、回 归分析、时间序列分析(Time Series);描述型(Descriptive)方法包括关联分析 (Association Analysis)、序列关联分析(Sequential Analysis)、聚类分析 (Clustering)。数据挖掘与OLAP分析、预定义报表和即席查询等有很大的区别。 后三者通常是用户对所关心的业务指标,按照已知的角度进行分析;而前者则是 在业务问题和目标明确,但考察的角度不清楚时,对数据进行探索,揭示隐藏其 中的规律性,进而将其模型化。
本发明意义如下:本发明采用了目前领先的数据挖掘、数据仓库、OLAP分析 等技术,创造性的将企业数据融合在一起,为企业的经营生产提供全方位的决策 支持。与同类系统相比有更强的优势。本发明利用数据仓库系统将分散在企业中 的各个“信息孤岛”,有效、完整的集合在一起。建立统一的企业数据视图,并 在此基础之上,将企业各个生产环节的数据综合在一起进行分析。并利用数据挖 掘、OLAP分析等技术,形成各种关联分析和预测分析,并最终为各级市场决策管 理者提供及时、准确、科学的辅助决策依据,为企业的决策提供更为可靠且全面 的支持。
附图说明
图1为本发明的决策支持系统的架构图;
图2为ETL实现过程的简单流程图
图3为本发明的决策支持系统的系统服务器构成图。
图4为即席查询体系结构图;
图5为系统OLAP的结构图;
图6为数据挖掘体系结构图
图7为数据挖掘过程图。

具体实施方式

下面结合附图说明本发明的具体实施方式。
电信行业基于数据仓库的决策支持系统的构造方法,该方法利用业务支撑系 统产生的信息资源,结合相关支撑系统提供的信息,采用网络技术、数据仓库技 术、数据挖掘技术、多维分析技术构造所述决策支持系统,构造步骤如下:
1、如图1中(3)所示,构建符合电信业务特点的数据仓库模型
数据仓库模型的设计是整个系统构建的核心,它的高层逻辑数据模型要切实 反映电信行业的业务关系,包括所有主题和主要实体以及相互之间的关系。数据 仓库模型包括逻辑数据模型和物理数据模型,高层逻辑数据模型切实反映电信行 业的业务关系,包括所有主题和主要实体以及相互之间的关系,数据模型采用星 型模式,星型模式由事实表和维表构成;事实表存放需要分析的细节数据,维表 存放各分析维度的属性;物理模型是数据的存储方式,物理模型以星型模式存放 在关系型数据库中或构建Cube。
中央数据仓库存储模型应结合经营分析系统应用需求并结合现有的业务系统 进行设计。数据仓库的粒度是设计数据仓库的一个重要方面。粒度是指数据仓库 的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小; 相反,细化程度越低,粒度级就越大。
参考费用、效率、访问便利和能够回答查询问题的能,因此数据仓库的细 节级上创建两种粒度级。大部分的分析、查询是针对被压缩的、存取效率高的轻 度综合级数据进行的。如果需要分析更低的细节级,可以到数据的真实档案层。
数据存储模型的设计,具有以下特点:1)能灵活满足各种分析性业务的需求 (包括典型的四种前端访问方式);2)快速的响应性能;3)数据集中管理;4) 具有灵活的扩展能力;5)全盘考虑与分步实施。
系统建设能做到全盘考虑、统筹规划,能考虑到今后扩展数据仓库系统多方面 功能的需要,为今后建立完善的数据仓库系统打下良好基础。
在本次设计中,发明人考虑到电信行业的具体特点,将整个数据仓库模型设 计为如下八个主题域:客户、服务使用、客服、营销、服务、结算、资源、账务。 其中客户包括所有对电信业服务有现实或潜在需求的机构或个人,客户因为购买 电信业的产品或享受其服务而成为电信业用户,客户主题包含所有有关客户的基 本信息和扩展信息,也包括开户、销户等信息;服务使用指电信公司对客户订购、 使用产品和服务的过程的记录,其中主要包含用户、标准服务使用记录、清单等; 客服即客户服务,描述了电信公司及合作商为客户提供服务的所有信息,包括传 统的客户服务和业务受理,服务部门和服务渠道,以及相关的行为记录;营销指 电信公司为了拓展业务、发展用户,针对一定的市场及特定的客户群体所进行的 市场宣传、促销等活动,包括一系列的营销战略以及相应的战术;服务即电信公 司广义上的产品,包括电信公司向客户销售的所有产品以及服务;结算是指电信 公司同合作服务方之间的费用清算及划割关系;资源是电信公司拥有,为客户提 供服务的所有载体,包括号码资源、终端资源、网络资源,以及相应的产品供应 商等;帐务主题主要反映客户与帐户之间的关系,包括费用发生、费用交付等。
2、如图1中(1)所示,对源业务系统的数据进行统一的分析。
在构建好数据仓库模型后,就是要对业务系统,也就是数据仓库的数据源中的 数据进行统一的分析,就中国目前的电信运营商来说,无论是电信、网通、移动 还是联通,其业务系统基本都会包括,营业系统、计费系统、帐务系统、网管系 统、客服系统等等。源数据分析包括如下内容:数据的业务范围及业务含义、数 据所在平台,包括系统平台和数据库平台、数据结构、数据更新周期、数据更新 方式和数据量。
这一步要做的就是分析这些系统中的数据,根据数据仓库系统物理数据模型 的需要,将源数据同目的数据进行匹配,即源数据映射。
3、如图1中(2)所示,将源系统中的数据进行抽取转换加载。
这一步骤完成的功能是将数据从数据源经过必要的处理后加载到数据仓库系 统中。
ETL即数据抽取、转换和加载,是数据仓库实现过程中,进行数据由数据源系 统向数据仓库加载的主要过程。BOSS系统数据源中的实体与数据仓库主题域中的 实体并不是简单的一对一映射关系,而是比较复杂的多对多关系,这种映射关系 构成了经营分析系统ETL过程的主要内容。ETL实现过程的流程如图2所示。
1)数据抽取
a)数据抽取接口
典型的数据抽取接口包括数据库接口和文件接口,对于不同数据平台、不同 源数据形式、不同性能要求和业务量的业务系统以及不同数据量的源数据,将采 取不同的数据抽取接口。在数据抽取时需要重点考虑数据抽取的效率,以及对现 有业务系统性能及安全的影响。电信行业的源数据具有如下特点:数据量特别大; 业务系统工作负荷重,7×24工作;业务系统性能、实时性的要求较高。
鉴于以上特点,对于移动数据抽取接口一般情况下采用专用数据库驱动接口, 必要的时候采用API接口编程实现数据的抽取,以提高数据抽取效率同时减少对 业务系统的性能的影响。
b)数据抽取策略
数据的抽取能够充分满足数据仓库系统分析及决策支持的需要,同时又能保 证不会影响业务系统的性能,所以进行数据抽取时必须充分考虑到了这些因素, 制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。
抽取方式:增量抽取、完全抽取等。
抽取时机:尽可能避开业务系统的高峰时段,比如在夜间业务系统比较闲时。
抽取周期:对不同类型的数据源,应综合考虑业务需求和系统代价,制定合理 的抽取周期。
对移动源数据的抽取,必须充分满足经营分析系统的需要,同时必须保证不 能影响数据源系统的性能,所以进行数据抽取时必须充分考虑以下因素,制定出 了相应的策略:
满足对多种不同的数据来源的抽取处理。数据源包括河北移动相应业务系统、 企业外部数据源,能够提供某些数据的人工输入功能,如促销活动信息、社会调 查信息等。
支持多种不同系统平台和数据类型的数据抽取。包括各种关系型数据库系统、 各种文件方式的源数据等。
充分考虑数据源系统的性能要求。根据业务量大小和数据量大小,尽量减少 对数据源系统的影响。
在制定抽取策略时,需要对以上各项因素综合考虑。通常情况下,流水型增 长且数据量大的数据适合采用增量抽取的方式,最为典型的是清单、帐单类数据; 变化更新的数据适合采用完全抽取的方式,最为典型的是反映当前状态的资源配 置类数据;对于两者结合的数据,如果能提取增量信息,则进行增量抽取,否则 采用完全抽取的方式进行,最为典型的是客户资料变更数据或其他的客户服务记 录数据。此外,对于抽取周期要考虑实际业务的需求和抽取进行的系统代价,在 可能的情况下,尽量缩短抽取周期,源数据抽取策略说明如下表所示。 源 数 据 分 类 方 式 数 据 操 作     分    类         数据特征     数据内容 流水型增长(INSERT) 数据按增量方式产生,不涉 及对已有数据的更新操作 清单、账单、定单 等 变化更新(UPDATE) 对已有数据进行更新 资源配置信息等 两者结合(INSERT/ DELETE+UPDATE) 按增量方式产生新数据的 同时,还对已有数据进行更 新 客服记录等 数 据 量                      大 清单、账单等                   相对较小 资源管理、系统管 理
2)数据转换
数据转换是指对从业务系统中抽取的源数据根据数据仓库系统模型的要求, 进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数 据的一致性和完整性,并按要求装入数据仓库。
a)转换的主要功能
数据转换主要完成由于以下原因造成的数据不一致性问题:
源数据系统同数据仓库系统在模型上的差异性;
源数据系统平台不一致:数据仓库系统的数据源可能包括基于不同平台的数据 库的数据;
源数据结构的不一致:有些数据源由于历史的原因,导致同一个表在不同的时 期数据结构不一致;
源数据定义不规范导致错误数据;
对数据的约束不严格,导致无意义数据;
存在重复记录;
由于平台系统的不同,可能会存在大量的转码工作。
b)数据转换技术和策略
根据实际情况,数据转换工作一般会在以下几个环节中具体实现:在抽取过 程中进行数据处理;使用异步数据加载,以文件的方式处理;在数据加载过程中 进行数据处理;进入数据仓库以后再进行数据处理。
采用在数据抽取过程中进行数据转换时,必须考虑抽取的性能以及对业务系 统性能的影响;采用异步数据加载需要以文件方式处理时,必须充分考虑中间磁 盘的存储量以及ETL整个流程的协调性工作,以及大量的非SQL语句的编程;采 用在数据加载过程中进行数据转换时,必须考虑加载性能;采用先将数据装载到 数据仓库后再处理时,必须考虑数据仓库引擎的海量数据处理能力。
3)数据加载
a)数据加载主要功能
数据加载就是将从数据源系统中抽取、转换后的数据加载到数据仓库系统中。 要求数据加载工具必须具有高效的加载性能。
b)数据加载技术及策略
主要加载技术:使用数据仓库引擎厂商提供的数据加载工具进行数据加载; 通过数据仓库引擎厂商提供的API编程进行数据加载;数据加载策略要考虑加载 周期及数据追加策略两方面的内容。
根据移动业务数据的实际情况,加载周期综合考虑了业务分析需求和系统加 载的代价,对不同业务系统的数据采用不同的加载周期,同时又可以保持同一时 间业务数据的完整性。
数据的追加策略根据数据的抽取策略以及业务规则确定,一般有以下三种类 型:直接追加、全部覆盖、更新追加。
直接追加:是指每次加载时直接将数据追加到目的表中。对于典型的流水数 据,一般采用此方法,清单、帐务等数据可以采用直接追加的方式;
全部覆盖:对于抽取数据本身已包括了数据的当前和所有历史状况,对目标 表采用全部覆盖方式。典型情况是资费规则定义的数据可以全部覆盖的方式;
更新追加:对于需要连续记录业务的状态变化,用当前的最新状态同历史状 态数据进行比对的情况采用更新追加的方式。典型情况是客服记录数据的加载。
具体采取何种方式,要综合考虑效率、业务实现等诸多因素。
4、如图1中(4)所示,对数据仓库中的数据按分析需要进行不同粒度的汇 总。
中央数据仓库是按照企业整体的信息模型、尽可能以最小的业务单元来组织并 存储数据。这样既能保证数据访问的灵活性,又可保证最少量的数据冗余。
在数据仓库的实施过程中,对于某些主题的业务分析问题,可能会按照主题 采用数据集市的方式对数据进行进一步的组织。所以在中央数据仓库的基础之上 根据分析需求会创建相应的从属的数据集市。从属数据集市的数据直接来自于中 央数据仓库。采用这种方式,可以保持整体数据的一致性。为一些访问数据仓库 十分频繁的关键业务部门建立从属数据集市,可以较好的提高查询的反映速度。
数据集市的设计原则一般会考虑业务部门的使用需要,建立的数据技术也是 部门级的。
5、如图1中(5)所示,通过各种访问方式展现分析结果。
经营分析系统的数据访问层的主要功能是使操作使用人员通过报表和图形的 方式,简便、快捷地访问经营分析系统中的各种数据并进行各种分析预测操作。 数据访问层提供多种数据加工展现方法,包括预定义报表、即席查询、多维动态 分析和数据挖掘。
预定义报表,是一种经营分析人员在使用系统的过程中,根据需求和有关分 析结果进行预定义后、格式内容相对固定的报表。
即席查询的内容可由经营分析系统使用人员自由定义,允许使用者控制数据 的访问方法,并对查询结果提供多种可选择的展现方式。即席查询提供一个基于 服务器的业务逻辑和数据库结构的映射层,使经营分析系统使用人员透过该映射 层实现对数据的即席查询和分析,映射层管理模完成查询管理工作,即席查询 体系结构如图4所示。
多维动态分析是基于多维数据模型的分析方法,用于支持复杂的分析和预测, 包括趋势分析、What-if(与原因和影响分析不同,what if分析是观察在人为指 定改变条件时,结果的变化情况,以便预测为了达到目标,最佳条件组合是什么) 分析等。
OLAP(On-Line Analytical Processing-联机分析处理)是经营分析系统本 阶段建设的主要目标之一。
联机分析处理是针对特定的分析主题,设计多种可能的观察形式,设计相应 的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模 型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测工作。
OLAP的分类:按照存储方式来分,OLAP可以分成MOLAP以及ROLAP:
MOLAP(Multi-Dimension OLAP-多维联机分析处理):将OLAP分析所需的数 据存放在多维数据库中。一个分析主题的数据形成一个或多个多维立方体。
ROLAP(Relational OLAP-关系联机分析处理):将OLAP分析所需的数据存放 在关系型数据库中。一个分析主题的数据以“事实表-维表”的星型模式组织。
经营分析系统可以采用MOLAP与ROLAP两种方式,实施时根据具体应用的数据 量规模、相应要求、数据组织特点来决定。
OLAP的基本分析方式包括如下几种:切片:在某个维度上取固定点,分析其 他维度;钻取:在某个维度的层次结构中,进入下一细节级做分析;旋转:掉换 OLAP分析的维度。
系统OLAP的结构如图5所示,在经营分析系统的数据仓库内,数据以“数据 仓库主题”的形式进行组织。根据河北移动业务的需求,数据可以分成8大主题: 客户主题,资源主题,账务主题,营销主题,服务使用主题,结算主题,客服主 题,服务主题。每个主题由多个实体组成,例如,服务主题有服务实体、产品 实体、资费和优惠政策实体等等。这些实体根据业务规则和业务结构相互联系。
OLAP分析一盘包括3个步骤:确定分析的目标和维度→构造分析模型→前端 分析与展现
第一步,确定分析的目标和维度
对业务进行OLAP分析,首先应确定分析的目标,然后提出分析的维度和指标。
以收益分析中的收入总量分析为例,目标定为“分析不同的地区、时间、移动 业务种类对业务收入总量的影响”。在确定分析的目标之后,分析的指标以及 分析的维度基本确定。在上一例中,分析的指标就是收入总量;分析的维度有三 个,分别是地区,时间,移动业务种类。分析的维度需要根据实际需求进行细分。
第二步,构造分析模型
OLAP的分析模型可以分为逻辑模型和物理模型。
逻辑模型主要采用星型模式。星型模式由事实表和维表构成。事实表存放了需 要分析的细节数据,维表存放了各分析维度的属性。
物理模型指的是OLAP的存储方式,以星型模式存放在关系型数据库中或构建 Cube(多维立方体数据集)等。
第三步,前端分析与展现
针对一个具体的OLAP分析应用,在完成分析模型的构造之后,应相应地配置 前端展现工具。
对于Web访问方式,根据需要将有关内容加入OLAP Server中,另外对Web Server作相应的配置;对于传统客户端访问方式,需要对客户端软件作相应的配 置。
完成配置工作后,用户可以针对相应主题进行各种分析操作。前端工具应 提供多种图形、表格的展示方式。
数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行 探索,揭示隐藏其中的规律,并将其模型化,指导并应用于实际的企业经营中。 数据挖掘体系结构如图6所示。数据挖掘同数据仓库和数据集市及其应用结合的 流程,可以首先基于确定的业务问题和目标,由专业的数据挖掘分析人员通过数 据挖掘工具对数据仓库(或在由此进行数据再组织而生成的数据集市)挖掘找出 规律,生成模型,再把这个模型应用于相关数据仓库(或数据集市)中的数据, 进而生成报表等,供数据挖掘结果应用人员访问和应用数据挖掘所产生的各类结 果,以了解业务和客户状况。在经营分析系统中,不同的实际问题所采用的数据 挖掘方法不同,数据挖掘的方法一般分为预测型和描述型,其中,预测型 (Predictive)方法包括分类(Classification)/决策树算法(Decision Tree)、 回归分析、时间序列分析(Time Series);描述型(Descriptive)方法包括关 联分析(Association Analysis)、序列关联分析(Sequential Analysis)、聚 类分析(Clustering)。数据挖掘与OLAP分析、预定义报表和即席查询等有很大 的区别。后三者通常是用户对所关心的业务指标,按照已知的角度进行分析;而 前者则是在业务问题和目标明确,但考察的角度不清楚时,对数据进行探索,揭 示隐藏其中的规律性,进而将其模型化。数据挖掘是一个循环往复的过程,通常 涉及数据的选择、数据的变换,建立模型,评估、解释模型,运用和巩固模型等 步骤。数据挖掘过程如图7所示。
数据访问层应提供一个统一的门户入口和界面,实现预定义报表、即席查询 和多维动态分析的无缝连接,并提供集成化的认证、信息发布和管理环境,使经 营分析系统使用人员无需关心具体的技术实现途径,即可实现对经营分析系统数 据的访问和分析。同时门户站点还可根据不同分析和决策人员的需求,对所需的 访问和分析内容进行方便、简捷的定制,以满足个性化信息服务的需求。
6、为确保系统的正常运行设定各种流程化的控制。
1)自动作业调度监控
经营分析系统的管理工作会包括大量周期性、需自动完成的工作。管理平台 应包括自动作业调度系统,系统可按指定的时间周期自动执行相应的作业,以减 轻系统管理员的工作负担。
调度的作业包括对关系数据库、多维数据库和操作系统进行的各种操作,如 数据抽取/转换/装载、数据备份等。系统监控的事件被触发时,可自动调度指定 的作业进行处理。增加对自动调度事件执行情况的监控。
经营分析系统的规模庞大,需要一个全面的安全管理,要考虑网络中所有安 全薄弱环节的保护,同时要顾及安全策略的集中实现。
2)网络安全管理
经营分析系统满足如下安全功能:
a)通过防火墙等措施对进入内部网络的数据包进行扫描过滤,能够根据用户、 IP地址、访问类型等方式进行访问规则限制,能够对常见的入侵行为进行判断并 阻止。
B)提供地址翻译功能,屏蔽网络内部细节,防止外部黑客利用IP探测技术发 现内部网络结构和服务器真实地址,从而实现有针对性的攻击。
C)能够对网络通讯进行监控,及时发现任何来自于网络内部或外部的黑客入 侵或可疑的访问行为,并做到及时报警与阻断。
D)做到对各子网间或远程用户传输中的数据进行安全保护,利用加密等方式 保证数据不被非法截获,并提供用户身份认证、授权等功能。
3)系统备份恢复管理
在一个大型数据仓库系统中,除了需要功能强大的服务器和可靠的磁盘存储 系统外,往往还需要大容量的磁带库设备,以便定期地对系统进行备份。
对于备份/恢复系统主要考虑以下方面:制定完备的备份和恢复策略;充分了 解数据仓库系统中业务数据的数据容量;充分了解数据更新的频度和流程;选择 高性能、高可靠性的备份和恢复系统。
a)备份策略
在进行备份之前,首先要选择备份策略,这将决定何时需要进行备份,以及 出现故障时恢复的方式。通常使用的备份方式有三种:完全备份、增量备份和更 新备份。
完全备份:每隔一定时间就对系统进行一次全面的备份,这样在备份间隔期 间出现数据丢失等问题,可以使用上一次的备份数据恢复到前次备份时情况。这 是最基本的备份方式,但是每次都需要备份所有的数据,并且每次备份的工作量 也很大,需要太多的备份介质,因此这种备份不能进行的太频繁,只能每隔一段 较长时间才进行一次完整的备份。
增量备份:首先进行一次完全备份,然后每隔一个较短时间进行一次备份, 但仅仅备份在这个期间更改的内容。当经过一个较长的时间后再重新进行一次完 全备份,开始前面的循环过程。由于只有每个备份周期的第一次进行完全备份, 其他只进行改变的文件的备份,因此工作量小,就能够进行更频繁的备份。
更新备份:这种备份方法与增量备份相似,首先每月进行一次完全备份,然 后每天进行一次更新数据的备份。但不同在于,增量备份是备份该天更改的数据, 而更新备份是备份从上次进行完全备份后更改的全部数据文件。一旦发生数据丢 失,可以使用前一个完全备份恢复到前一个月的状态,再使用前一个更新备份恢 复到前一天的情况。这样做的缺点是每次作小备份工作的任务比增量备份的工作 量要大,但好处在于,增量备份每天都有备份,因此要保存数据备份数量太多, 而更新备份则不然,只需保存一个完全备份和一个更新备份就可以恢复故障以前 的状态。另外在进行恢复工作时,增量备份要顺序进行多次备份的恢复,而更新 备份只需两次恢复,因此它的恢复工作相对简单。
系统应有良好的备份策略和恢复计划。系统数据和业务数据可联机备份、联机 恢复,恢复的数据必须保持其完整性和一致性。
b)数据级备份
数据级备份主要指数据仓库系统中河北移动的业务数据的备份。移动的主要 数据包括客户资料、详单信息、综合帐单信息、客户服务信息、市场营销信息、 缴费/欠费信息、网管信息等。
数据级备份是数据备份和恢复系统中需要重点规划的部分。河北移动的数据 量非常巨大,几个月的详单信息就可能上TB级,以此在选择数据备份策略的过程 中,充分考虑数据量的因素,保证数据备份的速度和频度可以在规定的要求上顺 利完成。
c)系统级备份
系统级备份可以避免意想不到的系统数据丢失,尤其在系统数据非常重要的 时候。经常进行数据备份能够减少偶然破坏造成的损失,保证系统能够从错误中 恢复正常运行。
系统备份主要包括数据库备份、应用程序备份,ETL数据加载系统程序以及其 他相关数据的备份。
如图3所示,本决策支持系统的硬件组成如下:
数据仓库服务器:数据仓库服务器硬件配置为5350×12节点,每节点4GB内 存,84×36GB硬盘(6841-2456),共63AMPs。操作系统为NCR UNIX MP-RAS 3.02, 数据库为Teradata V2R5.1,6466带库,20×LTO带机,500slots。
数据仓库系统管理工作站:这部服务器带有2个Pentium 4 1.26GHz的Intel CPU,带有2G内存,这部服务器连接内部磁盘子系统,硬盘子系统具有2个18GB 磁盘驱动器,合计磁盘原始容量是36GB。
该服务器运行Windows 2000 server操作系统和AWS Console Software管理 工作站软件,执行对中央数据仓库系统(数据仓库服务器和磁盘阵列系统)的管 理功能。
ETL服务器:ETL服务器一共有两台,这两台服务器均是IBM xSeries 360,每 台服务器带有4个Intel Xeon 1.5G CPU,4G内存,硬盘子系统具备2*36G硬盘, 合计硬盘原始容量是72G。
由于与计费系统连接的需要,特设置二台接口机。采用IBM xSeries 345,带 有1CPU/512M RAM。
ETL服务器上运行Microsoft Windows 2000 Advanced Server操作系统和ETL Automation数据加载管理软件。负责加载来自计费话单、营帐数据、大客户数据、 1860客服数据的数据
OLAP服务器:OLAP服务器一共有两台,这两台服务器均是IBM xSeries 360, 每台服务器带有4个Intel Xeon 1.5G CPU,4G内存,硬盘子系统具备2*36G硬 盘,合计硬盘原始容量是72G。
两台服务器均安装Microsoft Windows 2000 Advanced Server操作系统和 Microsoft Analysis Server多维分析服务器软件,还安装了ETL Automation数 据加载管理软件。这两台服务器主要是负责Microsoft OLAP Server应用的CUBE 的每日更新工作,管理从数据仓库中的数据生成的多维分析立方体文件。同时运 行ETL Automation,用ETL Automation负责自动调度运行Microsoft OLAP Server 的更新作业,维护Microsoft OLAP Server作业的调度。
WEB服务器:这部服务器是IBM xSeries 360,服务器带有4个Intel Xeon 1.5G CPU,4G内存,硬盘子系统具备2*36G硬盘,合计每台硬盘原始容量是72G。
服务器安装Microsoft Windows 2000 Server操作系统和Cognos多维分析服 务器Upfront Web Server软件和BEA Weblogic,服务器主要是负责Microsoft OLAP 应用的前台展现和河北移动业务人员的WEB浏览。
DM数据挖掘服务器:数据挖掘服务器是IBM pSeries 630 Unix小型机,服务 器带有2-Way/Power4/1.0GHz,4G内存,硬盘子系统具备2*36G硬盘,合计 每台硬盘原始容量是72G。
服务器安装AIX 5.1操作系统和SAS Data Mining数据挖掘软件。服务器主要 是负责数据挖掘应用。
应用服务器存储:存储内容包括ETL存储、OLAP存储、和数据挖掘存储,这 三部分存储共享3T容量的EMC C400磁盘阵列,通过SAN方式连接。存储采用的 RAID5方式进行磁盘容错管理,则ETL存储实有容量800G,OLAP存储实有容量800G, 数据挖掘690G。
系统安全及管理服务器:这两部服务器都是IBM xSeries 345,服务器带有1 个Intel Xeon 2.4G CPU,1G内存,硬盘子系统具备2*36G硬盘,合计每台硬盘 原始容量是72G。
服务器安装Microsoft Windows 2000 Server操作系统和系统安全管理软件, 提供对经营分析系统的综合安全保护。包括病毒和恶意代码防护、访问控制、用 户集中管理、入侵检测、综合目录管理等全面的主机保护。
如图3所示,系统硬件之间的物理连接如下:
在电信业的数据仓库系统中,它的数据流量巨大,可靠性要求高,在此发明 中,采用了先进的局域网技术,以两台千兆以太网交换机作为核心,组建一个以 IP技术为核心的高速的、无阻塞的、全交换的高速数据传输网络,并利用冗余的 物理连接提供高可靠的网络环境。
在数据仓库系统和其他源系统之间通过MDCN网络进行连接。
以河北移动目前的数据仓库系统为例,共有12个数据仓库节点,13台配套应 用服务器,各个应用服务器和数据仓库系统通过到交换机的双星形结构进行连接, 其中任何一条链路断开和任何一台中心交换机故障都不会影响系统的正常工作。
这12个数据仓库节点运行数据仓库服务器,以MPP(大规模并行处理技术) 的方式组织起来,每个节点分别用千兆光纤和千兆6类双绞线连接到两台CISCO 4506交换机;两台ETL加载服务器是IBM x360和x445,向数据仓库加载源系统 提供的数据,一台数据导出和上传服务器是IBM x360,它们都运行ETL(数据抽 取、转换、加载)服务,通过千兆光纤连接到交换机;两台OLAP(在线联机分析) 服务器是IBM x445,运行多维分析服务,通过千兆光纤连接到交换机;两台WEB 服务器是IBM x360,组成集群,提供页面和报表展示,运行WEB服务和展示服务, 通过千兆光纤连接到交换机;一台PORTAL(门户)服务器是IBM x360,提供页面 相关数据的存储,运行门户相关的数据库服务,通过千兆光纤连接到交换机;一 台数据挖掘主机IBM p630,运行数据挖掘分析软件,通过千兆光纤连接到交换机; 另外还有域服务器和安全管理服务器,它们都通过百兆双绞线连接到交换机。
系统的软件组成如下:
数据仓库服务器:操作系统:NCR UNIX MP-RAS 3.02;数据库系统:NCR Teradata 海量并行处理数据库系统。
系统管理工作站:工作站类型:NCR 4470数据仓库系统管理工作站;操作系 统:Windows 2000 Server;工作站管理软件。
ETL服务器:操作系统:Windows 2000 Advanced Server;数据库系统:NCR Teradata海量并行处理数据库管理系统;工具:NCR Teradata公用程序。
OLAP服务器:操作系统:Windows 2000 Advanced Server;工具:Microsoft Analysis server;工具:ETL Automation数据加载服务器版本。
WEB服务器:操作系统:Windows 2000 Advanced Server;工具:Cognos的 Web版本与BEA Weblogic(Web Server);工具:ETL Automation数据加载服务器 版本
DM数据挖掘服务器:操作系统:AIX 5.1;工具:SAS Data Mining数据挖掘 软件。
系统安全及管理服务器:操作系统:Windows 2000 Advanced Server;工具: 系统安全管理软件。
其它客户端软件:NCR Teradata Manager数据库管理工具;CA ERWin建模工 具,这些工具能从任何Windows 95/98/NT/2000工作站来执行。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈