首页 / 专利库 / 软件 / 软件 / 基于软件过程时序数据自动挖掘的多步预测方法和系统

基于软件过程时序数据自动挖掘的多步预测方法和系统

阅读:2发布:2020-08-08

专利汇可以提供基于软件过程时序数据自动挖掘的多步预测方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 软件 过程时序数据自动挖掘的多步预测方法和系统,所述方法为对软件过程时序数据采用自回归求和移动平均的方法进行时序数据建模,然后将传统的参数估计问题转换为一种基于 最小均方误差 估计的最优化约束求解问题,进而基于约束求解优化问题的求解结果进行软件过程时序数据多步预测;所述系统为三层架构模式,包括 访问 界 面层 、时序数据分析层、软件过程 数据库 三层结构;本发明提供了对软件过程的不同层次时序数据进行分析,对软件过程时序数据的趋势预测进行全面分析,有效地刻画了软件过程时序数据特性,为软件过程管理人员提供了有效的 可视化 的量化决策辅助支持。,下面是基于软件过程时序数据自动挖掘的多步预测方法和系统专利的具体信息内容。

1.一种基于软件过程时序数据自动挖掘的多步预测方法,其步骤包括
1)调用软件过程时序数据提取器,从软件过程管理系统中自动提取软件过程时序数据;
2)对上述软件过程时序数据调用时序数据差分器进行多阶差分,直至得到稳定的软件过 程时序数据,并记录此时的差分阶数;
3)调用自回归阶数识别器和移动平均阶数识别器计算软件过程时序数据的自回归阶数 和移动平均阶数;
4)调用参数估计器,采用基于确保最小均方误差的参数估计方法估计自回归系数和移动 平均系数;
5)根据上述差分阶数,自回归阶数,移动平均阶数,自回归系数和移动平均系数得到该 软件过程时序数据的ARIMAmmse模型;
6)根据上述模型得到该软件过程时序数据的多步预测值。
2.如权利要求1所述的方法,其特征在于将从软件过程管理系统中提取的软件过程数据做取 对数操作,得到归一化的软件过程时序数据。
3.如权利要求1所述的方法,其特征在于采用游程检验方法对软件过程时序数据的稳定性进 行判断。
4.如权利要求1所述的方法,其特征在于所述软件过程时序数据取自个体软件过程时序数据 库,小组软件过程时序数据库,或组织软件过程时序数据库。
5.一种基于软件过程时序数据自动挖掘的多步预测系统,包括数据分析层和软件过程时序 数据库层,其特征在于
所述软件过程时序数据库存储软件过程管理系统的软件过程时序数据;
所述数据分析层包括
一软件过程时序数据提取器,用于从所述软件过程时序数据库提取软件过程时序数据;
一软件过程时序数据稳定性分析器,用于判断软件过程时序数据的稳定性;
一软件过程时序数据差分器,用于对软件过程时序数据进行多阶差分,直至稳定性分析 器判定差分后的软件过程时序数据稳定;
一自回归阶数识别器,用于识别软件过程时序数据的自回归阶数;
一移动平均阶数识别器,用于识别软件过程时序数据的移动平均阶数;
一参数估计器,用于采用确保最小均方误差的参数估计方法估计软件过程时序数据的自 回归系数和移动平均系数;
一软件过程时序数据趋势分析器,用于根据ARIMAmmse模型计算时序数据的多步预测 值。
6.如权利要求5所述的系统,其特征在于还包括一访问面层,包括
一软件过程时序数据流览界面,用于显示提取的软件过程时数据;
一软件过程时序数据输入界面,用于输入软件过程时序数据;
一软件过程时序数据更新界面,用于修改软件过程时序数据;
一软件过程时序数据删除界面,用于删除软件过程时序数据;
一软件过程时序数据趋势预测界面,用于显示软件过程时序数据的多步预测值;
一软件过程时序数据相关性/自相关性分析界面,用于对偏自相关图/自相关图进行分 析。
7.如权利要求5所述的系统,其特征在于所述软件过程时序数据库选自个体软件过程时序数 据库,小组软件过程时序数据库或组织软件过程时序数据库。

说明书全文

技术领域

发明涉及一种对存储在软件过程管理系统中的时间序列数据的处理方法和系统, 特别涉及一种基于软件过程时序数据自动挖掘的多步预测方法和系统,属于计算机软件 工程领域。

背景技术

随着科学技术的日益发展,软件产品已经被广泛地应用在人类社会的各个方面,如 行,保险,建筑工程,贸易,通讯,娱乐,教育,交通运输等等。人们的日常生活越 来越多的依赖于各种含有软件的电子设备。然而,随着计算机技术的发展,应用软件变 得越来越复杂,更加难以开发和维护。软件产品存在缺陷几乎成为不可避免的事实,而 这些缺陷又往往对人们的生活甚至生命安全造成严重的危害。因而,越来越多的研究人 员和工程人员投身到如何提高软件产品质量的研究和实践之中,量化软件过程管理和改 进近年来得到研究和工业界增强的关注,并日渐成为科学化和精确化地进行现代软件过 程管理的主要手段。
软件过程通常被定义为“设计、开发、应用和维护软件产品的一组相互关联的活动、 方针、组织结构、技术方法、规程以及工作产品。它定义了对软件开发进行组织、管理、 度量、支持和改进的途径”。量化软件过程管理技术的一个重要软件支撑平台是软件过程管 理系统(尤其是以过程为中心的软件工程环境”(Process-Centered Software Process Engineering Environment,PSEE))。该系统是为实施软件开发活动提供自动化支持的软件系统,是软件组织 执行软件过程管理活动的核心工具。现有的研究人员开发了大量的软件过程管理系统,例如: 非商业化的原型系统如Adele-Tempo,ALF,Arcadia,CSPL,E3,EPOS,MARVEL,MERLIN, OIKOS,Oz,PEACE,PADM,SPADE,SOCCA等等,也有一些商业化的软件过程管理系 统,如:IPSE 2.5,Process Wise,Syner Vision,Process Weaver,以及中科院软件研究所的软 件过程管理系统SoftPM等。定量化、规模化、过程化和可控制的软件过程生产的首要前 提是基于现有的软件过程管理平台对软件过程的准确度量,分析和控制,进而使管理者 能够洞察产品开发过程,掌握项目的进度、开销、产品质量状态等,使整个项目的开发 过程处于受控状态,为管理者制定决策提供可量化的依据。另一方面,软件过程固有的 随时间不断动态演变的特性使得软件过程管理系统中积累了众多的软件过程时序数据。 这些软件过程时序数据中蕴含了大量有关软件过程的诸如发展趋势,周期和模式等能对 软件过程管理量化决策提供准确和有效帮助的辅助决策信息,如何有效地对软件过程管 理系统中的这些软件时序数据进行分析是量化软件过程管理平台研究中的一个关键问 题。
然而软件过程本身具有动态性,不确定性和知识密集型等特征,这些特征使得软件 过程时序数据的建模和分析面临诸多困难。最典型的问题表现在:(1)软件过程的动态 多变性使得存储在软件过程管理平台中的时序数据结构复杂,从而要求时序数据模型结 构具有较强的建模能;(2)软件组织所承揽的软件项目通常都是不重复的工作,这与 制造业批量重复的生产有很大不同。对于软件过程管理系统中的不同的软件项目,由于 其涉及的软件技术、应用领域、用户要求以及商业环境不同,其软件开发的过程不尽相 同,甚至于完全不同。针对每一个软件项目的开发和生产,都有可能要求相关的软件过 程进行必要的变化和调整,软件过程的变更比传统的制造业过程频度更高。从而,软件 过程产生的时序数据的模式具有较大的差异性,模式结构多样性(线性结构和非线性结 构),这就对相应的软件过程管理系统中的时间序列的建模方法和系统的适应性提出了要 求。(3)由于软件更新速度很快并且软件过程的主要执行者是人,软件过程管理平台中 的软件过程时序数据通常样本较小,而稳定的时序数据更少:相对于传统的工业过程中 的生产设备产生的时序数据,由软件过程开发人员,团队和组织产生的存储于软件过程 管理系统中的软件过程时序数据具有小样本,采集频度相对较低(一般为人月,人时, 在PSP更细粒度等级推荐为分钟,而制造过程的时序数据甚至可得到秒级),缺失数据造 成的不确定性等特点。
由于软件过程具有对人员的严重依赖特性,已知的对软件过程管理系统存储的软件 过程时序数据的分析方法主要采用的方案为:软件过程实施人员手工收集过程执行数据, 进而分析表格绘制出的趋势图以便分析过程数据的趋势,周期等特性。这些方法在实际 应用时存在两个主要问题:(1)时间序列模型结构复杂,难以解释,这种依赖于人员经 验的手工分析方法,难以适应软件过程数据的复杂性,以及分析的直观性和客观性需求; (2)模型的参数估计不能保证最小均方误差。(3)缺乏一种客观的自动化的从软件过程 管理系统中的时序数据进行多步预测的方法。

发明内容

本发明的目的是针对上述问题,充分利用自回归求和移动平均及最小均方误差估计方法 在软件过程时序数据分析中的优势,提供一种对软件过程管理系统的时序数据库中的时序 数据进行挖掘以进行多步预测的方法和系统,针对系统中软件过程时序数据的特点实现 软件过程的量化自动化分析和监控。发明构思为:所述方法从软件过程管理系统的时序 数据库自动提取软件过程时序数据,对软件过程时序数据采用自回归求和移动平均的方 法建立时序数据的自回归求和移动平均(ARIMA)模型,然后将ARIMA参数估计建模成 一种确保最小均方误差估计的最优化约束求解问题,进而求解该优化问题,将该约束求 解优化问题求解出的参数结果代入ARIMA模型,得到ARIMAmmse模型,然后利用所 建立的ARIMAmmse模型进行软件过程时序数据的周期,趋势和异常等特性分析。所述 的系统根据所提供的方法实现了从软件过程管理系统中自动提取软件过程时序数据,基 于自回归求和移动平均的时序数据建模,基于最小均方误差的参数估计,对软件过程时 序数据的趋势等特性的分析,为量化软件过程管理提供了决策支持。
为实现上述发明目的,基于软件过程时序数据自动挖掘的多步预测系统采用下述的 技术方案:
一种基于软件过程时序数据自动挖掘的多步预测系统,包括数据分析层和软件过程 时序数据库层,其特征在于
所述软件过程时序数据库存储软件过程管理系统的软件过程时序数据;
所述数据分析层包括
一软件过程时序数据提取器,用于自动从所述软件过程时序数据库提取软件过程时 序数据;
一软件过程时序数据稳定性分析器,用于判断软件过程时序数据的稳定性;
一软件过程时序数据差分器,用于对软件过程时序数据进行多阶差分,直至稳定性 分析器判定差分后的软件过程时序数据稳定;
一自回归阶数识别器,用于识别软件过程时序数据的自回归阶数;
一移动平均阶数识别器,用于识别软件过程时序数据的移动平均阶数;
一参数估计器,用于采用基于确保最小均方误差的参数估计方法估计软件过程时序 数据的自回归系数和移动平均系数;
一时序数据趋势分析器,用于根据ARIMAmmse模型计算时序数据的多步预测值。
所述系统还包括一访问面层,包括
一软件过程时序数据流览界面,用于显示提取的软件过程时数据;
一软件过程时序数据输入界面,用于输入软件过程时序数据;
一软件过程时序数据更新界面,用于修改软件过程时序数据;
一软件过程时序数据删除界面,用于删除软件过程时序数据;
一软件过程时序数据趋势预测界面,用于显示软件过程时序数据的多步预测值;
一软件过程时序数据相关性/自相关性分析界面,用于对偏自相关图/自相关图进行分 析。
所述软件过程时序数据库选自个体软件过程时序数据库,小组软件过程时序数据库 或组织软件过程时序数据库。
一种基于软件过程时序数据自动挖掘的多步预测方法,其步骤包括
1)调用软件过程时序数据提取器,从软件过程管理系统中提取软件过程时序数据;
2)调用软件过程时序数据差分器,对从步骤1)中得到的软件过程时序数据进行多 阶差分,直至得到稳定的软件过程时序数据,并记录此时的差分阶数;
3)调用自回归阶数识别器和移动平均阶数识别器,识别软件过程时序数据的自回归 阶数和移动平均阶数;
4)调用参数估计器,采用基于确保最小均方误差的参数估计方法估计自回归系数和 移动平均系数;
5)根据上述差分阶数,自回归阶数,移动平均阶数,自回归系数和移动平均系数得 到该软件过程时序数据的ARIMAmmse模型;
6)根据上述模型得到该软件过程时序数据的多步预测值。
所述的方法对从软件过程管理系统中提取的软件过程数据做取对数操作,得到归一 化的软件过程时序数据。
所述的方法采用游程检验方法对软件过程时序数据的稳定性进行判断。
所述软件过程时序数据取自个体软件过程时序数据库,小组软件过程时序数据库, 或组织软件过程时序数据库。
本发明的技术效果在于:(1)在数据层,融合现代软件过程全面质量管理的理念, 对软件过程的不同层次(个体软件过程(PSP),小组软件过程(TSP),组织软件过程(CMM)) 时序数据进行分析;(2)对软件过程时序数据的趋势预测进行全面分析;(3)采用 的自回归求和移动平均及最小均方误差的时序数据分析方法能有效刻画软件过程时序数 据特性;(4)自动和图表化的时序数据趋势和周期显示和预测功能,为软件过程管理人 员提供了有效的可视化的量化决策辅助支持。
附图说明
图1本发明系统结构示意图;
图2本发明方法流程图
图3软件过程时序分析用户使用图;
图4自回归系数图;
图5预测结果的趋势图。

具体实施方式

下面结合附图,以针对个体软件过程层面(如图1)的软件过程生产率时序数据的分 析为实例,对本发明作进一步的说明,但不构成对本发明的限制。
一种基于软件过程时序数据自动挖掘的多步预测系统,其采用当前流行的三层架构模 式,具体实现如图1所示,其主要包括访问界面层、时序数据分析层、软件过程数据库 三层结构。其中所述访问界面层主要实现了对用户的输入和向用户输出的处理;其中所 述时序数据分析层主要负责处理整个系统的业务逻辑;其中所述的软件过程数据库层主 要负责软件过程管理系统中软件过程任务相关的数据存储和检索。所采用的访问界面层/ 时序数据分析层/软件过程数据库三层结构将整个系统的表现层和业务逻辑进行合理划 分,保障了系统较强的可扩展性和重用性,具体实现包括:
A.访问界面层包括时序数据维护界面区和时序数据分析结果界面区两大功能区。 时序数据维护界面区主要实现了对时间序列数据的维护(包括浏览,输入,更新和删除 等操作)。时序数据分析结果界面区主要实现了时序分析结果的展示(包括趋势预测结果, 相关性/自相关性分析等)。
其中时序数据维护界面区包括:
A1:软件过程时序数据浏览界面;
A2:软件过程时序数据输入界面;
A3:软件过程时序数据更新界面;
A4:软件过程时序数据删除界面;
时序数据分析结果界面区包括:
A5:软件过程时序数据趋势预测界面;
A6:软件过程时序数据相关性/自相关性分析界面。该界面对偏自相关图/自相关图进 行分析。
B.时序数据分析层。包括,软件过程时序数据提取器,时序数据稳定性分析器,时 序数据差分器,自回归阶数识别器,移动平均阶数识别器、参数估计器、时序数据趋势分 析器。
所述时序数据分析层的功能模分别包含如下功能:
B1软件过程时序数据提取器,本提取器从软件过程管理系统的数据库中自动提取时 序数据。提取的数据包括但不限于数据库中的时间,生产率,缺陷数等字段存储的数据。 其中时间字段是必须提取的字段。
B2时序数据稳定性分析器,其中时序数据稳定性规则为:“提取软件过程样本数据, 判断其顺序没有明显的趋势,则该数据为平稳的,否则为非稳定的”。分析器为本层其它分 析器提供了经稳定性加工过滤后的时序数据。本分析器采用一种游程检验算法来判断软 件过程时间序列的稳定性。
定义1软件过程时序数据X={x(1),x(2),...,x(t),...,x(n)}。
定义2 为X的均值。
定义3N1为X中 x i x 的总数。
定义4N2为X中 x x i 的总数。
定义5r为游程数。
所采用的游程检验算法的基本思想:为对于显著平α=0.05的双边检验,查询现有的 游程概率分布表为α/2=0.25时的上限ru和rl。如果r在界限内,则接受原假设,否则拒绝原 假设。
B3.时序数据差分器。该模块利用Box-Jennis提出的差分算法,将输入的软件过程时 间序列数据进行差分运算并识别出时序数据的差分阶数d。所采用的Box-Jennis的差分 算法伪码描述所下示。
算法:时序数据差分算法
输入:软件过程时序数据X={x(1),x(2),...,x(t),...,x(n))。
输出:差分后时序数据Y={y(1),y(2),...,y(t),...,y(n-1))
1.For i=1 to(n-1)do
2.Y(i)=x(i+1)-x(i);
3.End For
4.Return Y.
定义6Δ是前向差分算子,Δy(t)=y(t+1)-y(t)。用Δ作为本时序差分器的数学表达。
本差分器在每次差分后分析自回归系数图(如图4)并计算和判定出即将建立的时序数据 模型的差分阶数。差分阶数d的识别算法规则包括:
规则1自回归系数显著地降低到0的阶数为差分阶数d。
规则2如果时间序列1阶自回归系数小于或等于0,对该序列进行更高一阶差分,差分 阶数d加1。
规则3自回归系数的最优阶数d=标准偏差取最小值。
B4自回归阶数识别器。本识别器采用自回归阶数(P)识别算法识别时序数据的自 回归系数。自回归阶数p的识别算法的规则包括:
规则4如果时间序列的偏自相关图表现出一个尖锐突变或者1阶自相关系数为正,则 p+1。
规则5偏自相关图突变时,停止循环增加p,返回当前计数p值(自回归项数)。
B5移动平均阶数识别器。本识别器调用移动平均阶数(q)识别算法识别移动平均阶 数。移动平均阶数模块识别q的算法规则包括:
规则6如果时间序列的自相关图表现出一个尖锐突变或者1阶自相关系数为负,则 q+1;
规则7自相关图突变时,停止循环增加q,返回当前计数q值(移动平均项数)。
B6参数估计器。本估计器采用自回归求和移动平均和确保最小均方误差的算法估算所 建立的ARIMA模型(模型具体结构参见书籍:George E.P.Box etc,Time Series Analysis: Forecasting and Control 2nd ed.San Francisco,CA:Holden-Day,1970.)的自回归参数{φ1, φ2,...,φp}和移动平均参数{θ1,θ2,...,θq},将上述参数带入ARIMA模型后得到自回归求和 移动平均和确保最小均方误差模型(ARIMAmmse)。ARIMAmmse模型所用算法的基本思想 为:由于本发明的目的是保持预测结果取得最小均方误差,故本算法将对所建立的ARIMA 模型(Φp(B)Δdy(t)=θq(B)α(t))进行参数估计的问题建模为一个基于最小均方误差 (MMSE)的约束优化问题。核心是将最小均方误差(MMSE)作为约束优化模型的一 个目标函数,而将已建立的ARIMA模型作为约束优化模型的一个约束,进而通过求解 约束优化问题得到ARIMA的参数。由于该问题是以MMSE作为优化目标,从而求解出 的ARIMA的参数必然满足了最小均方误差这个目标。确保最小均方误差的参数估计约 束优化求解为:
min v = ( Σ t = 1 T [ A ( t ) - avg ] 2 ) / ( T - 1 )
s . t . A ( t ) = y ( t ) - y ( t ) avg = ( Σ t = 1 T A ( t ) ) / T y ( t ) = Σ i = 1 p φ i y ( t - i ) + Σ j = 1 q θ j α ( t - j ) .
其中v指代最小均方误。优化目标为最小化v. y ( t ) = Σ i = 1 p φ i y ( t - i ) + Σ j = 1 q θ j α ( t-j ) 是所 建立的ARIMA模型,是一个约束条件。y′(t)指代对软件生产率y(t)的预测值。avg指代预 测误差的均值。α′(t)是对白噪音的估计值。利用最小均方误差(MMSE)对ARIMA模型进 行求解得到自回归参数{φ1,φ2,...,φp}和移动平均参数{θ1,θ2,...,θq}。
B7时序数据趋势分析器。时序数据趋势分析器调用时序趋势分析算法进行软件过程时 序数据的趋势分析。时序趋势分析算法的基本步骤包括:
(1)调用用自回归阶数识别器识别出时序数据的自回归阶数p;
(2)调用移动平均阶数识别器识别出时序数据的移动平均阶数q。
(3)基于所计算出的差分阶数d,自回归阶数p,移动平均阶数q,建立起时序数据 的自回归求和移动平均(ARIMA)模型:Φp(B)Δdy(t)=θq(B)α(t),其中 Φp=1-φ1B-φ2B2-...-φpBp,Θq=1-θ1B-θ2B2-...-θqBq,Δdy(t)=w(t),w(t)=y(t)-y(t-1)。B 是后向偏移算子,Bw(t)=w(t-1),Δ是前向差分,Φp(θq)是第p(q)阶的系数。
(4)再次扫描时序数据Y,调用参数估计器对自回归系数和移动平均系数进行估计。
(5)在参数估计器完成参数估计后,本分析器成功建立了时序数据Y的ARIMAmmse 模型并可以用于多步预测。本分析器此时调用原始的时序数据和所建立的Φp(B) Δdy(t)=θq(B)α(t)时序模型预测未来的多步值。
C.软件过程数据库层。该层主要包括软件过程个体层次数据,软件过程小组层次数 据以及软件过程组织层次数据。其中,所述软件过程数据库层的三个部分分别存储如下 的内容:
C1.软件过程个体层次数据库:存储软件过程中个体(如程序员,项目经理,质量 保证人员)的执行数据(如生产率、代码行,所负责任务的缺陷等)。个体层次数据库依 据个人软件过程(PSP)定制的模板和表格进行设计。
C2.软件过程小组层次数据库:存储过程中各小组(如项目组,QA组等)的执行数 据(如,小组的生产率,工作量等)。本小组层次数据库主要负责存储反映小组层次过程 执行情况的数据,参照小组软件过程(TSP)进行设计。
C3.软件过程组织层次数据库:存储软件过程中反映组织层次任务执行性能的数据 (如组织生产率,组织过程执行情况),组织层次数据库主要负责存储反映组织层次过程 项目执行情况的数据,参照能力成熟度模型(CMM)中的模板进行设计。
一种基于软件过程时序数据自动挖掘的多步预测方法,其流程(如图2)为:
S1:提取软件过程时序数据:从软件过程数据库层(C)中的个体软件过程库C1提 取出生产率时间序列X={x(1),x(2),...,x(t),...,x(n)})。所述的软件过程个体(如:程序 员)历史生产率(P)基本定义为:P=Size/Effort。其中Size是个体所负责的开发任务的 工作产品程序代码行(单位为:LOC)。Effort为个体所负责的开发任务的工作量(单位 为:人时PH)。其中x(t)为从个体软件过程数据中提取出的开发人员生产率时序数据。由 于时间序列分析技术的基本假设为数据样本满足正体分布,从而本发明系统首先采取对 时间序列数据取对数的方法以对其进行归一化处理,系统处理后得到 Y=lnX={lnx(1),lnx(2),..,lnx(t),...,lnx(n)}.所提取出的数据实例X={x(1),x(2),...,x(t),..., x(n)})如下所示:
PrN.  OBP  PrN.  OBP  1  0.5585  11  0.7578  2  0.3902  12  0.9878  3  0.8792  13  0.6566  4  0.8828  14  0.7807  5  0.8140  15  0.6544  6  0.6247  16  0.6094  7  0.7781  17  1.0588  8  0.6022  18  0.7130  9  0.8554  19  0.5100
 10  0.6347  20  0.4500
其中OBP为观察的软件生产率数据值x(t)(t=1,...,20)。
S2:识别差分阶数d。将S1得到的时序数据Y输入B3(时序数据差分器)进行多 阶差分(y’(t)=y(t)-y(t-1)),将每次得到的差分后的时序数据输入B2(时序数据稳定性分析 器)中执行稳定性判断。如果B1判定该差分序列不稳定则继续差分,否则停止差分并输 出本次的差分阶数D和当前稳定的时间序列。在输出差分阶数后,调用自回归阶数识别 器计算自回归系数,分析自回归系数图(如图4)确定当前数据稳定时的阶数作为即将建立 的时序数据模型的差分阶数。由于差分阶数的判定规则为:自回归系数显著地降低到0 的阶数为差分阶数。在本实例中图4中自回归系数在为1时显著地降为0,故差分阶数 为1。
S3:识别自回归阶数p和移动平均阶数q。调用自回归阶数识别器识别出时序数据的 自回归阶数p,然后调用移动平均阶数识别器识别出时序数据的移动平均阶数q。至此, 建立的软件过程时序数据{y(t)}(t=1,..,T)的ARIM(p,d,q)A模型为ARIMA(0,1,1):
Φp(B)Δdy(t)=θq(B)α(t),
S4:估计ARIMA模型参数。调用参数估计器,运用基于确保最小均方误差的算法来估 计参数(自回归系数和移动平均系数)。至此基于所计算出的差分阶数d,自回归阶数和 移动平均阶数,建立模型(Φp(B)Δdy(t)=θq(B)α(t))。
所建立的参数估计约束优化模型为:
min v = ( Σ t = 1 T [ A ( t ) - avg ] 2 ) / ( T - 1 )
s . t . A ( t ) - y ( t ) - y ( t ) avg = ( Σ t = 1 T A ( t ) ) / T y ( t ) = Σ i = 1 p φ i y ( t - i ) + Σ j = 1 q θ j α ( t - j ) .
其中v指代最小均方误。优化目标为最小化v. y ( t ) = Σ i = 1 p φ i y ( t - i ) + Σ j = 1 q θ j α ( t-j ) 是S3 步所建立的ARIMA模型,是一个约束条件。y′(t)指代对软件生产率y(t)的预测值。avg指 代预测误差的均值。α′(t)是对白噪音的估计值。
S5:预测软件过程时序数据未来趋势。本分析器调用时序数据趋势分析器进行时序的未 来值预测。主要功能包括调用时序数据Y=lnX={1nx(1),lnx(2),..,lnx(t),...,lnx(n)}和建立的 Φp(B)Δdy(t)=θq(B)α(t)时序模型预测出未来值y(t+1),y(t+k),k为步长为k的预测值。本实例 得到y′(t)=λy(t-1)+y′(t-1)(1-λ),基于此模型对时序数据进行单步预测。最后系统得到的预测 序列结果如下所示:
PrN. ARIMAmmse  PrN. ARIMAmmse  1  0.5586  11  0.6922
 2  0.3381  12  0.7320  3  0.3702  13  0.8868  4  0.6783  14  0.7474  5  0.8021  15  0.7676  6  0.8093  16  0.6991  7  0.6976  17  0.6448  8  0.7464  18  0.8954  9  0.6652  19  0.7832  10  0.7803  20  0.6178
其中ARIMAmmse为预测的软件生产率数值。在所发明的时序数据分析系统中的预测结 果的趋势图为图5所示。其中OBP为实际观察到的软件生产率时序数据值。ARIMAmmse 为采用本专利预测时序生产率数值。UI为该预测值的误差上区间。LI为该预测误差的误 差下区间。
上述实施例中既包含了对本发明系统的描述,本领域的技术人员应能理解,软件过 程时序数据分析的过程也包含在其中,依照本实施例,本领域的技术人员可以很容易地 实现基于自回归求和移动平均的软件生产率时序数据分析。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈