首页 / 专利库 / 企业组织 / 术语学家 / 一种基于知识发现的专家系统构造方法

一种基于知识发现的专家系统构造方法

阅读:567发布:2020-07-09

专利汇可以提供一种基于知识发现的专家系统构造方法专利检索,专利查询,专利分析的服务。并且一种基于知识发现的 专家系统 构造方法,属于 人工智能 技术领域。其核心思想是把知识发现系统视为认知系统,研究其自身的潜在规律,改变知识发现的固有流程,形成新的知识发现过程模型;然后再用创新的知识发现机理以及模型作为专家系统新的知识获取构件,从而丰富和提升了专家系统的 知识库 。新的知识库系统补充了如下知识:通过推理机制得到的知识;通过不断地从错误和失败中进行学习获取的知识。更为重要的是为专家系统增加了新的知识获取渠道:同时包含 数据库 中的知识发现和知识库中的知识发现创新机理和模型的过程模型。它对于专家系统的理论研究与实际应用具有重要意义,将有可能成为新一代专家系统发展的重要标志。,下面是一种基于知识发现的专家系统构造方法专利的具体信息内容。

1.一种基于知识发现的专家系统构造方法,包括:基于知识发现的动态知识库子系统;分级诊断、决策子系统;推理机子系统;库管理子系统;知识训练子系统;自检子系统;在线帮助子系统;其特征在于:基于知识发现的动态知识库子系统:是一个基于数据库和知识库协同机制的知识发现系统,作为不同知识层面上知识发现的结果,使得知识库从原有的由专家经验与书本知识为直接源泉的基础知识库不断产生扩充,利用在双库协同机制下形成的KDD*、合成推理、三I算法、基于相似度量的模糊推理、合情推理的推理机制以及KDK*,形成了能处理Fuzzy不确定性、随机不确定性及定性信息的具有动态扩展特征的知识库子系统;该模的功能是发现因果关联规则,并用之去修正知识库中原有的故障树、决策树与案例,以适应复杂的广义诊断问题的求解;分级诊断、决策子系统:先用故障树方法对设备整体进行指标测试,以判断其是否有故障;若有,则对这些模块逐级进行测试,找到出现故障的模块后,利用规则库中的规则对这一模块内部进行测试诊断,直到找出故障点;系统通过对设备进行指标测试,利用正确的相似机制,依据知识库中的知识,诊断出设备当前是否正常、故障原因并根据决策树提供解决方案;推理机子系统:包括推理方法库,其中有合成推理、三I算法、基于相似度量的模糊推理方法,合情推理方法;演绎推理方法;广义综合推理方法;基于案例的推理方法;因果定性推理方法;统计推断方法。对于由(2)得到的规则库,根据实际问题,由机器选择推理方法,进行推理;或者选择几种方法进行了推理,然后将结果进行比较,若没有矛盾,则推理的结果较符合实际;再用适合于用户的方式呈现给用户,同时还将获得的知识送往真实数据库,进行验收;库管理子系统:是对真实数据库、基础知识库、衍生知识库进行管理,进行编辑、删除、检索、查询、添加、备份管理;本系统建立良好的Windows格界面,方便用户实现对各种知识库、数据库的操作管理;知识训练子系统:由专业人员进行经验训练,通过实例直接得到数据;从中发现知识,完成专业领域知识的学习功能,以适应不同用户的需求;自检子系统:为避免因测试硬件本身的故障引起错误诊断,在进行故障诊断之前,专家系统将对测试硬件进行一次闭环的自我检测;在线帮助子系统:为使用户有效地使用本系统,随时能够得到相关信息的帮助。
2.按照权利要求1所述的构造方法,其特征在于:基于知识发现的动态知识库子系统包括:基础知识库;衍生知识库;合成知识库;综合知识库;扩展知识库;双库协同机制KDD*;维护型协调器;启发型协调器;双基融合机制KDK*;其中:基础知识库中存放了专家经验与书本知识基础知识库由第一类规则库、第一类故障树、第一类决策树与案例第一类库四个子库构成;其中规则库包含所有规则;故障树的目的是判明基本故障,确定故障的原因、影响和发生概率,此故障树是用最小割集方法来构建,能大量减少搜索空间;决策树用SLIQ算法来实现从数据库中发掘分类规则,在选择树的分叉时,同时考虑相关的多个属性,从而提高产生分类规则的效率;案例库中存放了以往的典型案例,以利于诊断子系统诊断时直接利用此库进行部分诊断;衍生知识库中存放的是由KDD*发现的规则,在KDD*中,数据库与知识库的数学结构本质上都归结为范畴,数据库是数据子类集合连同“发掘线路”构成的范畴,称为数据发掘范畴;知识库是知识节点集合与“推理弧线”构成的范畴,称为知识推理范畴;并进一步得到:在<E,ξ>中的知识推理范畴CR(E)与在<F,ζ>中的数据发掘范畴CD(F)的同构性与制约机制的一些结果,从而从根本上解决了“定向搜索”与“定向发掘进程”的问题;合成知识库中存放的是经基础知识库和衍生知识库合成后的知识,具体方法是:首先利用衍生知识库中的规则与基础知识库中的第一类规则库进行合成,形成第二类规则库;然后,利用第二类规则库去修正基础知识库中的第一类故障树、第一类决策树和第一类案例库,形成第二类故障树、第二类决策树和第二类案例库;综合知识库中存放的是利用模糊推理和演绎推理,在合成知识库基础上发现的知识,同时需对故障树、决策树和案例库进行修正;扩展知识库中存放的是通过广义综合归纳推理机制和基于案例的推理,在综合知识库的基础上发现的知识,这与基于知识库的知识发现KDK有所不同,它增加了三个协调器,扩展了原有的功能,称之为KDK*;知识库经基础—衍生—合成—综合—扩展的提升过程,只是完成了第一个发现阶段;如此往复,在认识发展与时空环境变迁的不同阶段,丰富和深化了知识,解决了传统专家系统知识获取这一“瓶颈”问题;基于双库协同机制的KDD*:在真实数据库上,按数据子类结构形式所构成的挖掘数据库的可达范畴与基于属性间关系的发掘知识库的推理范畴之间建立等价关系;两个范畴的等价关系为定向发掘和定向搜索奠定了基础;在KDD聚焦过程中,除依据用户需求确定聚焦外,通过启发协调算法形成依挖掘知识库中知识短缺而生成的机器自身提供的聚焦方向,进而形成在数据库中的定向发掘;在获得假设规则到知识评价的过程中产生维护进程,先不对假设规则进行评价,而是通过维护协调算法到发掘知识库中进行定向搜索,以期发现产生的假设规则与知识库中原有的知识是否重复、冗余和矛盾,并作相应处理,对知识库进行实时维护;知识库的结构是参照数据库中的数据客观地、量化地决定;并且,随着数据库中数据的积累,知识库的结构也随之动态变化,从而,知识库具有了在内容和结构上自我进化的能;维护型协调器的主要功能是当从真实数据库的大量数据中经聚焦而生成感兴趣的与具有给定可信度的规则后,使KDD进程产生“中断”,而去定向搜索知识库中对应位置检查有无此生成规则的重复、冗余与矛盾;若有重复与冗余,则取消该生成规则或冗余规则而返回KDD的“始端”;若无,则继续KDD进程;对于矛盾的处理,采用约束规则的条件与根据其可信度或关联强度来裁决;其功能有:a、重复的处理:重复是指两条知识表达方式、内容完全一致,若将重复的知识存入知识库中,必然导致知识库的庞大,从而使得对知识库的操作浪费大量的时间,这是不合理的;为此对重复的知识进行处理,当新知识的可信度大于旧知识的可信度时,则以新知识的可信度代替旧知识的可信度,其它的不变;否则扔掉新知识;b、矛盾的处理:矛盾是指由相同的前提推出相反的结论,或由相反的前提推出相同的结论;c、冗余的处理:冗余是指有些新产生的知识可以由知识库中固有的知识表达出来,像这样的知识都会造成知识库不必要的冗余,因而也必须加以解决;启发型协调器的功能是在以属性为基础的知识库建库原则下,通过搜索知识库中“知识结点”的不关联态,以发现“知识短缺”,产生“创见意象”,从而启发与激活真实数据库中相应的“数据子类”,以产生“定向挖掘进程”;为了防止“海量定向挖掘”现象的产生,必须规定优先级,以定向挖掘较可信与关联性强的待定规则;基于双基融合机制的KDK*:揭示知识发现系统中知识信息的传输、存储、转换、再生的潜在规律,各子系统间的内在联系以及知识发现过程中各参与要素间的相互关系;其核心是基于知识库的知识发现(KDK)与基于数据库的知识发现(KDD)的有机结合;这一结合是要寻找知识库与数据库的相互对应关系,而其技术实现是通过三个协调器来具体完成;R型协调器:KDK过程是通过综合归纳来发现新知识;知识库的组成包括两部分:事实和规则;KDK从现有的这些知识中推理出能被人理解的,具有给定可信程度的知识,这种知识的发现过程能产生归纳知识;假设目标规则的形式如下:P(x,y)^R(y,z)→Q(x,y),已知p,q,求r;通过KDK的归纳,寻找出了所有有可能的R值,本协调器所做的工作是检验假设中所有谓词变量的定义域的相符情况,由归纳得出的R中的y是否与已有的P中的y定义相符,而R中的z是否与Q中的z定义相符;在数据库中定义了所有字段的域范围,将P、Q、R的自变量和因变量值分别带入检验,只有相符的才形成假设;S型协调器:KDK发现的规则在进行评价前,先将其中不易判明可靠性的规则送入KDD*过程中进行定向挖掘,用KDD*的挖掘结果先行评估,若此条规则在KDD*过程中也可被发现,则认为该规则有效的几率较大;反之,则认为此知识缺乏数据支持;它的实现过程类似于双库协同机制中的启发式协调器;T型协调器:在规则已被KDD*过程确认后,将产生一个定向搜索进程,搜索知识库中对应位置是否有此生成规则的重复、冗余和矛盾;这样能实时地处理重复、冗余和矛盾的知识,做到只对那些最有可能成为新知识的假设进行评价,从而大量地减少规则的评价量;KDK*的结构突破了KDK的原有封闭式结构,将数据库与知识库、KDD与KDK有机地融合起来,大量地减少了人工的参与,提高了系统的认知自主性。
3.按照权利要求2所述的构造方法,其特征在于:基于知识发现的动态知识库子系统技术实现步骤为:步骤1、由书本知识和专家学者知识,通过知识获取设备开成基础知识库;同时,将基础知识库的中知识转化成规则存入规则库;步骤2、由真实数据库的挖掘产生新的知识,并运用KDD*,维护型协调器和启发式协调器与基础知识库作用后,产生新的知识形成合成知识库;步骤3、由全成知识库与推理机的作用形成综合知识库;步骤4、由综合知识库经KDK*的作用后形成扩展知识库;这一步是去掉冗余的知识,矛盾的知识,过时的知识,并更好地维护得到的知识;步骤2中的KDD*的技术实现步骤为:步骤1、将真实数据库进行预处理,并划分数据子集;将基础知识库划分为知识子库;步骤2、对于划分数据子库,根据子库形成数据子类结构,构成挖掘数据库;对于划分知识库,根据属性划分知识结点,形成推断弧线,构成挖掘知识库;步骤3、对于挖掘数据库,根据用户需求与感受兴趣知识,采用启发式协调器,搜索挖掘知识库中的知识结点的不关联状态,以现知识短缺,并确定优先级,然后进行聚集,进行定向挖掘;步骤4、将获得的假设规则嵌入到挖掘知识库中,对规则进行重复、冗余、矛盾检测,即启用维护型协调器,对通过维护型协调器的规则进行评价,形成衍生知识库;
4.按照权利要求2所述的构造方法,其特征在于:KDD*中的术语.预处理是指:对原始数据进行包括数据净化、数值化与转换在内的处理,形成挖掘数据库DMDB,以供数据挖掘过程使用;聚焦是指:从挖掘数据库里进行数据的选择;进行聚焦的方法是利用聚类分析和判别分析;指导数据聚焦的方式有:通过人机交互由专家提出感兴趣的内容,让专家来指导数据挖掘的方向;或利用启发式协调器进行定向的数据挖掘;求取假设规则是指:它是针对真实数据库中数据所隐藏的、先前未知的及具有潜在应用价值的信息进行抽取;在本系统中是抽取因果关联规则,从而进一步基础知识库;使用的挖掘方法是统计归纳推理法与因果关系定性推理法;双库协同机制是指:采用维护型协调器、启发型协调器,分别对所获得的假设规则进行处理和利用关联强度激发数据聚焦进行数据挖掘;评价是指:这一环节用于对所获得的假设规则进行评价,以决定所得的规则是否存入知识库;使用的方法有:由规则的关联强度,通过给定的阈值,由计算机来实现;通过人机交互界面由专家来评价;利用可视化工具所提供的各类图形和分析资料进行评价;将经评价认可的规则作为新知识存入衍生知识库中。
5.按照权利要求2所述的构造方法,其特征在于:启发式协调算法为:步骤1、搜索自关联强度大于给定阈值的语言变量值,形成结点集S;步骤2、对结点集S中的结点进行组合,形成元组集合;步骤3、搜索现有知识库,从元组中除去已在知识库中存在的元组;步骤4、对剩余元组按关联强度排序,给出定向搜索的优先序;步骤5、按优先级排序,并逐一扫描各元组,聚集到数据库相应入口,进行定向挖掘,并进行KDD进程;
6.按照权利要求2所述的构造方法,其特征在于:维护型协调算法:步骤1、对挖掘出的知识逐一判断知识的可信度是否大于给定的阈值;若是,则进入步骤2;否则进入下一条知识的判断;步骤2、对由步骤1得到的知识判断知识是否重复;若是,则转入步骤1;否则转入步骤3;步骤3、对由步骤2得到的知识判断知识是否冗余;若是,则转入步骤1;否则转入步骤4;步骤4、对由步骤1得到的知识判断知识是否矛盾;若是,则转入步骤1;否则将知识存入知识库;若所有的知识处理完,则算法终止;否则转入步骤1;
7.按照权利要求2所述的构造方法,其特征在于:KDK*的技术实现步骤为:步骤1、对于合成知识库,经过KDD过程,产生假设;步骤2、通过R型协调器,形成假设检验,能过真实数据库来验证,并经过KDD*挖掘,启用S型协调器,即经KDD发现的规则在KDD*中进行验证,并将验证的结果存入规则集中;步骤3、对于产生的规则集,采用T型协调器,即新规则与原有规则的维护性检查,将得到的结果进行规则评价;步骤4、将经步骤3得到的规则集经领域专家评价后存入扩展知识库。
8.按照权利要求2所述的构造方法,其特征在于:定向挖掘算法:设规则强度阈值为Min_Intensity,支持度阈值为Min_Sup,可信度阈值为Min_Con.步骤1、数据预处理:这里主要是用户选择真实数据库,对于多值属性进行离散化.步骤2、划分数据子库,依据子库建立数据子类结构,形成挖掘数据库;划分知识子库,依据知识子库建立知识结点,调用过程calculate_reach_matrix产生可达矩阵,从而形成挖掘知识库.步骤3、调用过程Heuristic_Coordinator(K2)产生K2;步骤4、m=2;步骤5、对Km产生假设规则:对Km中的短缺知识ri:e1∧e2∧…∧ep→eq(ri∈Km),进行定向挖掘,即对数据表tablel,table2,…,tablep,tableq进行挖掘,计算Con(ri)和Intensity(ri),如果Con(ri)>Min_Con并且Intensity(ri)>Min_Intensity(ri),则转6);否则,Km=Km-ri,转8);步骤6、对规则ri应用维护型协调器进行处理.即若Maintenance_Coordinator(ri)==0,则取消该生成规则或相应处理;转8);若无,则转7);步骤7、对规则ri进行评价.若评价通过则入库;若m==2,调用过程Calculate_matrixl(s,t)(ri:(s→t))来调整超图的可达矩阵;否则调用过程Calculate_matrix2((f1,f2,…,fs),t)(ri:(f1∧f2∧…∧fs→t))来调整超图的可达矩阵.若评价没有通过,则删除该规则;步骤8、Km是否结束.若结束,当m==2时调用X1(P),否则调用X2(P);调用过程Heuristic_Coordinator(Km,Km+1)来产生Km+1,转9);若没结束,则转5)进行下一条规则的处理;步骤9、m=m+1,若Km=φ或者m>M(M为预先给定的最大长度),转10);否则,转5);步骤10、显示新产生的规则;步骤11、结束.过程X1(P)步骤1、for i:=0 to n//可达矩阵的列数步骤2、for j:=0 to n//可达矩阵的列数if(P(i,j)==1)  Km=KmU{i→j};过程X2(P)//带有结点的规则步骤1、for i:=n+1 to T//T为可达矩阵的行数步骤2、for j:=0 to n//可达矩阵的列数if(P(i,j)==1)  Km=KmU{i→j};
9.按照权利要求1所述的构造方法,其特征在于:分级诊断、决策子系统的决策树算法:输入:训练样本集S;候选属性集attributes_list,类别标识属性C;输出:一棵判定树;步骤1、创建节点N;步骤2、若所有训练数据S都在C的同一类,则返回N作为叶节点,并将N的名字记为C中该类的类别号;步骤3、若attribute_list为空,则返回N作为叶节点,并将N的名字记为;步骤4、attribute_list中选择具有最小信息补偿量的测试属性b∈attribute_list;步骤5、将N的名字记为b;步骤6、对b的每一个属性值做如下操作:将b的每一个属性值aj,由节点N生长出名为aj的分枝;求sj={s|s∈S,s.b=aj}//划分块;若Sj为空,则加上一个树叶,并将该树叶记为;若Sj不空,则递归生成子树,返回的节点;步骤7、结束。

说明书全文

一种基于知识发现的专家系统构造方法

技术领域

发明属于人工智能和专家系统技术领域,特别涉及一种基于知识发现的专家系统(ESKD,Expert System Based on Knowledge Discovery)构造方法。

背景技术

一、人工智能是计算机科学、控制论、信息论、神经生理学、心理学、语言学等多种学科互相渗透而发展起来的一综合性学科,其本质是研究如何制造出人造的智能机器或智能系统,来模拟人类智能活动,以延伸之。因此,实用智能系统的研究从人工智能学科兴起的初期,就一直是该研究领域内最核心、最活跃的分支之一。在过去的几十年里,实用智能系统得到了极大的发展,目前已包括专家系统、决策支持系统、预测支持系统、计算机辅助创新系统、机器人规划系统等,并在全球信息化的浪潮中,发挥了十分重要的作用;但也应当看到,传统的信息驱动的实用智能系统也存在着其自身无法克服的缺陷,那就是知识短缺。如何解决经典实用智能系统的知识短缺这一瓶颈问题,正是我们科研工作的生长点和研究路线的出发点。同时也发现,诸如方法改进型的跟踪性研究无法使经典实用智能系统的性能得到根本意义上的改善,因为从本质上讲:所有新一代实用智能系统共同的与本质的特征就在于是“基于知识的”,而不是仅仅“基于信息的”。于是,我们开始把注意转向知识发现这一新兴的热点技术。知识发现是国际学术前沿多学科交叉的新兴边缘学科,它是指从海量信息中发现新颖的、潜在有用、最终可被用户理解的知识。但现有的知识发现方法和技术还存在着许多问题,如:固有知识库的实时维护;知识库与数据库的同步进化;先验知识如何耦合到知识发现过程中;动态挖掘进程中被发现规则的演化、评价与可理解性问题等。于是,我们对知识发现作了大量的、系统的创新性研究,并将研究成果反作用于实用智能系统,从根本上改变或提高了经典实用智能系统的结构、功能与智能化程度,构造了知识驱动的、基于知识发现的新型实用智能系统。
我们从“如何提高传统智能系统的功效,以解决更广泛、更深刻的现实问题?”出发,紧扣“知识贫乏”这一传统智能系统的劣根性,抓住解决这一问题的根本性的出路之一--知识发现,开展新一代智能专家系统的研究。
二、专家系统自1965年E.A.Feigenbaum研制的DENDRAL系统问世以来,发展迅速,被广泛应用于各个领域;制造行业的CASSIOPEE系统(由Acknosoft公司用KATE发现工具开发的),已应用于诊断与预测在波音飞机制造过程中可能出现的问题;应用于行或商业上的欺诈行为的FALCON系统,可通过总结正常行为和欺诈行为之间的关系,得到欺诈行为的一些特征,以向决策人员提出警告;市场行销的货篮分析的Opportunity Explorer系统,可用于超市商品销售异常情况的因果分析等。这些专家系统在解释机制、知识获取机制、不确定推理技术等方面都有所改进,但它们的结构彼此相似、推理技术单调、自学习能力较差、均具知识不足够丰富这一新的“瓶颈”现象,另外这些专家系统均是专业型的,在通用性方面较差;故新一代专家系统的发展方向是高度智能化,以多种知识表示、综合知识库、自组织协同工作、自动知识获取和自适用能力较强为特征。
为此,我们提出了基于知识发现的专家系统ESKD,其理论基础是我们提出的双库协同机制和双基融合机制以及综合型知识发现系统KD(D&K)结构模型,它以多个知识源、多种知识融合、多抽象级与不同知识层次结构形成了极其丰富的动态知识库系统与相应的集成推理机制,它为解决专家系统构造中的核心技术提供了一条有效的途径,也从根本上提高了专家系统的实用化功能。算法流程图如图1所示。
三、KDD*(基于双库协同机制的KDD系统)技术:信息挖掘即指从各种各样的信息源(包括结构化的和非结构化的信息源)中,抽取先前未知的、完整的模式,来做关键的业务决策。它融合了人工智能,机器学习模式识别、统计学、数据库、计算机网络自然语言处理等众多学科的内容,它是针对生成收集数据的能力迅猛发展,而对信息的处理仍然采用数据统计等传统的方法,这一矛盾而产生的,并迅速发展起来的。
目前知识发现主要存在两个研究方向。其一:KDD(Knowledge Discovery inDatabase)。它适用以结构化、数值型的数据为特点的领域。其二:Web挖掘(WebMining)。它主要处理来源于网络上的半结构或非结构、字符型数据、多媒体数据、用户访问日志信息、网页间的超链接信息等等。KDD技术是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。通过这一过程,感兴趣的知识或高层信息可以从数据库相关数据集中抽取出来并从不同度进行研究。有人也将KDD称为数据挖掘(或数据发掘、数据开采等),KDD一般在人工智能和机器学习领域使用较多,在工程应用领域多称之为数据挖掘(data mining),一般可以不加区分地使用两者。其主要处理步骤如图1所示。但是,目前绝大部分KDD的算法没有将KDD作为认知的复杂系统对其内在的规律性加以研究,且都没有深层次地考虑知识库,挖掘出来的许多假设规则与知识库中的已有知识是重复的和冗余的,甚至是不相容的,并且仅靠人机交互形成聚焦,而没有体现系统自身的认知自主性,因此对KDD定义中要求的新颖性和有效性就无法体现出来。为此,KDD*系统从知识发现、认知科学与智能系统交叉结合的角度,提出了双库协同机制,作为对于KDD系列性研究中所提出的新研究方向,即内在机理的研究。构建了将KDD与双库协同机制相结合的KDD*结构,从而改变了KDD固有的运行机制,在结构与功能上形成了相对于KDD而言的一个开放的、优化的扩体。双库协同机制的引入使得KDD在功能上得到了进一步的完善,KDD*的结构图如图2所示,其详细说明参见相关专利申请文件。
四、KDK*(基于双基融合机制的KDK系统)技术:所谓双基融合机制,是指构建基础数据库与知识库的内在联系的“通道”,从而用数据库与KDD去制约与驱动KDK的挖掘过程,改变KDK固有的运行机制,在结构与功能上形成相对于KDK而言的一个开放的优化的扩体。具体而论:(1)KDK过程要依赖于数据库。即在KDK过程中发现出的假设规则随时送入数据库中,以数据库中的数据来验证形成假设规则的可能性;(2)KDK的发现过程要依赖于KDD的挖掘过程。即在KDK中发现出的新知识(特别是难于决断的知识)要随时送入KDD过程中进行验证,看KDK中发现的规则在KDD过程中是否能被发现。这一过程本质上是确定KDK中发现的新规则在现实中是否有意义:(3)KDK依赖于固有知识库。即KDK过程中发现的新知识要实时的带入固有知识库,以验证新知识与固有知识是否重复、冗余和矛盾。
从以上揭示的三点内涵中我们可以看出:双基融合机制的本质是基于数据库的知识发现与基于知识库的知识发现的一种协同,这种协同在于挖掘两者之间的内在联系,从本质上寻找切入点。这符合世界的自然规律和人对事物的认识规律。我们可将数据库理解为人类认识的源泉,而知识库相应的体现人类的认识结果。将基于数据库的知识发现和基于知识库的知识发现统一在一个系统中,使他们能够相辅相成,将机器智能升华到较高的境界。双基融合机制的引入使得KDK在功能上得到了进一步的完善,KDK*的结构图如图3所示,其详细说明参见相关专利申请文件。
五、综合知识发现系统KD(D&K)结构模型的技术:下三个问题构成了由两个机制共同诱导的KD(D&K)新结构模型的生长点:(1)突破基于数据库的知识发现的封闭系统,而与知识库协同起来,由基础知识库制约与驱动KDD,从而发现新知识;(2)目前多于具体发掘技术的研究,应提升到在宏观背景下多个抽象级、不同知识层面上的知识发现系统的一般性框架的研究;(3)在“综合基”(数据库和知识库并存)上发现新知识,即将KDD与KDK有机融合,统一在知识发现的全部运行过程中。
针对上述生长点以及认识与逻辑发展的必然,我们构造了包容KDD*与KDK*,而又具特色的新系统KD(D&K),即具有双库协同机制与双基融合机制的综合型知识发现系统。该系统作为知识发现系统模型层中的一个重要的结构模型,其总体结构框架如图4所示。

发明内容

本发明的目的在于,提供一种基于知识发现的专家系统构造方法,用以扩充现有的专家系统;克服固有的不足,特别是推理技术单调、自学习能力较差、知识不足够丰富。另外这些专家系统均是专业型的,在通用性方面较差;故新一代专家系统的发展方向是高度智能化,以多种知识表示、综合知识库、自组织协同工作、自动知识获取和自适用能力较强为特征。改变现有专家系统的缺憾,从而在结构和功能上形成相对现有技术的一个开放的、优化的扩体。
本发明的技术方案为:一种基于知识发现的专家系统新构造方法,包括:基于知识发现的动态知识库子系统;分级诊断、决策子系统;推理机子系统;库管理子系统;知识训练子系统;自检子系统;在线帮助子系统。
(1)基于知识发现的动态知识库子系统:是一个基于数据库和知识库协同机制的知识发现系统,作为不同知识层面上知识发现的结果,使得知识库从原有的由专家经验与书本知识为直接源泉的基础知识库不断产生扩充,利用在双库协同机制下形成的KDD*、合成推理、三I算法、基于相似度量的模糊推理、合情推理的推理机制以及KDK*,形成了能处理Fuzzy不确定性、随机不确定性及定性信息的具有动态扩展特征的知识库子系统;该模的功能是发现因果关联规则,并用之去修正知识库中原有的故障树、决策树与案例,以适应复杂的广义诊断问题的求解;(2)分级诊断、决策子系统:先用故障树方法对设备整体进行指标测试,以判断其是否有故障;若有,则对这些模块逐级进行测试,找到出现故障的模块后,利用规则库中的规则对这一模块内部进行测试诊断,直到找出故障点;系统通过对设备进行指标测试,利用正确的相似机制,依据知识库中的知识,诊断出设备当前是否正常、故障原因并根据决策树提供解决方案;(3)推理机子系统:包括推理方法库,推理方法库有:其中有合成推理、三I算法、基于相似度量的模糊推理方法,合情推理方法;演绎推理方法;广义综合推理方法;基于案例的推理方法;因果定性推理方法;统计推断方法;对于由(2)得到的规则库,根据实际问题,由机器选择推理方法,进行推理;或者选择几种方法进行了推理,然后将结果进行比较,若没有矛盾,则推理的结果较符合实际;再用适合于用户的方式呈现给用户,同时还将获得的知识送往真实数据库,进行验收;(4)库管理子系统:是对真实数据库、基础知识库、衍生知识库进行管理,进行编辑、删除、检索、查询、添加、备份管理;本系统建立良好的Windows格界面,方便用户实现对各种知识库、数据库的操作管理;(5)知识训练子系统:既可由专业人员进行经验训练,又可以通过实例直接得到数据。从中可以发现知识,完成专业领域知识的学习功能,以适应不同用户的需求。
(6)自检子系统:为避免因测试硬件本身的故障引起错误诊断,在进行故障诊断之前,专家系统将对测试硬件进行一次闭环的自我检测。
(7)在线帮助子系统:为使用户更加有效地使用本系统,随时能够得到相关信息的帮助。
基于知识发现的动态知识库子系统的技术实现方案:在基于知识发现的动态知识库子系统中主要包括:基础知识库;衍生知识库;合成知识库;综合知识库;扩展知识库;双库协同机制KDD*;维护型协调器;启发型协调器;双基融合机制KDK*。
基础知识库中存放了专家经验与书本知识基础知识库由第一类规则库、第一类故障树、第一类决策树与案例第一类库四个子库构成;其中规则库包含所有规则;故障树的目的是判明基本故障,确定故障的原因、影响和发生概率,此故障树是用最小割集方法来构建,能大量减少搜索空间;决策树用SLIQ算法来实现从数据库中发掘分类规则,在选择树的分叉时,同时考虑相关的多个属性,从而提高产生分类规则的效率;案例库中存放了以往的典型案例,以利于诊断子系统诊断时直接利用此库进行部分诊断;衍生知识库中存放的是由KDD*发现的规则,在KDD*中,数据库与知识库的数学结构本质上都归结为范畴,数据库是数据子类集合连同“挖掘线路”构成的范畴,称为数据挖掘范畴;知识库是知识节点集合与“推理弧线”构成的范畴,称为知识推理范畴;并进一步得到:在<E,ξ>中的知识推理范畴CR(E)与在<F,ζ>中的数据挖掘范畴CD(F)的同构性与制约机制的一些结果,从而从根本上解决了“定向搜索”与“定向发掘进程”的问题;合成知识库中存放的是经基础知识库和衍生知识库合成后的知识,具体方法是:首先利用衍生知识库中的规则与基础知识库中的第一类规则库进行合成,形成第二类规则库;然后,利用第二类规则库去修正基础知识库中的第一类故障树、第一类决策树和第一类案例库,形成第二类故障树、第二类决策树和第二类案例库;如图6所示。
综合知识库中存放的是利用模糊推理和演绎推理,在合成知识库基础上发现的新知识,同时需对故障树、决策树和案例库进行修正。
扩展知识库中存放的是通过广义综合归纳推理机制和基于案例的推理,在综合知识库的基础上发现的新知识,这与基于知识库的知识发现(KDK)有所不同,它增加了三个协调器,扩展了原有的功能,我们称之为KDK*。
以上介绍的知识库经基础-衍生-合成-综合-扩展的提升过程,只是完成了第一个发现阶段;如此往复,在认识发展与时空环境变迁的不同阶段,丰富和深化了知识,解决了传统专家系统知识获取这一“瓶颈”问题。
双库协同机制KDD*:(1)在真实数据库上,按数据子类结构形式所构成的挖掘数据库的可达范畴与基于属性间关系的挖掘知识库的推理范畴之间建立等价关系;两个范畴的等价关系为定向挖掘和定向搜索奠定了基础。(2)在KDD聚焦过程中,除依据用户需求确定聚焦外,通过启发协调算法形成依挖掘知识库中知识短缺而生成的机器自身提供的聚焦方向,进而形成在数据库中的定向发掘。(3)在获得假设规则到知识评价的过程中产生维护进程,先不对假设规则进行评价,而是通过维护协调算法到挖掘知识库中进行定向搜索,以期发现产生的假设规则与知识库中原有的知识是否重复、冗余和矛盾,并作相应处理,对知识库进行实时维护。(4)知识库的结构是参照数据库中的数据客观地、量化地决定;并且,随着数据库中数据的积累,知识库的结构也随之动态变化,从而,知识库具有了在内容和结构上自我进化的能力。
维护型协调器的功能是当从真实数据库的大量数据中经聚焦而生成感兴趣的与具有给定可信度的规则后,使KDD进程产生“中断”,而去定向搜索知识库中对应位置,有无此生成规则的重复、冗余与矛盾。若有重复与冗余,则取消该生成规则或冗余规则而返回KDD的“始端”;若无,则继续KDD进程。对于矛盾的处理,采用约束规则的条件与根据其可信度或关联强度来裁决。其功能有:(1)重复的处理。重复是指两条知识表达方式、内容完全一致,若将重复的知识存入知识库中,必然导致知识库的庞大,从而使得对知识库的操作浪费大量的时间,这是不合理的。为此对重复的知识进行处理,当新知识的可信度大于旧知识的可信度时,则以新知识的可信度代替旧知识的可信度,其它的不变;否则扔掉新知识。(2)矛盾的处理。矛盾是指由相同的前提推出相反的结论,或由相反的前提推出相同的结论。(3)冗余的处理。冗余是指有些新产生的知识可以由知识库中固有的知识表达出来,像这样的知识都会造成知识库不必要的冗余,因而也必须加以解决。
启发型协调器的功能是在以属性为基础的知识库建库原则下,通过搜索知识库中“知识结点”的不关联态,以发现“知识短缺”,产生“创见意象”,从而启发与激活真实数据库中相应的“数据子类”,以产生“定向挖掘进程”。为了防止“海量定向挖掘”现象的产生,必须规定优先级,以定向挖掘较可信与关联性强的待定规则。
双基融合机制KDK*是研究知识发现系统中知识信息的传输、存储、转换、再生的潜在规律,各子系统间的内在联系以及知识发现过程中各参与要素间的相互关系。
其核心是基于知识库的知识发现与基于数据库的知识发现的有机结合。这一结合是寻找知识库与数据库的相互对应关系,而其技术实现是通过三个协调器来具体完成。
R型协调器:KDK过程是通过综合归纳来发现新知识。知识库的组成包括两部分:事实和规则;KDK试图从现有的这些知识中推理出可被人理解的,具有一定的可信程度的新知识,这种新知识的发现过程产生归纳知识。假设目标规则的形式如下:P(x,y)^R(y,z)→Q(x,y),已知p,q,求r。通过KDK的归纳,寻找出了所有有可能的R值,本协调器所做的工作是检验假设中所有谓词变量的定义域的相符情况,由归纳得出的R中的y是否与已有的P中的y定义相符,而R中的z是否与Q中的z定义相符。在数据库中定义了所有字段的域范围,将P、Q、R的自变量和因变量值分别带入检验,只有相符的才形成假设。
S型协调器:KDK发现的规则在进行评价前,先将其中不易判明可靠性的规则送入KDD*过程中进行定向挖掘,用KDD*的挖掘结果先行评估,若此条规则在KDD*过程中也可被发现,则认为该规则有效的几率较大;反之,则认为此知识缺乏数据支持。它的实现过程类似于双库协同机制中的启发式协调器。
T型协调器:在规则已被KDD*过程确认后,将产生一个定向搜索进程,搜索知识库中对应位置是否有此生成规则的重复、冗余和矛盾;这样能实时地处理重复、冗余和矛盾的知识,做到只对那些最有可能成为新知识的假设进行评价,从而大量地减少规则的评价量;  KDK*的结构突破了KDK的原有封闭式结构,将数据库与知识库、KDD与KDK有机地融合起来,大量地减少了人工的参与,提高了系统的认知自主性。
基于知识发现的动态知识库子系统技术实现步骤:步骤1、由书本知识和专家学者知识,通过知识获取设备开成基础知识库。同时,将基础知识库的中知识转化成规则存入规则库;步骤2、由真实数据库的挖掘产生新的知识,并运用KDD*,维护型协调器和启发式协调器与基础知识库作用后,产生新的知识形成合成知识库;
步骤3、由全成知识库与推理机的作用形成综合知识库;步骤4、由综合知识库经KDK*的作用后形成扩展知识库;这一步是去掉冗余的知识,矛盾的知识,过时的知识,并更好地维护得到的知识;步骤2中的KDD*的技术实现步骤为:步骤1、将真实数据库进行预处理,并划分数据子集;将基础知识库划分为知识子库;步骤2、对于划分数据子库,根据子库形成数据子类结构,构成挖掘数据库;对于划分知识库,根据属性划分知识结点,形成推断弧线,构成挖掘知识库;步骤3、对于挖掘数据库,根据用户需求与感受兴趣知识,采用启发式协调器,搜索挖掘知识库中的知识结点的不关联状态,以现知识短缺,并确定优先级,然后进行聚集,进行定向挖掘;步骤4、将获得的假设规则嵌入到挖掘知识库中,对规则进行重复、冗余、矛盾检测,即启用维护型协调器,对通过维护型协调器的规则进行评价,形成衍生知识库;KDD*中的术语说明:(1)预处理:对原始数据进行包括数据净化、数值化与转换在内的处理,形成挖掘数据库DMDB,以供数据挖掘过程使用。
(2)聚焦:从挖掘数据库里进行数据的选择。进行聚焦的方法是利用聚类分析和判别分析。指导数据聚焦的方式有:①通过人机交互由专家提出感兴趣的内容,让专家来指导数据挖掘的方向。②利用启发式协调器进行定向的数据挖掘。
(3)求取假设规则:这是KDD的核心,它是针对具有大数据量、不完全性、不确定性、结构性、稀疏性等特点的真实数据库中数据所隐藏的、先前未知的及具有潜在应用价值的信息进行非平凡抽取。在本系统中是抽取因果关联规则,从而进一步补充基础知识库。使用的挖掘方法是统计归纳推理法与因果关系定性推理法。
(4)双库协同机制:即采用维护型协调器、启发型协调器,分别对所获得的假设规则进行处理和利用关联强度激发数据聚焦进行数据挖掘。这是我们的创新点,将在下面的几节中加以介绍。
(5)评价:这一环节用于对所获得的假设规则进行评价,以决定所得的规则是否存入知识库。使用的方法有:①由规则的关联强度,通过设定的阈值,由计算机来实现;②通过人机交互界面由专家来评价,也可利用可视化工具所提供的各类图形和分析资料进行评价。将经评价认可的规则作为新知识存入衍生知识库中。
步骤2中的启发式协调算法的技术实现步骤为(如图7所示):步骤1、搜索自关联强度大于给定阈值的语言变量值,形成结点集S;步骤2、对结点集S中的结点进行组合,形成元组集合;步骤3、搜索现有知识库,从元组中除去已在知识库中存在的元组;步骤4、对剩余元组按关联强度排序,给出定向搜索的优先序;步骤5、按优先级排序,并逐一扫描各元组,聚集到数据库相应入口,进行定向挖掘;并进行KDD进程;启发型协调器的意义:除根据用户需求与人为的兴趣去挖掘知识外,提出了根据基础知识库中的“知识短缺”自动地启发定向挖掘知识的途径,即提高“认知自主性”(这将是今后相当一段时间内保持的研究基调),较有效地克服领域专家的自身局限;大大减少了在假设规则挖掘后的“评价量”;根据前述的“结构对应”的机理,可大大缩小搜索空间,提高挖掘效率;较有效地解决新旧知识合成后知识库的冗余性与一致性问题;总体上讲,将KDD视为一个开放系统,在KDD进程与基础知识库的广泛联系中,改进与优化了KDD的结构、过程与运行机制。
步骤2中的维护型协调算法的技术实现步骤为(如图8所示):步骤1、对挖掘出的知识逐一判断知识的可信度是否大于给定的阈值;若是,则进入步骤2;否则进入下一条知识的判断;步骤2、对由步骤1得到的知识判断知识是否重复;若是,则转入步骤1;否则转入步骤3;步骤3、对由步骤2得到的知识判断知识是否冗余;若是,则转入步骤1;否则转入步骤4;步骤4、对由步骤1得到的知识判断知识是否矛盾;若是,则转入步骤1;否则将知识存入知识库;若所有的知识处理完,则算法终止;否则转入步骤1;维护型协调器的意义:由于维护型协调器对KDD过程的介入,可以在对于重复性、一致性、冗余性、从属性、循环性等给予准确定义的基础上,利用超图等理论工具,实时地、尽早地将重复、矛盾、冗余的知识淘汰掉,从而做到只对那些有可能成为新知识的假设进行评价,最大限度地减少了评价工作量。在实际的实现专家系统中,最终成为新知识的假设占原假设的比例是很小的(发现新知识是困难的),大量假设会是重复和冗余的,因此维护型协调器的引入将提高KDD的效率。
步骤4中的KDK*的技术实现步骤为:步骤1、对于合成知识库,经过KDD过程,产生假设;步骤2、通过R型协调器,形成假设检验,能过真实数据库来验证,并经过KDD*挖掘,启用S型协调器,即经KDD发现的规则在KDD*中进行验证,并将验证的结果存入规则集中;步骤3、对于产生的规则集,采用T型协调器,即新规则与原有规则的维护性检查,将得到的结果进行规则评价;步骤4、将经步骤3得到的规则集经领域专家评价后存入扩展知识库;KDK*的意义:我们的知识库来源于合成知识库,合成知识库包括两方面的知识:一是基础知识库,即专家的领域知识,二是从KDD*过程中挖掘出来的知识。两部分知识通过冗容性处理后形成了合成知识库。对于合成知识库实施KDK算法,对于KDK算法,我们将做的改进是研究KDK的内在机理,在此基础上判断是否可加入适当的评估参量;算法完成后,形成了初步假设。在初步假设形成和规则形成之间,我们加入了一个R型协调器,此协调器的功能是验证假设在数据库中的合理性;然后,我们加入了S型协调器,此协调器的功能是验证假设在现实中的合理性;规则入库前,还需经过T型协调器,此协调器主要验证新知识与已有知识的相容性等。经过这三个协调器的作用后,我们进行规则评估。评估过程主要是人机对话,领域专家直接参与,评价该条规则是否具有实际价值。故融入了双基融合机制的KDK*的主要优越性体现在对于假设规则的自主性评价过程中。在以往的算法中,对于假设规则的评价过程很难进行,评估函数的采用一般是使用固定的很少变化的函数;这样评估之后还需要领域专家的大量参与,以人为的方式来评定规则的可用性。而双基融合机制的使用大大减少了人的参与量,在专家的评估前假设规则已经过了数据库的评估和KDD*过程的评估,将部分意义不充分的规则删除。
分级诊断、决策等子系统的技术实现方案:在这一子系统中,我们主要介绍我们给出的基于信息补偿量的决策树生成算法的技术。其实现方案如下:输入:训练样本集S;候选属性集attributes_list,类别标识属性C输出:一棵判定树.
步骤1、创建节点N;步骤2、若所有训练数据S都在C的同一类,则返回N作为叶节点,并将N的名字记为C中该类的类别号;步骤3、若attribute_list为空,则返回N作为叶节点,并将N的名字记为;步骤4、attribute_list中选择具有最小信息补偿量的测试属性b∈attribute_list;步骤5、将N的名字记为b;步骤6、对b的每一个属性值做如下操作:将b的每一个属性值aj,由节点N生长出名为aj的分枝;求sj={s|s∈S,s.b=aj}//划分块;若Sj为空,则加上一个树叶,并将该树叶记为;若Sj不空,则递归生成子树,返回的节点;步骤7、结束.
针对决策树算法进行了概念性的分析和ID3算法的不足,引入认识熵和信息补偿量,将属性的信息补偿量作为启发信息,设计了基于信息补偿的决策树生成算法.较好地实现了一般决策树算法的过剩生长问题,有利于决策规则的合理存放,同时也加快了推理机推理的速度。
推理机子系统的技术实现方案:在这一子系统中,我们介绍我们给出的基于泛蕴含算子的三I算法的技术。由于三I算法只是一些理论的结果,故在后面的理论基础中再阐述。
其它子系统的技术与现代专家系统的技术差不多,这里不再阐述。
本发明的优点与意义在于:(1)丰富性:传统知识库系统仅在基础知识库中利用推理机扩展知识,而ESKD的动态知识库经历了基础-衍生-合成-综合-扩展的一系列提升过程,知识存储的数量与质量均极大丰富(传统的知识库系统是ESKD动态知识库系统的子系统),并且其管理系统完备,能够高智能地发现深层知识与评价知识。(2)具有很强的推理(包括演绎、归纳、模糊、定性、基于案例的推理、统计推断等)与解释能力。(3)独立性:系统采用结构化系统分析的方法,将整个专家系统分成相对独立的可完成不同功能的六个子系统。各子系统既可以协同工作,又可以独立地被不同用户使用。(4)自学习与自适应性:通过协调器的作用、案例学习以及知识训练等方式可提高自学习的功能,不断获得新的知识加入到动态知识库中;同时基于知识发现的动态知识库及数据库都在时间与空间的延伸中,随着抽象级的增加而再生出适合于环境变迁的新知识,使整个系统具有较强的自适应性。(5)通用性:ESKD针对广义诊断的问题,适用于相当广泛的领域;同时ESKD开发系统支持客户/服务器(cline/sever)体系结构与各类数据库系统。(6)可行性:本专家系统采用的是成熟的数据挖掘技术,如统计归纳法,因果关系定性推理等,根据其设计的演示系统结果表明是可行的;另外这对于专家系统的理论研究也具有重要意义。
附图说明
图1为ESKD的总体结构图;图2为KDD*的总体结构图;图3为KDK*的总体结构图;图4为KD(D&K)的总体结构图;图5为推理机的推理方法库图。
图6为合成知识库的形成过程图。
图7为启发式协调器算法流程图。
图8为维护型协调器算法流程图。
图9为本发明的知识表示示意图。
图10为本发明的知识子库与数据子库的对应结构图。
图11为本发明的专家知识获取方法示意图。
图12为本发明的问题推理过程示意图。
图13为本发明中的KDD*挖掘过程示意图。
图14为本发明问题推理过程流程图。
图15为本发明中KDD*挖掘过程流程图。

具体实施方式

1.理论基础:由图9中的关系,可以给出如下相关定义:1.1知识表示方法-语言场与语言值结构(相关内容详见相关专利申请文件);定义1:C=<D,I,N,≤N>,若满足下列条件:(1)D为基础变量论域R上交叉闭区间的集合,D+为其对应开集;
(2)N≠Φ为语言值的有限集;(3)≤N为N上的全序关系;(4)I:N→D为标准值映射,满足保序性,即:n1,n2∈N(n1≠n2∧n1≤N n2→I(n1)≤I(n2)),(≤为偏序关系);则称C为语言场。
定义2:对于语言场C=<D,I,N,≤N>,称F=<D,W,K>为C的语言值结构,如果:(1)C满足定义1;(2)K为自然数;(3)W:N→Rk满足: n1,n2 ∈N(n1≤N n2→W(n1)≤dicW(n2)>, n1,n2∈N(n1≠n2→W(n1)≠W(n2)).
其中,≤dic为[0,1]k上的字典序,即(a1,....,ak)≤dic(b1,....,bk)当且仅当存在h,使得当0≤j<h时aj=bj,ah≤bh。
1.2挖掘库与知识库之间泛同伦关系的建立:(相关内容详见专利ZL出01145080.0说明书)1)知识结点:定义3:在相关于论域X的知识子库中,称按如下形成表达的知识为不确定性规则型知识:(1)P(X)Q(X)(2)P(X)⇒^j=1nQj(X)]]>(3)^i=1nPi(X)⇒Qj(X)]]>(4)^i=1nPi(X)⇒^j=1mQj(X)]]>其中P(X),Pi(x),Q(X),Qj(X)分别为“属性词”(或“状态词”)+程度词”的形式。
定义4:在定义3中,P(X)与Pi(x)称为知识始结点,Q(X)与Qj(X)称为知识终结点,并分别称为知识素结点; 分别称为知识合结点;两者统称为知识结点。
2)数据子类(结构):定义5:对于论域X,在相应于知识子库的数据子库中,与每个知识素结点相应的结构S=<U,N,I,W>称为数据子类结构。其中,U≠Φ,U={u1,u2,...},(ui是数据集,由下述的I形成),它是在特定的语言场与语言值结构下,表征相应于知识素结点“属性词”或“状态词”的数据集的类(称为数据子类);N≠Φ为语言值的有限集,它是刻划相应于知识素结点“程度词”的语言值的集合;I:N→U,它是按语言值将数据集的类U进行划分的映射。在数据连续分布时,通常划分为若干交叉区间(即:∀i,j(ui∩uj≠Φ));]]>W:N→[0,1]K(k为正整数)满足:
n1,n2∈N(n1≤Nn2→W(n1)≤dicW(n2)),n1,n2∈N(n1≠n2→W(n1)≠W(n2)).
3)“知识结点”与“数据子类(结构)”的关系:定义6:设X与Y是任意的拓扑空间,称连续映射F:X×[0,1]n→Y为X到Y的映射的泛同伦。(通常意义下同伦概念的扩展)。
定义7:设f,g为从拓扑空间X到Y的连续映射,若存在泛同伦F(x,t)=ft(x),使得对于任意点x∈X均有f(x)=F(x,(0,...,0)),g(x)=F(x,(1,...,1)),则称g泛同伦于f,并称F为连续映射f与映射g的泛同伦,记作f~g。
定义8:设给定两个拓扑空间,若至少存在一个空间到另一个空间的一个泛同伦等价的映射,则称这两个空间为同一泛同伦型的空间。
由上述分析可知:在把一个空间换成同一个泛同伦型的空间时,泛同伦类集合的结构并无改变,  所以在同伦理论里,可以把同一泛同伦型的空间看做是相同的。故定理3给出了知识子库中“知识素结点”与相应数据子库中“数据子类结构”中的层之间的一一对应关系,如图10所示。
1.3类比推理在使用问题推理时,有:若说问题t类似于问题b时,是指有问题t的属性P(t)和问题b的属性P’(b)。
定义9:属性类比推理是指,如果t~b,且P(b)成立,则可类比推出P(t)成立,即 t~b,P(b)|~P(t)定义10:设对象a和b分别有属性集P(a)和P(b),则对象a和b之间的相似度可定义为交集的大小S(a,b)=α|P(a)U P(b)|-β|P(a)-P(b)|-γ|P(b)-P(a)|其中符号“-”表示差集,α、β、γ为大于0的常数。
1.4广义细胞自动机定义11:在离散化的欧几里德时空条件下, 称为细胞自动机。其中,U是状态空间U,其元素u称为状态;T是时间序列,其元素t称为时刻;E是细胞集合,其元素e称为细胞(即空间区域);η={φ1,φ2,…}是映射集合,元素φi:E*T□U称为赋态映射。
定义12: 称为因果细胞自动机,若因果必然性规律φi(N(e),t)□φj(e,t)满足下列三个条件:(1)有限变化原理-自然界的因果必然性规律是构筑在适于描述任何时空区域的有限集合基础上,每个时空区域都可作为这些性质的描述对象;(2)因果存在性原理-规律支配某时空区域,则对自动机大部分区域也适用(适于似决定论的细胞自动机);(3)因果一致性原理-该规律不仅适于某时空区域,而且适于整个细胞自动机,即整个可达性时空区域(适于决定论的细胞自动机);
定义13:归纳逻辑因果模型是满足下列条件的语义结构X=<S,П>
(1)S=(Sa,S1,......SM),Si为受因果必然性规律所支配的可能的因果世界,Sa为现实的世界;Si=(Vi1,Vi2,......),Vij表示组成Si的不同的历史,每个历史是不同时空段的世界。
(2)П是满足定义10的因果细胞自动机;每个可能的因果世界都用相应的因果细胞自动机来描述。
定义14:Γ*=<П*,→>称为广义细胞自动机,若因果必然性规律*i(N(e),t)→*j(e,t′)满足定义10,和下述条件:(1)因果状(变)态原理-在连续、渐变的因果联系过程中,对于任意样本空间而言,细胞e在时刻t′的所有可能的状(变)态(作为结果)必然是由前一时刻t细胞e的邻域N(e)取“正”(如语言值“小”)与“反”(如语言值“不小”)两类状态作为原因所导致的。
(2)(变态与状态转换原理)当原因与结果所取变态与状态的语言场同构时,对于因果变态联系的规律同样适用于因果状态联系的规律,反之亦然。
1.6知识短缺启发型协调器的功能是模拟“创建意向”这一认知心理特征,从而实现系统自身发现知识短缺(短缺知识就是知识库中到当前为止还没有的知识).在经典KDD进程中,系统的聚焦通常是由用户提供感兴趣方向,大量数据中的潜在有用的信息往往被用户忽略.为帮助KDD尽可能多的搜索到对用户有用的信息,以弥补用户或领域专家自身的局限性,提高机器的认知自主性,我们构造了启发型协调器.这样,知识发现系统在原有的用户聚焦的基础上,又增加了系统自身提供聚焦方向的功能.
那么何为“知识短缺”呢?我们要做如下的限定:(1)短缺知识只考虑单个后件的规则;(2)同一属性的属性程度词不同时出现在同一规则的前件和后件中;(3)根据具体问题确定短缺知识最多的前件个数,因为前件个数过多势必造成规则难于理解.
(4)对某条规则e1∧e2∧...∧em→h,其规则长度为m+1:(5)如果知识库中已有了A→B和B→C,则规则A→C就不是短缺的知识.
如何发现“知识短缺”呢?如果知识库中只考虑单前件和单后件的知识,我们可以把规则的前件和后件看作图的顶点,利用图论中求解可达关系的方法来发现“知识短缺”.但知识库中的规则很多都具有多个条件,为此,我们定义了有向超图来解决这个问题.
定义15:一个超图是一个二元组<V,E>,其中V={p1,p2,...pn}是一个非空集合,它的元素称为有向图的顶点;E={e1,e2,...,em}是超边的集合,其中任意的ei(i=1,2,...,m)都是V的一个子集.
定义16:一个有向超图是一个二元组<V,E>,其中V={p1,p2,...pn}是素知识结点的集合作为图的顶点,E={e1,e2,...,em}是知识库中规则所对应的有向边.如一条规则ri=p1∧p2∧...∧pk→pj,则有向边ei=<(p1,p2,...,pk),pj>是一个序偶,其第一个元素是V的一个子集,与规则的前件相对应,其第二个元素是V的一个元素,与规则的后件相对应.
定义17:我们称与同一条超边关联的顶点互相邻接;若两条超边有一公共顶点,则称这两条有向超边邻接.
我们使用关联规则的支持度(support)的概念来描述规则强度的客观方面.即规则A→B的支持度是数据库事务的集合中同时包含A和B的百分比.
定义18:感兴趣度(interestingness)是指对数据库中的各属性或属性程度词的感兴趣程度,也就是用户对知识库中知识素结点的感兴趣程度.在预处理阶段,首先由用户给出每个属性程度词的感兴趣度,即对知识素结点ek的感兴趣程度,记为Interestingness(ek),其值域为[0,1],该值越大,说明用户对该知识素结点越感兴趣.对于知识合结点F=e1∧e2∧...∧em,其感兴趣度为各知识素结点的感兴趣度的平均值,即Interesting(F)=Σi=1mInterestingness(ei)/m]]>对于一条规则ri:F→h,它的感兴趣度为Interestingness(ri)=[Σi=1mInterestingness(ei)+Interestingness(h)]/Len(ri)]]>其中,Len(ri)是规则ri的长度.
定义19:规则强度(Intensity)包含对规则的客观的支持度和主观的感兴趣度两方面.对规则ri:F→h,其规则强度为Intensity(ri)=[Interestingness(ri)+support(ri)]/2规则强度同时考虑了主观和客观两方面.一方面,即使支持度较小,只要用户对该规则特别感兴趣,则规则强度就不会太小,从而该知识还可以被聚焦;另一方面,如果用户对某一规则不太感兴趣,只有该规则具有很高的支持度才有可能被聚焦.
维护型协调器的功能是模拟“心理信息修复”这一认知心理特征,从而实现知识库的实时维护.由于维护型协调器对KDD过程的介入,可以在对于重复性、矛盾、冗余性给予准确定义的基础上,利用超图等理论工具,实时地、尽早地将重复、矛盾、冗余的知识进行处理,从而做到只对那些有可能成为新知识的假设进行评价,最大限度地减少了评价工作量;同时,可对知识库进行实时维护.在实际的专家系统中,最终成为新知识的假设占原假设的比例是很小的,大量假设会是重复和冗余的,因此维护型协调器的引入将提高KDD的效率.在这里,首先给出知识重复、矛盾和冗余的定义,然后给出维护型协调算法.
定义20:若在可达矩阵中p(fi1,fi2,...,fis),j)=1,则称知识R:fi1∧fi2∧...∧fis→j是重复的.
定义20:知识R:fi1∧fi2∧...∧fis→j是矛盾的当且仅当在知识库中存在一个知识T:fi1,fi2,...,fis→i且attr(pi)=attr(ps).
定义21:知识R:fi1∧fi2∧...∧fis→j是冗余的当且仅当在知识库中存在一个知识T:fi1,fi2,...,fis→i和知识K:i→j.
1.7基于信息补偿的决策树生成算法的理论基础定义22:设样本空间S中有s个样本,样本集的类别标号属性有n个不同的值,即S中的元素分为n个不同的类Ci,i=1,2,...,n,si是类Ci中样本的数目,测试属性集.设A是测试属性集中的某一测试属性,A有υ个不同的属性值{a1,a2,...,aυ},A在样本集S上产生一个有υ个块的划分{A1,A2,...,Aυ},其中Aj是属性A的值为aj的样本集,aij表示Ci类中的元素(或元组)在划分的块Aj中的个数.则称IAC=-Σj=1υ|Aj||S|log|Aj||S|+Σj=1υ|Aj||S|IAj]]>为认识熵.其中IAj=IAj(a1j,a2j,...,anj)=-Σi=1naij|Aj|log2aij|Aj|.]]>(相关定理证明见相关的文献)显然,在概念分解中,每一步我们计算得到的若干个认识熵,其值一般是不同的,这恰好反映了我们选择不同的属性得到同样的认识结果所需要的信息量也经常是不相同的.
定义23:设样本空间S中有s个样本,样本集的类别标号属性有n个不同的值,即S中的元素分为n个不同的类Ci,i=1,2,...,n,si是类Ci中样本的数目,测试属性集 设A是测试属性集中的某一测试属性,A有υ个不同的属性值{a1,A2,...,aυ},A在样本集S上产生一个有υ个块的划分{A1,A2,...,Aυ},其中Aj,是属性A的值为aj,的样本集,aij,表示Ci类中的元素(或元组)在划分的块Aj,中的个数.称IC(A)=IAC-I(s1,s2,...,sn)为相应选择属性的信息补偿量,简称信息补偿.
信息补偿量是在树形分解中每一步选择属性时所需的额外信息量,反映了所选认识路径的优良度.通俗的说,就是信息补偿量越小,我们所走的弯路就越少.
回到构造分类器的问题.我们应该选择哪一个属性作为第一个测试属性呢?显然,根据以上分析,我们应当选择产生的信息补偿量最小的属性作为测试属性.如果我们在每一级概念分解时都以此为原则,那么就理应能够得到较佳的认识路径,在这里指分类的途径.
1.8基于泛蕴含算子的三I算法的理论基础定义24:集合[0,1]上的二元运算I(x,y)是“泛蕴含”算子,当且仅当它满足以下条件.
(1)如果事实完全可信,则规则强度就等于结论的可信度;如果事实可信,结论却完全不可信,则该规则就完全不可信.即I(1,y)=y,I(1,0)=0;(2)如果事实越不可信,结论却越可信,则规则越可信,即I(x,y)关于x是单调减的,关于y是单调增的;(3)如果结论比事实更可信,则该规则就完全可信,否则该规则就不完全可信.即若x≤y,则I(x,y)=1;若x>y,则I(x,y)<1;(4)若结论完全不可信,则该规则的可信度将随事实的可信度严格单调下降.即若x1>x2,则I(x1,0)<I(x2,0);α-三IFMP原则  设X,Y是非空集,A,A*∈F(X),B∈F(Y),对于一般蕴含算子I(x,y),B*(y)(y∈Y)是使I1(I2(A(x),B(y)),I3(A*(x),B*(y)))≥α对一切x∈X都成立的F(Y)中最小的Fuzzy集.其中,F(X),F(Y)分别是论域X,Y上的Fuzzy集的全体,α∈[0,1].其中I1(x,y),I2(x,y)和I3(x,y)是满足定义24的泛蕴含算子,它们可以相同,也可以不相同,也可以是其中任意两个相同,即可得到基于泛蕴含算子的扩展型α-三I原则.
(扩展型α-三IFMP算法)设X,Y是非空集,A,A*∈F(X),B∈F(Y),对于一般蕴含算子I1(x,y),I2(x,y)和I3(x,y),B*(y)是使I1(I2(A(x),B(y)),I3(A*(x),B*(y)))≥α对一切x∈X都成立的F(Y)中最小Fuzzy集的计算公式如下:B*(y)=supx∈ky{f(A(x),B(y),A*(x))^A*(x)}ky≠φ0ky=φ]]>其中ky={x ∈X|I1(I2(A(x),B(y)),I3(A*(x),0))<α},f(A(x),B(y),A*(x))是等式:I1(I2(A(x),B(y)),I3(A*(x),t))=α的最小解,这里t∈[0,1]被看成是未知数.
扩展型α-三I FMT原则  设X,Y是非空集,A∈F(X),B,B*∈F(Y),对于一般蕴含算I1(x,y),I2(x,y)和I3(x,y),B*(y)(y∈Y)是使I1(I2(A(x),B(y)),I3(A*(x),B*(y)))≥α对一切y∈Y都成立的F(X)中最大的Fuzzy集.
扩展型α-三IFMT算法)设X,Y是非空集,A∈F(X),B,B*∈F(Y),对于一般蕴含算子I1(x,y),I2(x,y)和I3(x,y),A*(x)是使I1(I2(A(x),B(y)),I3(A*(x),B*(y)))≥α对一切y∈Y都成立的F(X)中最大的Fuzzy集的计算公式如下:
其中kx={y∈Y|I1(I2(A(x),B(y)),I3(1,B*(y)))<α},f(A(x),B(y),B*(y))是满足等式I1(I2(A(x),B(y)),I3(t,B*(y)))=α的最大解,其中t∈[0,1]是未知数.
基于泛蕴含算子的三I算法的意义:泛蕴含算子比常用的模糊蕴含算子更为广泛,故我们提出的基于泛蕴含算子的三I算法,比常用的模糊推理方法的适用范围更为广泛,从而在使用三I算法时,可以灵活地挑选蕴含算子,使得推理的结果更符合实际.
2本发明实现机理:2.1领域专家的知识获取如图9所示为本发明所采用的专家知识获取方法示意图。步骤如下:1)首先要对领域进行的定义,然后引导、记录并分析专家口述知识;2)搜索知识元素,将检测出来的概念与包含它们的记录段一起加以存储。记录段的语义分析,对记录段中的所有词汇进行检查,看其是否包括顺序关系(如小于、等于)和倾向(如稳定、增加)等。
1)将知识元素及其相互联系的运算符共同构成命题演算,并与现有知识的匹配导致完整命题的最终实现。
2)中间知识表示,记录分析的所有输出都集成到中间知识表示系统。每个命题由一个运算符(表示概念之间的关系)、一个段标记(指向提供该命题的记录段的指针)、及相关的概念组成。
3)检查结构化对象的网络的完整性,对检查到的不完整性,应重复会谈和文本分析过程。
4)将语义网中的结构化对象翻译成框架形式,并修改操作通过调用结构编辑器进行,由知识工程师完成规则集合的组织和控制策略的选择。
5)约束生成,在发现数据之间有全局性依存关系时,由用户用鼠标选择数据和它们的关系,从而形成约束语言。
2.2推理机制如图12所示,为推理过程示意图。其输入为根据一个包括用一种或多种知识表示方法描述的已知问题及其解法的描述集合的知识库和需要求解的新问题。输出为解决了的新问题和扩充了的知识库。
1)对已知问题及其解法进行索引,以方便检索;2)在知识库中搜索和需要解决的问题类似的相似问题,如找出相似问题进行问题求解,否则转去用其他方法求解;3)对找到的相似问题的解法进行改造,使之适于解新问题;4)用改造好的新解法解决新问题。
5)把成功的新解法用知识库的表示方法进行“规范化”,并纳入知识库,以便日后调用。
2.3 KDD*挖掘过程(详见专利:基于双库协同机制的KDD*新系统)如图13所示,为KDD*挖掘过程示意图,包括1)数据预处理:对真实数据库中的数据进行再加工,形成发掘数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;2)聚焦:由通过人机交互输入的内容来指导数据发掘的方向;3)定向挖掘:启发型协调器搜索知识库中“知识结点”的不关联态,计算有向超图的可达矩阵来实现发现“知识短缺”,产生“创见意象”,从而启发与激活真实数据库中相应的“数据类”,以产生“定向发掘进程”,进而用规则强度阈值进行剪枝并由计算机自动完成聚焦。
4)求取假设规则:通过选定的知识发掘法,从发掘数据库中提取用户所需要的知识,并用特定的模式表达所提取的知识,主要通过可信度阈值来实现(以挖掘关联规则为例)5)实时维护:当从真实数据库的大量数据中经聚焦而生成规则(知识)后,中断型协调器则用SQL语言或计算有向超图的可达矩阵,去搜索知识库中对应位置有无此生成规则的重复、冗余、矛盾、从属、循环等。若有,则取消该生成规则或相应处理后返回KDD的“始端”;若无,则继续KDD 进程,即知识评阶。
6)评价:对步骤5)处理后并被选取的规则进行价值评定,将被接受的规则存入衍生知识库。
图14所示为问题推理过程流程图。
步骤1、使指针指向知识库中的第一条知识;步骤2、判断知识库是否已经搜索完毕,如还有知识未被检索,则转步骤3;步骤3、从知识库中将此规则提取出来;步骤4、根据此规则前提和数据库所支持的该规则的可信度等参数,得到该规则结论的可信度;步骤5、判断该结论可信度是否大于可信度阈值,如不大于,则转步骤6;步骤6、取下一条规则,系统执行步骤2;否则如可信,则转步骤7;步骤7、使该结论作为新事实放入数据库中,如果该结论已经在数据库中了,根据可信度计算模型重新计算新的模型,并从知识库中删除知识R,并转向执行步骤2。知识库搜索结束后,转步骤8;步骤8、判断数据库内容是否有增加,如有则转向步骤1;否则转步骤9;步骤9、将数据库中的相关结论取出。
如图15所示的KDD*挖掘过程示意图,具体参见相关申请专利:步骤1、对真实数据库进行预处理,形成挖掘数据库;步骤2、将计数指针置为1;
步骤3、从挖掘数据库产生所有大于最小支持度的数据的集合,即大项集Li;步骤4、从知识库中产生候选集Ci+1;步骤5、判断候选集是否为空,如果判断是肯定的,则转到步骤13;否则执行步骤6;步骤6、计算规则强度intensity(cm);步骤7、判断规则强度是否小于规则强度阈值MinIntensity,如果判断是肯定的,则执行步骤8以删除cm,然后转到步骤14;如果判断是否定的,则执行步骤9;步骤9、产生知识短缺集Ki+1;步骤10、判断知识短缺集Ki+1是否为空,如果判断是肯定的,则转到步骤13,否则执行步骤11;步骤11、调用KDD进程进行数据的挖掘;步骤12、使计数指针加1后转到步骤4;步骤13、显示产生的新规则;步骤14、则结束本次运行。
计算有向超图的邻接矩阵P(H)的算法。
Function calculate_reach_matrix步骤1、知识库中所有的知识素结点的ID号,1,2,...n,组成一个矩阵Pnxn,用一个二维数组来表示Pnxn,其元素均为0,即P(i,j)=0,其中i,j=1,2,...,n;步骤2、e:=1;步骤3、读取知识库中第e条长度为2的规则re:pi→pj;步骤4、矩阵P(H)的元素P(i,j)=1;步骤5、Calculate_matrix1(j,i,n);//调用过程Calculate_matrix1,见后面步骤6、知识库中长度为2的规则是否读完?若没读完,则e:=e+1,转步骤3);否则转7);步骤7、e:=1;步骤8、读取知识库中的第e条长度大于2的规则re:pf1∧pf2∧…pfj→pi;步骤9、Calculate_matrix2((f1,f2,....,fj),i);//调用过程Calculate_matrix2,见后面步骤10、知识库中长度大于2的规则是否读完?若没读完,则e:=e+1,转步骤8;否则结束.
过程Calculate_matrix1(j,i,n:integer)步骤1、for k:=1 to nP(j,k):=P(j,k)∨P(i,k)步骤2、for m:=1 to nIf P(m,j)=1 then
for k:=1 to nP(m,k):=P(m,k)∨P(j,k)Procedure过程Calculate_matrix2((f1,f2,...,fj),i)//(j>1)步骤1、若虚结点pf1∧pf2∧...pfj不存在,则可达矩阵的后面加一行表示该结点步骤2、P(pf1∧pf2∧...pfj,i)=1;步骤3、for s:=1 to nP(pf1∧pf2∧...pfj,s):=P(pf1∧pf2∧...pfj,s)∨P(i,s)我们实现了找出长度不大于2的短缺知识.但对长度大于2的短缺知识则不能全部从可达矩阵P(H)中得到,因为该矩阵中只包含了在知识库中出现的合结点.为此,我们定义了规则强度来找出长度大于2的短缺知识.
由于规则强度中包含了支持度,因此可利用该支持度对短缺知识分层聚焦.即对长度为2的短缺知识K2进行聚焦,然后对长度为3的短缺知识K3进行聚焦,直至长度为L的短缺知识为空,即KL=φ;或者长度大于预先给定的最大长度M,即L>M.K2可直接从可达矩阵P(H)中产生,K2与知识库中已有的知识构成集合K2’(rj∈K′2,support(rj)>min_sup)(这里min_sup是最小支持度阈值),K3将利用支持度从K2’中产生.因为r3∈K3,r3的支持度必不大于r3子集的支持度,即support(r3)≤sup(r2),其中r2是r3中的任意两个知识素结点组成的规则,而support(r3)>min_sup,故support(r2)>min_sup,因此r2∈K′2.
接下来,启发协调器自主地形成新聚焦以发现新知识,即产生“创见意向”.
下面,我们给出启发协调算法.
Procedure Heuristic_Coordinator(K2)//产生所有长度为2的短缺知识步骤1、把可达矩阵从数据表ReachMatrix中读出,把support(pi)>min_sup的知识素结点与全部知识合结点存入数组P中;步骤2、K2=φ;步骤3、for i:=0 to n//可达矩阵的列数for j:=0 to n//可达矩阵的列数if(P(i,j)=0 and attr(pi)≠attr(pj)and support(pipj)>min_sup)//attr(pi)为知识素结点pi所对应的属性,相同属性的不同程度词不能出现在同一规则中,对i,j对应的数据表tablei,tablej进行挖掘计算support(ri)K2=K2U{i→j};过程Heuristic_Coordinator(Kx-1,Kx)//由长度为x-1的短缺知识产生所有长度为x(x>2)的短缺知识步骤1、Kx=Φ;步骤2、对于Kx-1中任意两规则fi1∧fi2∧...∧fix-1→j和gi1∧gi2∧...∧gix-1→i,若fi1=gi1,...,fix-1=gix-1且j≠i,则Kx=Kx∪{fi1∧fi2∧...∧fix-1∧i→j,fi1∧fi2∧...∧fix-1∧j→i}
步骤3、对所有ri∈Kx步骤4、若support(ri)<=min_sup then//对ri对应的数据表table1,table2,...,tablep,tableq进行挖掘;计算support(ri)步骤5、Kx=Kx-ri;下面,我们给出维护型协调器算法:过程Ma intenance_Coordinator(R:fi1∧fi2∧...∧fis→j)//len(R)=x步骤1、若R是重复的,则{Kx=Kx-R;return 0;}步骤2、若R是矛盾的,则{Kx=Kx-R;return 0;}步骤3、若R是冗余的,则{Kx=Kx-R;return 0;}步骤4、return 1;基于双库协同机制--这一构建KDD过程中最重要的两个参与要素(数据库与知识库)本质联系的认知规律,利用新的知识发现结构模型KDD*(特别是两个协调器),我们提出了Maradbcm算法.该算法较好地解决Apriori算法存在的某些问题.
Maradbcm算法赖以产生的理论基础是双库协同机制与KDD*新结构模型.此处说明四点:1)根据结构对应定理,知识库中的知识素结点与数据库中数据子类结构的层相对应,也就是和该素结点相应的属性程度词相对应.为此经过预处理[30]把真实数据库分成n个表(table),即table1,table2,...,tablen,n为属性程度词的个数,而tablek中的k对应了每个属性程度词的ID号.每个表的字段只有一个,用来存放真实数据库中的数据的ID号,该ID所对应的数据处于属性程度词k所描述的状态.挖掘数据库就是由这n个Table组成,这样就无需搜索整个数据库,对于每条短缺的知识只需扫描知识结点所对应几个表.这对于大型数据库就显得尤为重要,这些小的表可以放入内存进行运算,而整个数据库就无法进行(即Apriori算法就会受到影响).
2)知识子库以属性为基础,其特点是便于形成知识结点与数据子类的对应关系,从而为定向数据挖掘奠定基础.其逻辑结构是在相应的论域内,以属性为基础将规则库类化为若干规则子库,每一规则子库与挖掘数据库相对应.
3)双库协同机制主要由启发型协调器和维护型协调器来实现.启发型协调器的功能是通过搜索知识库中“知识结点”的不关联态,以发现“知识短缺”,产生“创见意向”,从而启发与激活真实数据库中相应的“数据类”,以产生“定向挖掘进程”,即完成了系统自动聚焦.维护型协调器的功能是当从真实数据库的大量数据中经聚焦而生成规则(知识)后,使KDD进程产生“中断”,而去搜索知识库中对应位置有无此生成规则的重复、冗余、矛盾、从属、循环等.若有,则取消该生成规则或相应处理后返回KDD的“始端”;若无,则继续KDD进程,即知识评价.
4)KDD*的软件实现主要包括启发型协调器、KDD过程和维护型协调器的功能实现.启发型协调器主要通过计算有向超图的可达矩阵来实现发现“知识短缺”,进而用规则强度阈值进行剪枝并形成聚焦;KDD过程主要通过可信度阈值来实现(以挖掘关联规则为例);而维护型协调器则用SQL语言或计算有向超图的可达矩阵来判断知识的重复、冗余、矛盾、从属、循环等,并进行相应的处理.
Maradbcm算法设规则强度阈值为Min_Intensity,支持度阈值为Min_Sup,可信度阈值为Min_Con.
步骤1、数据预处理:这里主要是用户选择真实数据库,对于多值属性进行离散化.
步骤2、划分数据子库,依据子库建立数据子类结构,形成挖掘数据库;划分知识子库,依据知识子库建立知识结点,调用过程calculate_reach_matrix产生可达矩阵,从而形成挖掘知识库.
步骤3、调用过程Heuristic_Coordinator(K2)产生K2;步骤4、m=2;步骤5、对Km产生假设规则:对Km中的短缺知识ri:e1∧e2∧...∧ep→eq(ri∈Km),进行定向挖掘,即对数据表table1,table2,...,tablep,tableq进行挖掘,计算Con(ri)和Intensity(ri),如果Con(ri)>Min_Con并且Intensity(ri)>Min_Intensity(ri),则转6);否则,Km=Km-ri,转8);步骤6、对规则ri应用维护型协调器进行处理.即若Maintenance_Coordinator(ri)==0,则取消该生成规则或相应处理;转8);若无,则转7);步骤7、对规则ri进行评价.若评价通过则入库;若m==2,调用过程Calculate_matrix1(s,t)(ri:(s→t))来调整超图的可达矩阵;否则调用过程Calculate_matrix2((f1,f2,...,fs),t)(ri:(f1∧f2∧...∧fs→t))来调整超图的可达矩阵.若评价没有通过,则删除该规则;步骤8、Km是否结束.若结束,当m==2时调用X1(P),否则调用X2(P);调用过程Heuristic_Coordinator(Km,Km+1)来产生Km+1,转9);若没结束,则转5)进行下一条规则的处理;步骤9、m=m+1,若Km=φ或者m>M(M为预先给定的最大长度),转10);否则,转5);步骤10、显示新产生的规则;步骤11、结束.
过程X1(P)步骤1、for i:=0 to n//可达矩阵的列数步骤2、for j:=0 to n//可达矩阵的列数if(P(i,j)==1)  Km=KmU{i→j};过程X2(P)//带有结点的规则步骤1、for i:=n+1 to T//T为可达矩阵的行数步骤2、for j:=0 to n//可达矩阵的列数
if(P(i,j)==1)Km=KmU{i→j};基于信息补偿量的决策树生成算法算法:Generate_deci sion_tree(S,attribute_list)//由给定的训练数据集S产生一棵判定树.
输入:训练样本集S;候选属性集attributes_list,类别标识属性C输出:一棵判定树.
方法:步骤1、创建节点N;步骤2、若所有训练数据S都在C的同一类,则返回N作为叶节点,并将N的名字记为C中该类的类别号;步骤3、若attribute_list为空,则返回N作为叶节点,并将N的名字记为;步骤4、从attribute_list中选择具有最小信息补偿量的测试属性b∈attribute_list;步骤5、将N的名字记为b;步骤6、对b的每一个属性值做如下操作:将b的每一个属性值aj,由节点N生长出名为aj的分枝;求sj={s|s∈S,s.b=aj}//划分块;若Sj为空,则加上一个树叶,并将该树叶记为;若Sj不空,则加上一个由Generate_decision_tree(Sj,attribute_list-{b})返回的节点;步骤7、结束.
以上具体实施方式仅用于说明本发明,而非用于限定本发明。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈