首页 / 专利库 / 资料储存系统 / 自动识别与数据采集技术 / 一种基于信息挖掘的智能决策支持构造方法

一种基于信息挖掘的智能决策支持构造方法

阅读:606发布:2021-03-11

专利汇可以提供一种基于信息挖掘的智能决策支持构造方法专利检索,专利查询,专利分析的服务。并且该 发明 公开了一种基于信息挖掘的智能决策支持构造方法(IDSSIM),该方法完善并扩充了现有智能 决策支持系统 的功能,改变了现有智能决策支持系统固有的运行机制,将决策推理机制、WEB挖掘和KDD*挖掘和领域专家知识获取有效地融入智能决策支持系统中,从而形成了一类具有“双网”、“五库”、综合集成、多层递阶结构模型的新型智能决策支持系统。此系统在结构和功能上相对现有系统而言是一个开放的、优化的扩体,并对智能决策系统的主流发展起着重要的推动作用,有望形成新一代的智能决策支持系统概型。,下面是一种基于信息挖掘的智能决策支持构造方法专利的具体信息内容。

1.一种基于信息挖掘的智能决策支持构造方法,包括:中央处理器、存储 器组成的数字计算机,所述的数字计算机与网络联接;其特征在于:
所述的存储器存储有真实数据库基础知识库、模型库、方法库、文本日 志库以及会话模、问题处理模块;所述的中央处理器对所述的存储器进行控 制并执行如下步骤:
步骤1、进行数据预处理,即:对真实数据库中的数据进行处理,形成处 理数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
步骤2、接收输入数据,即:接收用户通过所述的会话模块输入的要解决 的决策问题信息,且所述的会话模块把输入的问题信息传送给所述的问题处理 模块;
步骤3、进行聚焦,即:通过人机交互输入的信息来引导问题求解的趋向; 其具体过程为:所述的问题处理模块收集数据信息,并根据所述的知识库中已 有的知识数据判断和识别问题信息;如果出现问题信息,则通过所述的会话模 块与用户进行交互对话,直到问题信息得到明确,并与任务集包含的某类任务 相匹配;
步骤4、进行信息挖掘,即:搜寻任务解决的模型,得到辅助决策知识信 息,并用特定的模式表达所得到的知识信息;
步骤5、进行实时维护,即:对所获得的每一假设推理与所述的基础知识 库中原有的知识信息是否重复、冗余或矛盾,并根据判断结果作相应处理;
步骤6、进行评价,即:对步骤4所述的辅助决策知识信息进行价值评定, 将被接受的知识信息存入综合知识库。
2.根据权利要求1所述的方法,其特征在于,所述的进行信息挖掘是指: 采用问题推理的方式进行信息挖掘,即:搜寻任务解决的模型,对所述的基础 知识库进行搜索,并在所述的方法库中选定推理方法,决策推理得到辅助决策 知识信息,最后用特定的模式表达所得到的知识信息。
3.根据权利要求1所述的方法,其特征在于,所述的进行信息挖掘是指: 采用KDD*挖掘的方式进行信息挖掘,即:搜寻任务解决的模型,在所述的方 法库中选定KDD*挖掘算法,并对所述的基础知识库进行搜索以发现知识短缺, 以此定向地从数据库里进行数据的选择,挖掘得到辅助决策知识信息,最后用 特定的模式表达所得到的知识信息。
4.根据权利要求1所述的方法,其特征在于,所述的进行信息挖掘是指: 采用WEB挖掘的方式进行信息挖掘,即:搜寻任务解决的模型,运用选定的WEB 挖掘算法,对所述的文本日志库进行搜索,定向地从数据库里进行数据的选择, 挖掘得到辅助决策知识信息,最后用特定的模式表达所得到的知识信息。
5.根据权利要求1所述的方法,其特征在于,所述的进行信息挖掘是指: 采用问题求解的方式进行信息挖掘,即:搜寻任务解决的模型,根据模型所采 用的过程,在所述的方法库中选定所采用的推理方法或是KDD挖掘算法或是WEB 挖掘算法,得到辅助决策知识信息,最后用特定的模式表达所得到的这些辅助 决策知识信息。
6.根据权利要求1所述的方法,其特征在于,所述的存储器可采用若干大 容量存储器组成的超大容量存储装置;所述的数字计算机为若干台计算机组成 的数字计算机系统;所述的网络是指互联网和局域网。
7.根据权利要求2所述的方法,其特征在于:
步骤1中所述的数据再加工包括:对数据的完整性和一致性进行检查、对 噪音数据进行处理、对丢失的数据利用统计方法进行填补等;所述的对应关系 是指:知识子库的知识节点与数据子库子类结构层间建立的一一对应关系;
步骤2中所述的问题输入是指:在接受和检验用户的请求后,将用户需求 转换为系统可识别、可处理的问题信息;其中涉及知识子库的使用和知识的表 示方法;
步骤3中所述的聚焦包括以下具体步骤:1)任务集数据采集,其中所涉 及的数据及知识信息的来源包括:对管理专家充分的调查、对行业管理理论的 研究、以及对现行数据的分析调用;2)利用模糊综合评判技术,汇集用户的 情况,形成不同类型用户的评价标准,从而对用户进行自我诊断和自我定位, 同时根据用户的各级决策者的主要决策内容确定与用户有关的问题,以形成任 务集;3)针对将前一步骤所形成的问题,设计管理与控制平台,通过此平台, 与用户进行交互对话,直到问题明确;4)根据所述的基础知识库中以有的知 识,判断和识别问题信息,并使问题信息和任务集中的某类任务匹配;5)专 家知识获取,即:知识工程师和领域专家共同工作,建立健全有效的专家知识 库,以满足求解领域问题的需要的过程,其内容包括知识的提取,中间知识的 表示和生成知识库;
步骤4中所述的模型是指:建立一种具有自动选择功能的模型库;其内容 包括:1)将问题分解为数据和文本描述两个部分,对问题的文本描述部分进 行语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入 数据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选 择结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构 中的特定参数进行估值,完成模型事例的确定;3)由用户控制模型运行并对 结果进行分析;若不满意,允许用户使用系统维护功能查看、运行并进行修正;
步骤4中所述的问题推理包括:对专家知识进行分类,构造知识问答决策 树,使系统能够快速、准确的响应用户的咨询要求,其包括如下具体步骤:1) 对已知问题及其解法进行索引,以方便检索;2)在知识库中搜索和需要解决 的问题类似的相似问题,如找出相似问题进行问题求解,否则转去用其他方法 求解;3)在知识库中搜索和需要解决的问题类似的相似问题,如找出相似问 题进行问题求解,否则转去用其他方法求解;4)对找到的相似问题的解法进 行改造,使之适于解新问题;5)用改造好的新解法解决新问题,把成功的新 解法用知识库的表示方法进行“规范化”,并纳入知识库,以便日后调用;
步骤6中所述的辅助决策知识评价是指:通过人机交互界面由使用者评 价;或者:所述的辅助决策知识评价是指:利用可视化工具所提供的各类图形 和分析资料进行评价;或者:所述的辅助决策知识评价是是指:采用基于自认 知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定的阈 值,由所述数字计算机自动实现。
8.根据权利要求3所述的方法,其特征在于:
步骤1中所述的数据再加工包括对数据的完整性和一致性进行检查,对噪 音数据的处理,对丢失的数据利用统计方法进行填补等;所述的对应关系为知 识子库的知识节点与数据子库子类结构层间建立的一一对应关系;
步骤2中所述的问题输入是指,在接受和检验用户的请求后,将用户需求 转换为系统可识别、可处理的问题,其中涉及知识子库的使用和知识的表示方法;
步骤3中所述的问题聚焦包括以下具体步骤:1)任务集数据采集,其中 所涉及的数据及知识来源包括:对管理专家充分的调查、对行业管理理论的研 究、以及对现行数据的分析调用;2)利用模糊综合评判技术,汇集用户的情 况,形成不同类型用户的评价标准,从而对用户进行用户自身的诊断和定位, 并根据用户的各级决策者的主要决策内容确定与用户有关的问题,以形成任务 集;3)针对将前一步骤所形成的问题,设计管理与控制平台,通过此平台, 与用户进行交互对话,直到问题明确;4)根据知识库中已有的知识,判断和 识别问题,并使问题和任务集中的某类任务匹配;
步骤3中所涉及的专家知识获取是指知识工程师和领域专家共同工作,建 立健全、有效的专家知识库,以满足求解领域问题的需要的过程;实现知识抽 象和转换,其内容包括:知识的提取,中间知识的表示和生成知识库;
步骤4中所述的模型是指建立一种具有自动选择功能的模型库,其内容包 括:1)将问题分解为数据和文本描述两个部分,对问题的文本描述部分进行 语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入数 据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选择 结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构中 的特定参数进行估值,完成模型事例的确定;3)由用户控制模型运行并对结 果进行分析,若不满意,允许用户使用系统维护功能查看、运行并进行修正;
步骤4中所述的KDD*挖掘包括以下具体步骤:1)数据预处理,即:对真 实数据库中的数据进行再加工,形成发掘数据库,并与所述的基础知识库在基 于属性建库的构造下建立对应关系;2)聚焦,即:由通过人机交互输入的内 容来引导数据发掘的趋向;3)定向挖掘,即:启发型协调器对基础知识库进行 搜索以发现知识短缺,并以此定向地从发掘数据库里进行数据的选择;4)求 取假设规则,即:通过选定的知识发掘法,从发掘数据库中提取用户所需要的 知识,并用特定的模式表达所提取的知识;5)实时维护,即:中断型协调器 对基础知识库进行定向搜索,以判断步骤4)所获得的每一假设规则与基础知 识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;6)评 价,即:对步骤5)处理后并被选取的规则进行价值评定,将被接受的规则存 入衍生知识库;
步骤6中所述的辅助决策知识评价是通过人机交互界面由使用者评价、或 者是利用可视化工具所提供的各类图形和分析资料进行评价、或者是采用基于 自认知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定 的阈值,由所述数字计算机自动实现。
9.根据权利要求4所述的方法,其特征在于:
步骤1中所述的数据再加工包括对数据的完整性、一致性进行检查,对噪 音数据的处理,对丢失的数据利用统计方法进行填补等;所述的对应关系为知 识子库的知识节点与数据子库子类结构层间建立的一一对应关系;
步骤2中所述的问题输入是指,在接受和检验用户的请求后,将用户需求 转换为系统可识别、可处理的问题其中涉及知识子库的使用和知识的表示方法;
步骤3中所述的问题聚焦包括以下具体步骤:1)任务集数据采集,即: 所涉及的数据及知识来源包括:对管理专家充分的调查、对行业管理理论的研 究、以及对现行数据的分析调用;2)利用模糊综合评判技术,汇集用户的情 况,形成不同类型用户的评价标准,从而对用户进行用户自身的诊断和定位, 并根据用户的各级决策者的主要决策内容确定与用户有关的问题,以形成任务 集;3)针对将前一步骤所形成的问题,设计管理与控制平台,通过此平台, 与用户进行交互对话,直到问题明确;4)根据知识库中已有的知识,判断和 识别问题,并使问题和任务集中的某类任务匹配;
步骤3中所涉及的专家知识获取是指知识工程师和领域专家共同工作,建 立健全、有效的专家知识库,以满足求解领域问题的需要的过程;实现知识抽 象和转换,其内容包括知识的提取,中间知识的表示和生成知识库;
步骤4中所述的模型是指建立一种具有自动选择功能的模型库,其内容包 括:1)将问题分解为数据和文本描述两个部分,对问题的文本描述部分进行 语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入数 据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选择 结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构中 的特定参数进行估值,完成模型事例的确定;3)由用户控制模型运行并对结 果进行分析,若不满意,允许用户使用系统维护功能查看、运行并进行修正;
步骤4中所述的WEB挖掘过程包括以下步骤:1)特征提取,即:对Web 上采集到的挖掘目标样本进行特征提取,生成挖掘目标的特征矢量,并进行特 征项集的选取,存放到文本特征库中形成文本中间表示形式;2)WEB挖掘, 即:采用适当的挖掘算法,对Web的中间表示形式进行挖掘处理,得到潜在的 知识或者模式;3)模型质量评价,即:将挖掘得到知识或者模式进行评价, 将符合一定标准的知识或者模式呈现给用户;4)信息表示和信息导航,即: 将反馈的结果用可视化的方式进行显示,同时对用户提供信息导航功能,从而 方便用户有效的浏览和获取信息;
步骤6中所述的辅助决策知识评价是通过人机交互界面由使用者评价、或 者是利用可视化工具所提供的各类图形和分析资料进行评价、或者是采用基于 自认知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定 的阈值,由所述数字计算机自动实现。
10.根据权利要求5所述的方法,其特征在于:
步骤1中所述的数据再加工包括对数据的完整性、一致性进行检查,对噪 音数据的处理,对丢失的数据利用统计方法进行填补等;所述的对应关系为知 识子库的知识节点与数据子库子类结构层间建立的一一对应关系;
步骤2中所述的问题输入是指,在接受和检验用户的请求后,将用户需求 转换为系统可识别、可处理的问题其中涉及知识子库的使用和知识的表示方法;
步骤3中所述的问题聚焦包括以下具体步骤:1)任务集数据采集,所涉 及的数据及知识来源包括:对管理专家充分的调查、对行业管理理论的研究、 以及对现行数据的分析调用;2)利用模糊综合评判技术,汇集用户的情况, 形成不同类型用户的评价标准,从而对用户进行用户自身的诊断和定位,并根 据用户的各级决策者的主要决策内容确定与企业经营有关的问题,以形成任务 集;3)针对将前一步骤所形成的问题,设计管理与控制平台,通过此平台, 与用户进行交互对话,直到问题明确;4)根据知识库中以有的知识,判断和 识别问题,并使问题和任务集中的某类任务匹配;
步骤3中所涉及的专家知识获取是指知识工程师和领域专家共同工作,建 立健全、有效的专家知识库,以满足求解领域问题的需要的过程;实现知识抽 象和转换,其内容包括:知识的提取,中间知识的表示和生成知识库;
步骤4中所述的模型是指建立一种具有自动选择功能的模型库,其内容包 括:1)将问题分解为数据和文本描述两个部分,对问题的文本描述部分进行 语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入数 据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选择 结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构中 的特定参数进行估值,完成模型事例的确定;3)由用户控制模型运行并对结 果进行分析,若不满意,允许用户使用系统维护功能查看、运行并进行修正;
步骤4中所述的问题推理包括:对专家知识进行分类,构造知识问答决策 树,使系统能够快速、准确的响应用户的咨询要求,且包括如下具体步骤:1) 对已知问题及其解法进行索引,以方便检索;2)在知识库中搜索和需要解决 的问题类似的相似问题,如找出相似问题进行问题求解,否则转去用其他方法 求解;3)在知识库中搜索和需要解决的问题类似的相似问题,如找出相似问 题进行问题求解,否则转去用其他方法求解;4)对找到的相似问题的解法进 行改造,使之适于解新问题;5)用改造好的新解法解决新问题,把成功的新 解法用知识库的表示方法进行“规范化”,并纳入知识库,以便日后调用;
步骤4中所述的KDD*挖掘包括以下具体步骤:1)数据预处理,即:对真 实数据库中的数据进行再加工,形成发掘数据库,并与所述的基础知识库在基 于属性建库的构造下建立对应关系;2)聚焦,即:由通过人机交互输入的内 容来指导数据发掘的方向;3)定向挖掘,即:启发型协调器对基础知识库进行 搜索以发现知识短缺,并以此定向地从发掘数据库里进行数据的选择;4)求 取假设规则,即:通过选定的知识发掘法,从发掘数据库中提取用户所需要的 知识,并用特定的模式表达所提取的知识;5)实时维护,即:中断型协调器 对基础知识库进行定向搜索,以判断步骤4)所获得的每一假设规则与基础知 识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;6)评 价,即:对步骤5)处理后并被选取的规则进行价值评定,将被接受的规则存 入衍生知识库;
步骤4中所述的WEB挖掘过程包括以下具体步骤:1)特征提取,即:对 Web上采集到的挖掘目标样本进行特征提取,生成挖掘目标的特征矢量,并进 行特征项集的选取,存放到文本特征库中形成文本中间表示形式;2)WEB挖 掘,即:采用适当的挖掘算法,对Web的中间表示形式进行挖掘处理,得到潜 在的知识或者模式;3)模型质量评价,即:将挖掘得到知识或者模式进行评 价,将符合一定标准的知识或者模式呈现给用户;4)信息表示和信息导航, 即:将反馈的结果用可视化的方式进行显示,同时对用户提供信息导航功能, 从而方便用户有效的浏览和获取信息;
步骤6中所述的辅助决策知识评价是通过人机交互界面由使用者评价、或 者是利用可视化工具所提供的各类图形和分析资料进行评价、或者是采用基于 自认知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定 的阈值,由所述数字计算机自动实现。

说明书全文

技术领域

发明涉及智能决策支持系统技术,特别涉及基于信息挖掘的新型智能决 策支持系统(IDSSIM,Intelligence Decision Supporting System Based on Information Mining)技术,具体说是一种基于信息挖掘的智能决策支持构造方法

背景技术

一.KDD*技术:信息挖掘即指从各种各样的信息源(包括结构化的和非结 构化的信息源)中,抽取先前未知的、完整的模式,来做关键的业务决策。它 融合了人工智能机器学习模式识别、统计学、数据库计算机网络自然语言处理等 众多学科的内容,它是针对生成收集数据的能迅猛发展,而对信息的处理仍 然采用数据统计等传统的方法,这一矛盾而产生的,并迅速发展起来的。
目前信息挖掘主要存在两个研究方向。其一:KDD(Knowledge Discovery in Database)。它适用以结构化、数值型的数据为特点的领域。其二:Web挖 掘(Web Mining)。它主要处理来源于网络上的半结构或非结构、字符型数据、 多媒体数据、用户访问日志信息、网页间的超链接信息等等。KDD技术是从大 量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。 通过这一过程,感兴趣的知识或高层信息可以从数据库相关数据集中抽取出来 并从不同度进行研究。有人也将KDD称为数据挖掘(或数据发掘、数据开采 等),KDD一般在人工智能和机器学习领域使用较多,在工程应用领域多称之 为数据挖掘(data mining),一般可以不加区分地使用两者。其主要处理步骤 如图1所示。但是,目前绝大部分KDD的算法没有将KDD作为认知的复杂系统 对其内在的规律性加以研究,且都没有深层次地考虑知识库,挖掘出来的许多 假设规则与知识库中的已有知识是重复的和冗余的,甚至是不相容的,并且仅 靠人机交互形成聚焦,而没有体现系统自身的认知自主性,因此对KDD定义中 要求的新颖性和有效性就无法体现出来。为此,KDD*系统(基于双库协同机制 的KDD系统)从知识发现、认知科学与智能系统交叉结合的角度,提出了双库 协同机制,作为对于KDD系列性研究中所提出的新研究方向,即内在机理的研 究。构建了将KDD与双库协同机制相结合的KDD*结构,从而改变了KDD固有 的运行机制,在结构与功能上形成了相对于KDD而言的一个开放的、优化的扩 体。双库协同机制的引入使得KDD在功能上得到了进一步的完善,KDD*的结构 图如图2所示,其详细说明参见相关专利申请文件。
二.WEB挖掘技术:近年来,在网络上存在着“信息爆炸”的问题,即信 息极大丰富而知识相对匮乏。人们迫切需要有能从这些大量、异质的Web信息 资源中,快速、有效地发现资源和知识的工具。Web上的搜索引擎部分地解决 了资源发现问题,但由于精度不高、覆盖率有限等原因,其效果远不能使人满 意。而数据挖掘的绝大部分工作所涉及的是结构化数据库,很少有处理Web上 的异质、非结构化信息的工作。
Web挖掘是针对包括Web页面内容、页面之间的结构、用户访问信息、电 子商务信息等在内的各种Web数据源,在一定基础上应用数据挖掘的方法以发 现有用的知识来帮助人们从WWW中提取知识,改进站点设计,更好地开展电子 商务。即Web挖掘是指从大量非结构化、异构的Web文档的集合C中发现有效 的、新颖的、潜在可用的及最终可理解的知识P(包括概念(Concepts)、模 式(Patterns)、规则(Rules)、规律(Regularities)、约束(Constraints) 及可视化(Visualizations)等形式)的非平凡过程。如果将C看作输入,将 P看作输出的话,那么Web挖掘的过程就是从输入到输出的一个映射ξ:C→P。
Web上信息的多样性决定了Web挖掘任务的多样性。按照处理对象的不同, 我们可以将Web挖掘分为三大类:Web内容挖掘(Web Mining)、Web访问信 息挖掘(Web Usage Mining)和Web结构挖掘(Web Structure Mining)。其 分类如图3所示。Web内容挖掘就是从Web页面内容或其描述中进行挖掘,进 而抽取知识的过程,也称为Web文本挖掘,可以对Web上大量文档集合的内容 进行关联分析、总结、分类、聚类,以及利用Web文档进行趋势预测等。
Web访问信息挖掘对用户访问Web时在服务器留下的访问记录进行挖掘, 以发现用户访问站点的浏览模式,页面的访问频率等信息;挖掘的对象是在服 务器上的包括Server Log Data等日志。挖掘的方式是:路径分析;关联规则 和序列模式的发现;聚类和分类。
Web结构挖掘是从WWW的组织结构和链接关系中推导知识。由于文档之间 的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页 面进行排序,发现重要的页面。这方面的工作的代表有PageRank和CLEVER。 此外,在多层次Web数据仓库(MLDB)中也利用了页面的链接结构。
三.智能决策支持技术:智能决策支持系统IDSS最早由Bonczek等人于 80年代提出,它的功能是,既能处理定量问题,又能处理定性问题。IDSS的 核心思想是将AI与其它相关科学成果相结合,使DSS具有人工智能,能够更 充分地应用人类的知识,求解问题的推理性知识,通过逻辑推理来帮助解决复 杂的决策问题的辅助决策系统。
其一般定义为以管理科学、运筹学、控制论和行为科学为基础,以计算机 技术、仿真技术和信息技术为手段,面对半结构化或非结构化的决策问题,辅 助支持中、高层决策者的决策活动的、具有智能作用的人机计算机网络系统。 会话系统、控制系统、运行及操作系统、数据库系统、模型库系统、规则库系 统和用户共同构成。
智能决策支持系统的结构如图4所示,是一个四库结构,其中有一个规则 库也就是知识库。知识库用来存放各种规则、专家的经验、有关的知识及因果 关系等。推理机构来模拟决策者的思维过程。
智能决策系统的主要特点有如下几方面:(1)系统的使用面向决策者,在 运用的过程中,参与者都是决策者。(2)系统解决的问题是针对半结构化的决 策问题,模型和方法的使用是确定的,但是决策者对问题的理解存在差异,系 统的使用有特定的环境,问题的条件也不确定和唯一,这使得决策结果具有不 确定性。(3)系统强调的是支持的概念,帮助加强决策者作出科学决策的 能力。(4)系统的驱动力来自模型和用户,人是系统运行的发起者,模型是系 统完成各环节转换的核心。(5)系统运行强调交互式的处理方式,一个问题的 决策要经过反复的、大量的、经常的人机对话,人的因素如偏好、主观判断、 能力、经验、价值观等对系统的决策结果有重要的影响。
但是决策支持系统只能对决策者起到辅助支持的作用,而不可能代替决策 者的全部工作和最终判断。决策者的主观能动作用,经验、智慧和判断力将总 是起主导作用的。因此,决策支持系统的设计和建立应当努力创造一个好的决 策环境和决策支持工具,以支持决策者的工作,充分发挥决策者的智慧和创造 性,努力使决策尽可能地正确。同时,由于种种原因,智能决策在我国企业管 理中的应用还很差,宏观上尚未形成统一的行业体制、宏观管理模式;在微观 上,没有形成市场化现代企业制度和商业化运作,并且没有结合信息产业最新 技术,在日常经营管理的基础上,利用智能决策支持系统来指导和建议管理者 进行有效地决策。所涉及的软件大多属于办公自动化一类的,或是简单的数据 统计分析,只实现了一部分办公自动化的功能,而没有为决策者提供必要的、 同时又是急需的决策信息的帮助。
“基于信息挖掘的新型智能决策支持系统”在附加行业信息特点后,可很 好的适用于多种企业,利用各种丰富信息(包括内部信息和外部信息),提供 辅助决策支持信息,从而提高经营管理者的平和层次,具有非常重要的研究 和应用价值。

发明内容

本发明的目的在于,提供一种基于信息挖掘的智能决策支持构造方法,用 以扩充现有的智能决策系统,改变现有的智能决策方法中固有的运行机制,从 而在结构和功能上形成了相对现有技术的一个开放的、优化的扩体。
本发明的技术方案为:一种基于信息挖掘的智能决策支持构造方法,包括: 中央处理器存储器组成的数字计算机,所述的数字计算机与网络联接;其特 征在于:所述的存储器存储有真实数据库、基础知识库、模型库、方法库、文 本日志库以及会话模、问题处理模块;所述的中央处理器对所述的存储器进 行控制并执行如下步骤:
步骤1、进行数据预处理,即:对真实数据库中的数据进行再加工,形成 处理数据库,并与所述的基础知识库在基于属性建库的构造下建立对应关系;
步骤2、接收输入数据,即:接收用户通过所述的会话模块输入的要解决 的决策问题信息,且所述的会话模块把输入的问题信息传送给所述的问题处理 模块;
步骤3、进行聚焦,即:通过人机交互输入的信息来引导问题求解的趋向; 其具体过程为:所述的问题处理模块收集数据信息,并根据所述的知识库中已 有的知识数据判断和识别问题信息;如果出现问题信息,则通过所述的会话模 块与用户进行交互对话,直到问题信息得到明确,和任务集中的某类任务匹配;
步骤4、进行信息挖掘,即:搜寻任务解决的模型,得到辅助决策知识信 息,并用特定的模式表达所得到的知识信息;
步骤5、进行实时维护,即:对所获得的每一假设推理与所述的基础知识 库中原有的知识信息是否重复、冗余或矛盾,并根据判断结果作相应处理;
步骤6、进行评价,即:对步骤4所述的辅助决策知识信息进行价值评定, 将被接受的知识信息存入综合知识库。
所述的进行信息挖掘是指:采用问题推理的方式进行信息挖掘,即:搜寻 任务解决的模型,对所述的基础知识库进行搜索,并在所述的方法库中选定推 理方法,决策推理得到辅助决策知识信息,最后用特定的模式表达所得到的知 识信息。
所述的进行信息挖掘是指:采用KDD*挖掘的方式进行信息挖掘,即:搜寻 任务解决的模型,在所述的方法库中选定KDD*挖掘算法,并对所述的基础知 识库进行搜索以发现知识短缺,以此定向地从数据库里进行数据的选择,挖掘 得到辅助决策知识信息,最后用特定的模式表达所得到的知识信息。
所述的进行信息挖掘是指:采用WEB挖掘的方式进行信息挖掘,即:搜 寻任务解决的模型,运用选定的WEB挖掘算法,对所述的文本日志库进行搜索, 定向地从数据库里进行数据的选择,挖掘得到辅助决策知识信息,最后用特定 的模式表达所得到的知识信息。
所述的进行信息挖掘是指:采用问题求解的方式进行信息挖掘,即:搜 寻任务解决的模型,根据模型所采用的过程,在所述的方法库中选定所采用的 推理方法或是KDD挖掘算法或是WEB挖掘算法,得到辅助决策知识信息,最后 用特定的模式表达所得到的这些辅助决策知识信息。
所述的存储器可采用若干大容量存储器组成的超大容量存储装置;所述的 数字计算机为若干台计算机组成的数字计算机系统;所述的网络是指互联网和 局域网。
根据本发明所述的方法,其包括如下技术方案:
步骤1中所述的数据再加工包括:对数据的完整性和一致性进行检查、对 噪音数据进行处理、对丢失的数据利用统计方法进行填补等;所述的对应关系 是指:知识子库的知识节点与数据子库子类结构层间建立的一一对应关系;
步骤2中所述的问题输入是指:在接受和检验用户的请求后,将用户需求 转换为系统可识别、可处理的问题信息;其中涉及知识子库的使用和知识的表 示方法;
步骤3中所述的聚焦包括以下具体步骤:1)任务集数据采集,其中所涉 及的数据及知识信息的来源包括:对管理专家充分的调查、对行业管理理论的 研究、以及对现行数据的分析调用;2)利用模糊综合评判技术,汇集用户的 情况,形成不同类型用户的评价标准,从而对用户进行自我诊断和自我定位, 同时根据用户的各级决策者的主要决策内容确定与用户有关的问题,以形成任 务集;3)针对将前一步骤所形成的问题,设计管理与控制平台,通过此平台, 与用户进行交互对话,直到问题明确;4)根据所述的基础知识库中以有的知 识,判断和识别问题信息,并使问题信息和任务集中的某类任务匹配;5)专 家知识获取,即:知识工程师和领域专家共同工作,建立健全有效的专家知识 库,以满足求解领域问题的需要的过程,其内容包括知识的提取,中间知识的 表示和生成知识库;
步骤4中所述的模型是指:建立一种具有自动选择功能的模型库;其内容 包括:1)将问题分解为数据和文本描述两个部分,对问题的文本描述部分进 行语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入 数据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选 择结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构 中的特定参数进行估值,完成模型事例的确定;3)由用户控制模型运行并对 结果进行分析;若不满意,允许用户使用系统维护功能查看、运行并进行修正;
步骤4中所述的问题推理包括:对专家知识进行分类,构造知识问答决策 树,使系统能够快速、准确的响应用户的咨询要求,其包括如下具体步骤:1) 对已知问题及其解法进行索引,以方便检索;2)在知识库中搜索和需要解决 的问题类似的相似问题,如找出相似问题进行问题求解,否则转去用其他方法 求解;3)在知识库中搜索和需要解决的问题类似的相似问题,如找出相似问 题进行问题求解,否则转去用其他方法求解;4)对找到的相似问题的解法进 行改造,使之适于解新问题;5)用改造好的新解法解决新问题,把成功的新 解法用知识库的表示方法进行“规范化”,并纳入知识库,以便日后调用;
步骤6中所述的辅助决策知识评价是指:通过人机交互界面由使用者评 价;或者:所述的辅助决策知识评价是指:利用可视化工具所提供的各类图形 和分析资料进行评价;或者:所述的辅助决策知识评价是是指:采用基于自认 知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定的阈 值,由所述数字计算机自动实现。
根据本发明所述的方法,其还包括如下技术方案:
步骤1中所述的数据再加工包括对数据的完整性和一致性进行检查,对噪 音数据的处理,对丢失的数据利用统计方法进行填补等;所述的对应关系为知 识子库的知识节点与数据子库子类结构层间建立的一一对应关系;
步骤2中所述的问题输入是指,在接受和检验用户的请求后,将用户需求 转换为系统可识别、可处理的问题,其中涉及知识子库的使用和知识的表示方法;
步骤3中所述的问题聚焦包括以下具体步骤:1)任务集数据采集,其中 所涉及的数据及知识来源包括:对管理专家充分的调查、对行业管理理论的研 究、以及对现行数据的分析调用;2)利用模糊综合评判技术,汇集用户的情 况,形成不同类型用户的评价标准,从而对用户进行用户自身的诊断和定位, 并根据用户的各级决策者的主要决策内容确定与用户有关的问题,以形成任务 集;3)针对将前一步骤所形成的问题,设计管理与控制平台,通过此平台, 与用户进行交互对话,直到问题明确;4)根据知识库中已有的知识,判断和 识别问题,并使问题和任务集中的某类任务匹配;
步骤3中所涉及的专家知识获取是指知识工程师和领域专家共同工作,建 立健全、有效的专家知识库,以满足求解领域问题的需要的过程;实现知识抽 象和转换,其内容包括:知识的提取,中间知识的表示和生成知识库;
步骤4中所述的模型是指建立一种具有自动选择功能的模型库,其内容包 括:1)将问题分解为数据和文本描述两个部分,对问题的文本描述部分进行 语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入数 据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选择 结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构中 的特定参数进行估值,完成模型事例的确定;3)由用户控制模型运行并对结 果进行分析,若不满意,允许用户使用系统维护功能查看、运行并进行修正;
步骤4中所述的KDD*挖掘包括以下具体步骤:1)数据预处理,即:对真 实数据库中的数据进行再加工,形成发掘数据库,并与所述的基础知识库在基 于属性建库的构造下建立对应关系;2)聚焦,即:由通过人机交互输入的内 容来引导数据发掘的趋向;3)定向挖掘,即:启发型协调器对基础知识库进行 搜索以发现知识短缺,并以此定向地从发掘数据库里进行数据的选择;4)求 取假设规则,即:通过选定的知识发掘法,从发掘数据库中提取用户所需要的 知识,并用特定的模式表达所提取的知识;5)实时维护,即:中断型协调器 对基础知识库进行定向搜索,以判断步骤4)所获得的每一假设规则与基础知 识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;6)评 价,即:对步骤5)处理后并被选取的规则进行价值评定,将被接受的规则存 入衍生知识库;
步骤6中所述的辅助决策知识评价是通过人机交互界面由使用者评价、或 者是利用可视化工具所提供的各类图形和分析资料进行评价、或者是采用基于 自认知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定 的阈值,由所述数字计算机自动实现。
根据本发明所述的方法,其也包括如下技术方案:
步骤1中所述的数据再加工包括对数据的完整性、一致性进行检查,对噪 音数据的处理,对丢失的数据利用统计方法进行填补等;所述的对应关系为知 识子库的知识节点与数据子库子类结构层间建立的一一对应关系;
步骤2中所述的问题输入是指,在接受和检验用户的请求后,将用户需求 转换为系统可识别、可处理的问题;其中涉及知识子库的使用和知识的表示方法;
步骤3中所述的问题聚焦包括以下具体步骤:1)任务集数据采集,即: 所涉及的数据及知识来源包括:对管理专家充分的调查、对行业管理理论的研 究、以及对现行数据的分析调用;2)利用模糊综合评判技术,汇集用户的情 况,形成不同类型用户的评价标准,从而对用户进行用户自身的诊断和定位, 并根据用户的各级决策者的主要决策内容确定与用户有关的问题,以形成任务 集;3)针对将前一步骤所形成的问题,设计管理与控制平台,通过此平台, 与用户进行交互对话,直到问题明确;4)根据知识库中已有的知识,判断和 识别问题,并使问题和任务集中的某类任务匹配;
步骤3中所涉及的专家知识获取是指知识工程师和领域专家共同工作,建 立健全、有效的专家知识库,以满足求解领域问题的需要的过程;实现知识抽 象和转换,其内容包括知识的提取,中间知识的表示和生成知识库;
步骤4中所述的模型是指建立一种具有自动选择功能的模型库,其内容包 括:1)将问题分解为数据和文本描述两个部分,对问题的文本描述部分进行 语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入数 据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选择 结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构中 的特定参数进行估值,完成模型事例的确定;3)由用户控制模型运行并对结 果进行分析,若不满意,允许用户使用系统维护功能查看、运行并进行修正;
步骤4中所述的WEB挖掘过程包括以下步骤:1)特征提取,即:对Web 上采集到的挖掘目标样本进行特征提取,生成挖掘目标的特征矢量,并进行特 征项集的选取,存放到文本特征库中形成文本中间表示形式;2)WEB挖掘, 即:采用适当的挖掘算法,对Web的中间表示形式进行挖掘处理,得到潜在的 知识或者模式;3)模型质量评价,即:将挖掘得到知识或者模式进行评价, 将符合一定标准的知识或者模式呈现给用户;4)信息表示和信息导航,即: 将反馈的结果用可视化的方式进行显示,同时对用户提供信息导航功能,从而 方便用户有效的浏览和获取信息;
步骤6中所述的辅助决策知识评价是通过人机交互界面由使用者评价、或 者是利用可视化工具所提供的各类图形和分析资料进行评价、或者是采用基于 自认知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定 的阈值,由所述数字计算机自动实现。
根据本发明所述的方法,其同时包括如下技术方案:
步骤1中所述的数据再加工包括对数据的完整性、一致性进行检查,对噪 音数据的处理,对丢失的数据利用统计方法进行填补等;所述的对应关系为知 识子库的知识节点与数据子库子类结构层间建立的一一对应关系;
步骤2中所述的问题输入是指,在接受和检验用户的请求后,将用户需求 转换为系统可识别、可处理的问题其中涉及知识子库的使用和知识的表示方法;
步骤3中所述的问题聚焦包括以下具体步骤:1)任务集数据采集,所涉 及的数据及知识来源包括:对管理专家充分的调查、对行业管理理论的研究、 以及对现行数据的分析调用;2)利用模糊综合评判技术,汇集用户的情况, 形成不同类型用户的评价标准,从而对用户进行用户自身的诊断和定位,并根 据用户的各级决策者的主要决策内容确定与企业经营有关的问题,以形成任务 集;3)针对将前一步骤所形成的问题,设计管理与控制平台,通过此平台, 与用户进行交互对话,直到问题明确;4)根据知识库中以有的知识,判断和 识别问题,并使问题和任务集中的某类任务匹配;
步骤3中所涉及的专家知识获取是指知识工程师和领域专家共同工作,建 立健全、有效的专家知识库,以满足求解领域问题的需要的过程;实现知识抽 象和转换,其内容包括:知识的提取,中间知识的表示和生成知识库;
步骤4中所述的模型是指建立一种具有自动选择功能的模型库,其内容包 括:1)将问题分解为数据和文本描述两个部分,对问题的文本描述部分进行 语言识别或理解,并从模型库中选择适合的模型类型;问题的数据部分送入数 据库保存,同时送到数据识别器进行识别,根据识别结果以及模型类型的选择 结果进行模型的结构选择;2)根据保存在数据库中的有关数据对模型结构中 的特定参数进行估值,完成模型事例的确定;3)由用户控制模型运行并对结 果进行分析,若不满意,允许用户使用系统维护功能查看、运行并进行修正;
步骤4中所述的问题推理包括:对专家知识进行分类,构造知识问答决策 树,使系统能够快速、准确的响应用户的咨询要求,且包括如下具体步骤:1) 对已知问题及其解法进行索引,以方便检索;2)在知识库中搜索和需要解决 的问题类似的相似问题,如找出相似问题进行问题求解,否则转去用其他方法 求解;3)在知识库中搜索和需要解决的问题类似的相似问题,如找出相似问 题进行问题求解,否则转去用其他方法求解;4)对找到的相似问题的解法进 行改造,使之适于解新问题;5)用改造好的新解法解决新问题,把成功的新 解法用知识库的表示方法进行“规范化”,并纳入知识库,以便日后调用;
步骤4中所述的KDD*挖掘包括以下具体步骤:1)数据预处理,即:对真 实数据库中的数据进行再加工,形成发掘数据库,并与所述的基础知识库在基 于属性建库的构造下建立对应关系;2)聚焦,即:由通过人机交互输入的内 容来指导数据发掘的方向;3)定向挖掘,即:启发型协调器对基础知识库进行 搜索以发现知识短缺,并以此定向地从发掘数据库里进行数据的选择;4)求 取假设规则,即:通过选定的知识发掘法,从发掘数据库中提取用户所需要的 知识,并用特定的模式表达所提取的知识;5)实时维护,即:中断型协调器 对基础知识库进行定向搜索,以判断步骤4)所获得的每一假设规则与基础知 识库中原有知识是否重复、冗余或矛盾,并根据判断结果作相应处理;6)评 价,即:对步骤5)处理后并被选取的规则进行价值评定,将被接受的规则存 入衍生知识库;
步骤4中所述的WEB挖掘过程包括以下具体步骤:1)特征提取,即:对 Web上采集到的挖掘目标样本进行特征提取,生成挖掘目标的特征矢量,并进 行特征项集的选取,存放到文本特征库中形成文本中间表示形式;2)WEB挖 掘,即:采用适当的挖掘算法,对Web的中间表示形式进行挖掘处理,得到潜 在的知识或者模式;3)模型质量评价,即:将挖掘得到知识或者模式进行评 价,将符合一定标准的知识或者模式呈现给用户;4)信息表示和信息导航, 即:将反馈的结果用可视化的方式进行显示,同时对用户提供信息导航功能, 从而方便用户有效的浏览和获取信息;
步骤6中所述的辅助决策知识评价是通过人机交互界面由使用者评价、或 者是利用可视化工具所提供的各类图形和分析资料进行评价、或者是采用基于 自认知逻辑的因果关联规则的自动评价方法,即:根据规则的关联强度及设定 的阈值,由所述数字计算机自动实现。
所述的自动评价方法为:取原因A和结果S的数据,构成一个序偶的集合 P={}(w=1,2….N),tw为原因状(变)态空间中的数据(即因 样本值),sw为与原因数据相对应的结果状(变)态空间中的数据(即果样本 值),N为集合中样本的个数,SUP为规则的支持强度,CR为规则的关联强度, SUP1为每次求得的规则支持强度,其初值为0;执行以下步骤:
1)、取原因的样本值tw(w=1,2….N),它属于一般的样本空间,得到因 状(变)态输入向量atw;
2)、确定因状(变)态输入向量atw所属因状(变)态类型如Ak (k=1,2,3,4,5)即由式(2)计算atw与各因状(变)态标准向量Ai的测度 dH,取最小者为atw归属的因状(变)态类型,随机抽取一样本集,可以看 作序偶的集合P={};
3)、以规则Ai Sj作为局部大前提,以因状(变)态输入向量at所 属的因状(变)态标准向量Ak为小前提,可以在评价知识库中通过自组织的 方式找到与其相匹配的唯一的知识矩阵Mijk,根据自动推理模式(3)得到结 果的状(变)态向量Sw1;
4)、聚类:计算Sw1所属的果状(变)态标准向量β,可通过求它与各结 d H ( S w 1 , S j ) = Σ i = 1 10 | μ S w ( i ) - μS j ( i ) | 果状(变)态标准向量的测度(如下式)取最小者而获得聚类; 其中,μSw1(i)与μSj(i)分别为其各自对应的坐标;
5)、对于序偶集P={},取相应的结果的样本值sw,用模糊聚类 的方法可得到它所属区间中的果状(变)态标准向量γ,如果β=γ,则SUP1= SUP1+1,否则SUP1=SUP1;
6)、重复上述过程N次,得到SUP;设
     SUP=SUP1/N 取规则的因果关联强度CR与之比较: 若:SUP>CR则规则被接受;
    SUP≤CR则规则被拒绝。
IDSSIM系统采用最新的信息挖掘技术,利用KDD*方面已经取得的技术(技 术细节参见专利:基于双库协同机制的KDD*新系统),和Web文本挖掘成果, 应用信息挖掘技术,采用五库(模型库、综合知识库、数据库、方法库、文本 日志库)与双网(国际互联网+企业内部网)相结合,形成基于异构数据库的 多目标、多层次、多任务的以管理模型驱动的新型复杂决策支持系统的模型。
本发明的意义在于:1)总体上说,建立了一个具有普适性、通用性、可扩 展性、可移植性的、基于信息挖掘的新型智能决策支持系统模型;2)开发一 套功能强大的、使用简单的、会话迅速的、成本低廉的、基于信息挖掘的新型 智能决策支持系统软件;3)在多目标模型驱动的基础上,解决了数据库、知 识库、文本日志库的异构数据库的同构化;4)构建智能决策支持系统的体系 结构,对该结构中的人机接口、知识库、模型库、方法库、数据库、文本库、 日志库等建立控制平台,以协调各部分的协同、交互、匹配等功能;5)将信 息挖掘技术有效的融入智能辅助决策系统,改变了现有的智能决策系统固有的 运行机制,从而在结构和功能上形成了相对现有系统而言的一个开放的、优化 的扩体。6)在附加行业信息特点后,本系统可很好的适用于多种企业,利用 各种丰富信息(包括内部信息和外部信息),提供辅助决策支持信息,从而提 高经营管理者的水平和层次,具有非常重要的研究和应用价值。
附图说明
图1为现有技术的KDD系统的流程框图
图2为本发明所采用的KDD*结构图;
图3为现有技术的WEB挖掘分类示意图;
图4为现有技术的智能决策支持系统结构图;
图5A为本发明的技术方案1的流程框图;
图5B为本发明的技术方案2的流程框图;
图5C为本发明的技术方案3的流程框图;
图5D为本发明的技术方案4的流程框图;
图6为本发明的知识表示示意图;
图7为本发明的知识子库与数据子库的对应结构图;
图8为本发明的专家知识获取方法示意图;
图9为本发明的模型库总体结构图;
图10为本发明的问题推理过程示意图。
图11为本发明中的KDD*挖掘过程示意图;
图12为本发明中WEB挖掘过程示意图;
图13为本发明模型库维护过程流程图
图14为本发明问题推理过程流程图; 
图15为本发明中KDD*挖掘过程流程图;
图16为本发明中WEB挖掘过程流程图。

具体实施方式

1.理论基础:根据图6所列关系,给出如下相关定义:
1.1知识表示方法-语言场与语言值结构(相关内容详见相关专利申请文件);
定义1:C=,若满足下列条件:
(1)D为基础变量论域R上交叉闭区间的集合,D+为其对应开集;
(2)N≠Φ为语言值的有限集;
(3)≤N为N上的全序关系;
(4)I:N→D为标准值映射,满足保序性,即:n1,n2∈N(n1≠n2n1 ≤Nn2→I(n1)≤I(n2)),(≤为偏序关系);则称C为语言场。
定义2:对于语言场C=,称F=为C的语言值 结构,如果:(1)C满足定义1;
        (2)K为自然数;
        (3)W:N→Rk满足:
n1,n2∈N(n1≤Nn2→W(n1)≤dicW(n2),
n1,n2∈N(n1≠n2→W(n1)≠W(n2)).
其中,≤dic为[0,1]k上的字典序,即(a1,....,ak)≤dic(b1,....,bk) 当且仅当存在h,使得当0≤j<h时aj=bj,ah≤bh。
1.2挖掘库与知识库之间泛同伦关系的建立:(相关内容详见相关专利申请文件)
1)知识结点:
定义3:在相关于论域X的知识子库中,称按如下形成表达的知识为不确 定性规则型知识:
(1)P(X)Q(X)
( 2 ) - - - P ( X ) Λ j = 1 n Q j ( X )
( 3 ) - - - - - Λ i = 1 n P i ( X ) Q j ( X )
( 4 ) - - - - - Λ i = 1 n P i ( X ) Λ j = 1 m Q j ( X )
其中P(X),Pi(x),Q(X),Qj(X)分别为“属性词”(或“状态词”)+ 程度词”的形式。
定义4:在定义3中,P(X)与pi(x)称为知识始结点,Q(X)与Qj(X)称 为知识终结点,并分别称为知识素结点; Λ i = 1 n P i ( X ) , 分别称为知识合 结点;两者统称为知识结点。
2)数据子类(结构):
定义5:对于论域X,在相应于知识子库的数据子库中,与每个知识素结 点相应的结构S=称为数据子类结构。其中,U≠Φ,U={u1,u2,...}, (ui是数据集,由下述的I形成),它是在特定的语言场与语言值结构下,表 征相应于知识素结点“属性词”或“状态词”的数据集的类(称为数据子类); N≠Φ为语言值的有限集,它是刻划相应于知识素结点“程度词”的语言值的集合;
I:N→U,它是按语言值将数据集的类U进行划分的映射。在数据连续分 布时,通常划分为若干交叉区间(即:i,j(ui∩uj≠Φ));
W:N→[0,1]K(k为正整数)满足:
n1,n2∈N(n1≤Nn2→W(n1)≤dicW(n2)),
n1,n2∈N(n1≠n2→W(n1)≠W(n2)).
3)“知识结点”与“数据子类(结构)”的关系:
定义6:设X与Y是任意的拓扑空间,称连续映射 F:X×[0,1]n→Y为X到Y的映射的泛同伦。(通常意义下同伦概念的扩展)。
定义7:设f,g为从拓扑空间X到Y的连续映射,若存在泛同伦F(x,t) =ft(x),使得对于任意点x∈X均有f(x)=F(x,(0,...,0)),g(x)=F (x,(1,...,1)),则称g泛同伦于f,并称F为连续映射f与映射g的泛同 伦,记作f~g。
定义8:设给定两个拓扑空间,若至少存在一个空间到另一个空间的一个 泛同伦等价的映射,则称这两个空间为同一泛同伦型的空间。
由上述分析可知:在把一个空间换成同一个泛同伦型的空间时,泛同伦类 集合的结构并无改变,  所以在同伦理论里,可以把同一泛同伦型的空间看做 是相同的。故定理3给出了知识子库中“知识结点”与相应数据子库中“数据 子类结构”中的层之间的一一对应关系,如图7所示。
1.3类比推理
在使用问题推理时,有:若说问题t类似于问题b时,是指有问题t的属 性P(t)和问题b的属性P’(b)。
定义9:属性类比推理是指,如果t~b,且P(b)成立,则可类比推出P (t)成立,即t~b,P(b)|~P(t)
定义10:设对象a和b分别有属性集P(a)和P(b),则对象a和b之 间的相似度可定义为交集的大小
S(a,b)=α|P(a)UP(b)|-β|P(a)-P(b)|-γ|P(b)-P(a)|
其中符号“-”表示差集,α、β、γ为大于0的常数。
1.4广义细胞自动机
定义11:在离散化的欧几里德时空条件下,Ц=称为细胞自动 机。其中,U是状态空间U,其元素u称为状态;T是时间序列,其元素t称 为时刻;E是细胞集合,其元素e称为细胞(即空间区域);η={φ1,φ2,...} 是映射集合,元素φi:E*T U称为赋态映射。
定义12:∏=<Ц,^>称为因果细胞自动机,若因果必然性规律φi(N(e), t)^φj(e,t)满足下列三个条件:
(1)有限变化原理—自然界的因果必然性规律是构筑在适于描述任何时空 区域的有限集合基础上,每个时空区域都可作为这些性质的描述对象;
(2)因果存在性原理—规律支配某时空区域,则对自动机大部分区域也适 用(适于似决定论的细胞自动机);
(3)因果一致性原理—该规律不仅适于某时空区域,而且适于整个细胞自 动机,即整个可达性时空区域(适于决定论的细胞自动机);
定义13:归纳逻辑因果模型是满足下列条件的语义结构X=
(1)S=(Sa,S1,......SM),Si为受因果必然性规律所支配的可能的因果世 界,Sa为现实的世界;Si(Vi1,Vi2,......),Vij表示组成Si的不同的历史, 每个历史是不同时空段的世界。
(2)∏是满足定义10的因果细胞自动机;每个可能的因果世界都用相应的 因果细胞自动机来描述。
定义14:Г*=<∏*,→>称为广义细胞自动机,若因果必然性规律 * i(N(e),t)→* j(e,t')满足定义10,和下述条件:
(1)因果状(变)态原理—在连续、渐变的因果联系过程中,对于任意样 本空间而言,细胞e在时刻t′的所有可能的状(变)态(作为结果)必然是由 前一时刻t细胞e的邻域N(e)取“正”(如语言值“小”)与“反”(如语言值“不 小”)两类状态作为原因所导致的。
(2)(变态与状态转换原理)当原因与结果所取变态与状态的语言场同构 时,对于因果变态联系的规律同样适用于因果状态联系的规律,反之亦然。 2本发明实现机理:
图5A表示了本发明的第一种方案,主要步骤包括:
1)数据预处理:对真实数据库中的数据进行再加工,形成处理数据库,并 与所述的基础知识库在基于属性建库的构造下建立对应关系;
2)输入:用户通过会话系统输入要解决的决策问题,会话系统把输入的问 题信息传递给问题处理系统;
3)聚焦:就是通过人机交互输入的内容来指导问题求解的方向。具体过程 为,问题处理系统收集数据信息,并根据知识库中已有的知识,判断和识别问 题,如果出现问题,系统通过会话系统与用户进行交互对话,直到问题得到明 确,和任务集中的某类任务匹配;
4)问题推理:系统搜寻任务解决的模型,对知识库进行搜索,并在方法库 中选定的推理方法,问题推理得到辅助决策知识,最后用特定的模式表达所得 到的知识。
5)实时维护:对所获得的每一假设推理与知识库中原有知识是否重复、冗 余或矛盾,并根据判断结果作相应处理;
6)评价:对步骤4)获取的辅助决策知识进行价值评定,将被接受的知识 存入综合知识库。
图5B表示了本发明的第二种方案,主要步骤包括:
1)数据预处理:对真实数据库中的数据进行再加工,形成处理数据库,并 与所述的基础知识库在基于属性建库的构造下建立对应关系;
2)输入:用户通过会话系统输入要解决的决策问题,会话系统把输入的问 题信息传递给问题处理系统;
3)聚焦:就是通过人机交互输入的内容来指导问题求解的方向。具体过程 为,问题处理系统收集数据信息,并根据知识库中已有的知识,判断和识别问 题,如果出现问题,系统通过会话系统与用户进行交互对话,直到问题得到明 确,和任务集中的某类任务匹配;
4)KDD*挖掘:系统搜寻任务解决的模型,在方法库中选定的KDD*挖掘算法, 并对知识库进行搜索以发现知识短缺,以此定向地从数据库里进行数据的选 择,挖掘得到辅助决策知识,最后用特定的模式表达所得到的知识。KDD*挖掘 过程,详见相关专利申请文件;
5)实时维护:对所获得的每一辅助决策知识与基础知识库中原有知识是否 重复、冗余或矛盾,并根据判断结果作相应处理;
6)评价:对步骤4)获取的辅助决策知识进行价值评定,将被接受的知识 存入综合知识库。
图5C表示了本发明的第三种方案,主要步骤包括:
1)数据预处理:对真实数据库中的数据进行再加工,形成处理数据库,并 与所述的基础知识库在基于属性建库的构造下建立对应关系;
2)输入:用户通过会话系统输入要解决的决策问题,会话系统把输入的问 题信息传递给问题处理系统;
3)聚焦:就是通过人机交互输入的内容来指导问题求解的方向。具体过程 为,问题处理系统收集数据信息,并根据知识库中已有的知识,判断和识别问 题,如果出现问题,系统通过会话系统与用户进行交互对话,直到问题得到明 确,和任务集中的某类任务匹配;
4)WEB挖掘:系统搜寻任务解决的模型,运用选定的WEB挖掘算法,对文 本知识库进行搜索,定向地从数据库里进行数据的选择,挖掘得到辅助决策知 识,最后用特定的模式表达所得到的知识。
5)实时维护:对所获得的每一辅助决策知识与基础知识库中原有知识是否 重复、冗余或矛盾,并根据判断结果作相应处理;
6)评价:对步骤4)获取的辅助决策知识进行价值评定,将被接受的知识 存入综合知识库。
图5D表示了本发明的第四种方案,主要步骤包括:
1)数据预处理:对真实数据库中的数据进行再加工,形成处理数据库,并 与所述的基础知识库在基于属性建库的构造下建立对应关系;
2)输入:用户通过会话系统输入要解决的决策问题,会话系统把输入的问 题信息传递给问题处理系统;
3)聚焦:就是通过人机交互输入的内容来指导问题求解的方向。具体过程 为,问题处理系统收集数据信息,并根据知识库中已有的知识,判断和识别问 题,如果出现问题,系统通过会话系统与用户进行交互对话,直到问题得到明 确,和任务集中的某类任务匹配;
4)问题求解:系统搜寻任务解决的模型,根据模型所采用的过程,在方法 库中选定所采用的推理机制或是KDD挖掘算法或是WEB挖掘算法,从而得到辅 助决策知识;最后用特定的模式表达所得到的这些辅助决策知识;
5)实时维护:对所获得的每一辅助决策知识与基础知识库中原有知识是否 重复、冗余或矛盾,并根据判断结果作相应处理;
6)评价:对步骤4)获取的辅助决策知识进行价值评定,将被接受的知识 存入综合知识库。
其中图5A所对应的技术方案突出采用了推理机制来得到辅助决策知识, 图5B所对应的技术方案突出采用了KDD*挖掘方法来得到辅助决策知识,图5C 所对应的技术方案突出采用了WEB挖掘方法来得到辅助决策知识,而图5D所 对应的技术方案同时采用了推理机、KDD*挖掘方法和WEB挖掘方法来得到辅助 决策知识,是前三个技术方案的综合,因此,本实施例主要对图5D所对应的 技术方案进行详述,其余两种方案的实现基理相同。
根据所述的理论基础及结构对应定理,在本发明中,知识库中的知识素结 点与数据库中的层相对应,也就是和该素结点相应的属性程度词相对应。为此 经过预处理把真实数据库分成n个表(table),即table1,table2,...,tablen, n为属性程度词的个数,而tablek中的k对应了每个属性程度词的ID号。每 个表的字段只有一个,用来存放真实数据库中的数据的ID号,该ID所对应的 数据处于属性程度词k所描述的状态。挖掘数据库就是由这n个Table组成, 这样就无需搜索整个数据库,对于每条短缺的知识只需扫描知识结点所对应几 个表。这对于大型数据库就显得尤为重要,这些小的表可以放入内存进行运算, 而整个数据库就无法进行。
知识子库以属性为基础,其特点是便于形成知识结点与数据子类的对应关 系,从而为定向数据发掘奠定基础。逻辑结构:在相应的论域内,以属性为基 础将规则库类化为若干规则子库,每一规则子库与挖掘数据库相对应。
2.1领域专家的知识获取
如图8所示为本发明所采用的专家知识获取方法示意图。步骤如下:
1)首先要对领域进行的定义,然后引导、记录并分析专家口述知识;
2)搜索知识元素,将检测出来的概念与包含它们的记录段一起加以存储。 记录段的语义分析,对记录段中的所有词汇进行检查,看其是否包括顺序关系 (如小于、等于)和倾向(如稳定、增加)等。
1)将知识元素及其相互联系的运算符共同构成命题演算,并与现有知识的 匹配导致完整命题的最终实现。
2)中间知识表示,记录分析的所有输出都集成到中间知识表示系统。每个 命题由一个运算符(表示概念之间的关系)、一个段标记(指向提供该命题的 记录段的指针)、及相关的概念组成。
3)检查结构化对象的网络的完整性,对检查到的不完整性,应重复会谈和 文本分析过程。
4)将语义网中的结构化对象翻译成框架形式,并修改操作通过调用结构编 辑器进行,由知识工程师完成规则集合的组织和控制策略的选择。
5)约束生成,在发现数据之间有全局性依存关系时,由用户用鼠标选择数 据和它们的关系,从而形成约束语言。
2.2模型库设计
如图9所示为本发明所设计的具有自动选择功能的模型库设计总体结构 图。用户通过人机交互界面输入问题描述,由问题描述模块将问题分解为数据 和文本描述两个部分。问题的文本描述部分送去进行语言识别或理解,然后利 用识别结构从模型库中选择适合与问题文字描述部分的模型类型,并且将选择 结果送去进行模型结构选择。问题的数据部分送入数据库保存,同时送到数据 识别器进行识别,模型结构选择器根据识别结果以及模型类型的选择结果进行 模型的结构选择。然后,根据保存在数据库中的有关数据对模型结构中的特定 参数进行估值,完成模型事例的确定。最后由用户控制模型运行并对结果进行 分析。如果用户对运行结果及分析结果不满意,可使用系统维护功能查看模型 库的各个模型,从中找出用户自己认为是合适的模型予以运行,如果此时运行 结果比上一个结果好,则用户可通过系统维护功能对有关部分进行修正。
2.3推理机制
如图10所示,为推理过程示意图。其输入为根据一个包括用一种或多种知 识表示方法描述的已知问题及其解法的描述集合的知识库和需要求解的新问 题。输出为解决了的新问题和扩充了的知识库。
1)对已知问题及其解法进行索引,以方便检索;
2)在知识库中搜索和需要解决的问题类似的相似问题,如找出相似问题进 行问题求解,否则转去用其他方法求解;
3)对找到的相似问题的解法进行改造,使之适于解新问题;
4)用改造好的新解法解决新问题。
5)把成功的新解法用知识库的表示方法进行“规范化”,并纳入知识库,以 便日后调用。
2.4 KDD*挖掘过程(详见专利:基于双库协同机制的KDD*新系统)
如图11所示,为KDD*挖掘过程示意图,包括
1)数据预处理:对真实数据库中的数据进行再加工,形成发掘数据库,并 与所述的基础知识库在基于属性建库的构造下建立对应关系;
2)聚焦:由通过人机交互输入的内容来指导数据发掘的方向;
3)定向挖掘:启发型协调器搜索知识库中“知识结点”的不关联态,计算 有向超图的可达矩阵来实现发现“知识短缺”,产生“创见意象”,从而启发 与激活真实数据库中相应的“数据类”,以产生“定向发掘进程”,进而用规则 强度阈值进行剪枝并由计算机自动完成聚焦。
4)求取假设规则:通过选定的知识发掘法,从发掘数据库中提取用户所需 要的知识,并用特定的模式表达所提取的知识,主要通过可信度阈值来实现(以 挖掘关联规则为例)
5)实时维护:当从真实数据库的大量数据中经聚焦而生成规则(知识)后, 中断型协调器则用SQL语言或计算有向超图的可达矩阵,去搜索知识库中对应 位置有无此生成规则的重复、冗余、矛盾、从属、循环等。若有,则取消该生 成规则或相应处理后返回KDD的“始端”;若无,则继续KDD进程,即知识评价。
6)评价:对步骤5)处理后并被选取的规则进行价值评定,将被接受的规 则存入衍生知识库。
2.5 WEB挖掘过程
如图12所示,WEB挖掘过程包括特征提取、WEB挖掘、模型质量评价和信 息表示与信息导航几个部分,其中:
1)特征提取:是指对Web上采集到的挖掘目标样本进行特征提取,采用潜 在语义索引和小波分析方法生成挖掘目标的特征矢量;同时应根据特征项集选 取的两个基本原则即完全性和区分性原则进行特征项集的选取,并将提取得到 的特征矢量经过特征子集的选取后存放到文本特征库中形成文本中间表示形 式。这样可以解决Web文档结构性差,自然语言计算机理解困难的问题。
特征表示:是指以一定的特征项(如词条或描述)来代表文档信息,使用 布尔逻辑型或向量空间型作为特征表示模型;
特征提取:特征表示中词条T及其权值的选取称为特征提取,特征提取是 挖掘特征共性与规则的提取过程;一个有效的特征项集,必须具备以下两个特征:
①完全性:特征项能够确实表示目标内容;
②区分性:根据特征项集,能将目标同其它文档相区分。
根据以上两条特征可得,词条对文档内容的贡献正比于词条的文档内频率 数,反比于样本文档中出现该词条的文档频率数。因此我们可以构造词条权值 评价函数: W ik = f ik log ( N n k + 0.01 ) Σ k = 1 n ( f ik ) 2 · log 2 ( N n k + 0.01 )
其中fik表示词条Tk在文档Di中的出现频率数,N表示全部样本文档总数, nk表示词条Tk的文档频率数。
选取特征子集:构造信息增益评价函数,对特征集中的每一个特征进行独 立的评估,这样每个特征都获得一个评估分,然后对所有的特征按照其评估分 的大小进行排序,选取预定数目的最佳特征作为结果的特征子集;
其中信息增益评价函数的数学表示为:
InfGain(F)=P(W) Σ i p ( C i | W ) log P ( C i | W ) P ( C i ) + P ( W ) Σ i P ( C i | W ) log P ( C i | W ) P ( C i )
F为对应于单字W的特征,P(W)为单字W出现的概率,W意味着单字W 并不出现,P(Ci)为第i类值的出现概率,P(Ci|W)为当单字W出现时属于 第i类的条件概率。
2)WEB挖掘:主要功能是采用适当的挖掘算法,对Web的中间表示形式进 行挖掘处理,得到潜在的知识或者模式。根据挖掘信息对象的不同,可分为WEB 文本挖掘、WEB访问信息挖掘和WEB结构挖掘三种类型。以下对其具体处理过 程分述。
WEB文本挖掘处理流程:
(1)定义类别集合C={c1,...,ci,...,cm},这些类别可以是层次式的,也可以 式并列式的;
(2)给出训练文档集合S={s1,...si,...,sn},每一个训练文档被标上所属的类 别标识ci;
(3)统计S中所有文档的特征矢量V(sj),确定代表C中每一个类别的特征 矢量V(cj);
(4)对于测试文档集合T={d1,...,dk,...,dr}中的每一个待分文档dk,计算其 特征矢量V(dk)与每一个V(cj)之间的相似度sim(dk,cj);
(5)选取相似度最大的一个类别 作为dk的类别。
有时候也可以为dk指定多个类别,只要dk与这些类别之间的相似度超过了 某一个预定的阈值。如果dk与所有的类别的相似度均低于阈值,那么通常将该 文档放在一边,由用户来做最终的决定。对于类别与预定义类别不匹配的文档 而言,这是合理的,也是必要的。如果这种情况经常发生,则说明需要修改预 定义类别,然后再重新进行上述训练与分类过程。
在计算sim(dk,cj)时,有多种方法可供选择。最简单的方法是考虑两个特征 矢量中所包含的词条的重叠程度,即 sim ( d k , c j ) = n ( d k , c i ) n ( d k , c i ) , 其中n∩(dk,ci)是 V(dk)和V(cj)具有相同词条数目,n∪(dk,ci)是V(dk)和V(cj)具有的所有的词条 数目;最常用的方法就是考虑两个特征矢量之间的夹角的余弦,即 sim ( d k , c j ) = V ( d k ) · V ( c i ) | V ( d k ) | × | V ( c i ) |
WEB访问信息挖掘处理流程:
将查询q提交给普通的基于相似度的搜索引擎,搜索引擎返回很多页面, 从中取前n个页面作为根集,用S表示。
通过向S中假如被S引用的页面和引用S的页面将S扩展成一个更大的集合T。
以T中hub页为顶点集V1,以authority页为顶点集V2,V1中的页面到V2 中的页面的超链接为边集,形成一个二分有向图SG=(V1,V2,E)。对V1中 的任一个顶点v,用h(v)表示页面v的hub值,对V2中的定点u,用a(u) 表示页面u的authority值,开始时a(u)=h(v)=1,对u执行I操作修 改它的a(u),对v执行0操作修改它的h(v):
I操作: a ( u ) = Σ v : ( v , u ) E h ( v ) - - - ( 1 )
0操作: a ( u ) = Σ v : ( v , u ) E a ( u ) - - - - - - - ( 2 )
每次迭代后对a(u)和h(v)进行规范化处理: a ( u ) = a ( u ) Σ q V 2 [ a ( q ) ] 2 - - - h ( v ) = h ( v ) Σ q V 1 [ h ( q ) ] 2
式(1)反映了若一个页面有很多好的hub所指,则其authority权重会相 应增加(即权重增加为所有指向它的页面的现有hub权重之和)。式(2)反映 了若一个页面指向许多好的权威页面,则hub权重也会相应增加(即权重增加 为该页面链接的所有页面的authority权重之和)。
算法输出一组具有较大hub权重的页面和具有较大authority权重的页面。
在实际应用中,由S生成T的代价可能是很昂贵的。为了找出S所引用的 页面,需要将S中的所有页面下载,为了找出引用S的页面,对S中的页面需 要搜索引擎能给出的URL能找出引用该URL的页面。一般情况下,|S|=200,而 |T|可能达到5000。因此根据T产生有向图SG可能是昂贵的。
WEB结构挖掘处理流程:
使用识别用户浏览行为的序列模式,主要是挖掘频繁遍历路径。遍历路径 就是在用户会话中请求页面所组成的序列。由于用户会话中既包含请求页面叉 包含路径补充时添加的页面,所以挖掘频繁编历路径时,首先在每个用户会话 中找出所有的最大向前路径。然后确定其中的公共子路径。最大向前路径的方 法是基于最大向前引用的工作。在用户会话中的第一页到回退的前一页组成的路径。
假设{x1,x2,...,xm}代表一个用户会话{y1,y2,...,ym}代表一个含有潜在最大向前 路径的字符串,初值为空,用标志位标志当前的编历方向是前进还是后退。算 法的主要思想是,每次检查用户会话中的页x,试图将该页扩充到潜在最大向 前路径中。
3)模型质量评价:将挖掘得到知过程识或者模式进行评价,将符合一定标 准的知识或者模式呈现给用户。
将数据集分成训练集与测试集两部分,学习-测试循环反复执行,最后用一 个平均质量来衡量模型质量的好坏。其中,测试集是从数据集中随机抽取预定 大小的一个子集,其余的数据作为训练集;
评估参数有分类正确率、查准率、与查全率。
分类正确率: Accuracy ( M ) = Σ ex P ( ex ) Accuracy ( M , ex ) = P ( C ^ ( ex ) = C ( ex ) )
Accuracy(M,ex)=1; C ^ ( ex ) = C ( ex ) 或者0;其它
其中C(ex)为样例ex的实际类值, 为通过模型M对样例ex的预 测类值,P(ex)为样例ex的概率(通常为1/n,n为样本集的大小)。
查准率为检索到的目标类的样例集中所包含的属于检索正确的样例所占比 例的大小。对目标类target C模型M的查准率可用如下公式来估计。 Precision ( M . , t arg er C ) = P ( t arg et C | t arg e t ^ C )
查全率为在一个检索结果中所包含的检索正确的对象数目占实际存在的满 足查询要求的对象数目的比例大小。对目标类target C模型M的查全率可用 如下公式来估计。 Recall ( M , t arg et C ) = P ( t arg e t ^ C | t arg et C )
在如上的两个公式中,target C代表实际值为目标类值, 代表预测 值为目标类值。
4)信息表示和信息导过程过程航:将反馈的结果用可视化的方式进行显 示,同时对用户提供信息导航功能,从而在极大的程度上方便用户有效的浏览 和获取信息。
图13为模型库维护及创建过程流程图。首先,当用户输入问题后,形成问 题实例步骤101,系统自动查找模型操纵知识库,进行知识匹配步骤102,如 果知识匹配,进入问题求解过程步骤106;否则如果没有知识匹配,即库中既 无模型操纵知识,也无求解经验,系统应该接着搜索模型库,进行模型匹配步 骤103,如果找到模型和求解目标匹配,则进入问题求解过程步骤106;否则 如果库中没有模型与求解目标匹配,提示用户原始求解目标是否可以分解成几 个子问题进行求解,如果可以,则要求用户输入数据步骤104,形成子问题实 例,然后转到步骤102,行模型并显示结果;否则,如果原求解问题不能被拆 分,则需要用户自己选模或建模步骤105。
每次运行步骤106后,用户应调用评价过程步骤107,如果结果满意,进 入学习模型操纵知识步骤108;否则如果结果不满意,应调用修正模型来操纵 知识步骤109,从而修改模型步骤105,重新求解步骤106。这样,可以使每 次运行得到的经验都被积累到系统中。
图14所示为问题推理过程流程图。
首先,步骤201使指针指向知识库中的第一条知识,步骤202判断知识库 是否已经搜索完毕,如还有知识未被检索,则步骤203从知识库中将此规则提 取出来,步骤204根据此规则前提和数据库所支持的该规则的可信度等参数, 得到该规则结论的可信度,步骤205判断该结论可信度是否大于可信度阈值, 如不大于,则步骤206取下一条规则,系统执行202;否则如可信,则步骤207 使该结论作为新事实放入数据库中,如果该结论已经在数据库中了,根据可信 度计算模型重新计算新的模型,并从知识库中删除知识R,并转向执行步骤 202。知识库搜索结束后,步骤208判断数据库内容是否有增加,如有则转向 201,否则如没有,步骤209将数据库中的相关结论取出。
如图15所示的KDD*挖掘过程示意图,具体参见相关申请专利:
步骤302对真实数据库进行预处理,形成挖掘数据库;步骤303将计数指 针置为1;步骤304从挖掘数据库产生所有大于最小支持度的数据的集合,即 大项集Li;步骤305从知识库中产生候选集Ci+1;步骤306判断候选集是否为 空,如果判断是肯定的,则转到步骤314,否则执行步骤307;步骤307计算 规则强度intensity(cm);步骤308判断规则强度是否小于规则强度阈值 MinIntensity,如果判断是肯定的,则执行步骤309以删除cm,然后转到步 骤315,如果判断是否定的,则执行步骤310;步骤310产生知识短缺集Ki+1; 步骤311判断知识短缺集Ki+1是否为空,如果判断是肯定的,则转到步骤314, 否则执行步骤312;步骤312调用KDD进程进行数据的挖掘;步骤313使计数 指针加1后转到步骤305;步骤314显示产生的新规则;步骤315则结束本次运行。
如图16所示的给出WEB挖掘中挖掘过程的流程示意图:
步骤401定义定义类别集合C={c1,...,ci,...,cm},然后步骤402取出训练文档 集合S={s1,...si,...,sn}中的第一个训练文档S1,步骤403将为选定的训练文档给 定类别属性C,步骤404计算此选定训练文档的特征矢量V(S),步骤405判 断此选定训练文档是不是训练文档集合中的最后一个,如果不是,步骤406取 出下一个训练文档,并执行步骤403;否则执行步骤407取测试文档集合 T={d1,...,dk,...,dr}中的第一个待分文档D1,步骤408计算其特征矢量V(dk)与 每一个V(cj)之间的相似度sim(dk,cj),步骤409选出相似度最大的一个类别 步骤410判断是否还有未处理的待分文档,如有,步骤411 取出下一个待分文档,并执行步骤408;否则程序结束。
以上具体实施方式仅用于说明本发明,而非用于限定本发明。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈