专利汇可以提供用于分析中医方剂药物组配规律的泛化关联规则挖掘方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种用于分析中医方剂药物组配规律的泛化关联规则挖掘方法,该方法实质上是一种结合关联规则挖掘和领域知识表示的泛化关联规则挖掘方法,它使用语义 万维网 技术作为领域知识表示的主要手段。该方法涉及一个知识发现器,该装置利用领域 知识库 所提供的术语系统和领域规则完成 数据挖掘 过程,并将挖掘结果以知识提案的形式提交领域知识库,由领域专家进行验证和评价。其中的数据挖掘过程包括:首先,从中医方剂学数据源中提取所需数据,其次,在数据中挖掘有意义的频繁模式并进行语义标注,最后,根据被标注模式进行泛化规则的提取和推理。其中,使用语义万维网技术构建领域知识库,以及实现信息和知识在该方法所涉及的部件之间的传递。,下面是用于分析中医方剂药物组配规律的泛化关联规则挖掘方法专利的具体信息内容。
1、一种用于分析中医方剂药物组配规律的泛化关联规则挖掘方法,其特征在于,包括以下步骤: (1)构建多个中医方剂学数据源。 (2)构建领域知识库:通过基于描述逻辑的知识表示系统构建领域知识库,并向知识库中添入中医方剂学领域中的术语和中医方剂学领域规则。 (3)通过知识发现器完成数据挖掘过程,并将挖掘结果以知识提案的形式提交领域知识库。 (4)通过领域知识库的知识提案受理部件,对规则发现器提交的知识提案进行受理。
2、 根据权利要求1所述的用于分析中医方剂药物组配规律的泛化关联规则挖掘方法,其特征在于,所述步骤(3)包括如下步骤: (丄)通过信息提取器来提取结构化的中医方剂学记录集合。(2) 通过模式发现器,利用领域知识库所提供的术语系统和领域规则完成频繁模式发现,解释和语义标注。(3) 通过规则发现器,利用领域知识库所提供的术语系统和领域规则完成泛化 关联规则的发现和处理,根据处理后的泛化关联规则产生知识提案并将产 生的知识提案提交给领域知识库。
3、 根据权利要求1所述的用于分析中医方剂药物组配规律的泛化关联规则挖掘 方法,其特征在于,所述步骤(4)中,所述对规则发现器提交的知识提案进行 受理过程包括以下步骤:(1) 接受和缓存知识提案。(2) 帮助领域专家杳看,理解,验证和评价知识提案,从而产生可操作的领域知识。(3) 将新产生的nf操作的领域知识永久存储于领域知识库。
并向知识库中添入中医方剂学领域中的术语和中医方剂学领域规则。(3) 通过知识发现器完成数据挖掘过程,并将挖掘结果以知识提案的形式 提交领域知识库。包括如下步骤:(3. 1)通过信息提取器来提取结构化的中医方剂学记录集合。(3.2) 通过模式发现器,利用领域知识库所提供的术语系统和领域规则完成频繁模式发现,解释和语义标注。(3.3) 通过规则发现器,利用领域知识库所提供的术语系统和领域规 则完成泛化关联规则的发现和处理,根据处理后的泛化关联规 则产生知识提案并将产牛的知识提案提交给领域知识库。(4) 通过领域知识库的知识提案受理部件,对规则发现器提交的知识提案 进行受理。知识提案的受理过程包括:(4. 1)接受和缓存知识提案;(4.2)帮助领域专家查看,理解,验证和评价知识提案,从而产生可操作的领域知识; (4. 3)将新产生的可操作的领域知识永久存储于领域知识库。 本发明的有益效果是:本发明所提供的方法的结果是可验证的知识提案, 知识提案包括描述泛化关联规则的断言和用于帮助领域专家理解泛化关联规则 的语义标注,经过专家受理的知识提案,描述了中医方剂药物组配规律,从而 可以嵌入中医方剂与药物发现系统,并在发现新的中医方剂与药物中发挥重要 作用。附图说明图l示出了本发明的原理图。具体实施方式本发明提供了一种数据挖掘方法,用于通过挖掘大量中医方剂学记录来分 析中医方剂药物组配规律。这一方法利用方剂数据库从大量方剂中抽取隐含的, 未知的,有意义的药物组配模式;它为中医方剂理论研究和中医临床用药研究 提供了一个重要的知识来源。在具体阐述该方法之前,有必要明确中医方剂药物组配规律挖掘的应用背案例l (古代方剂大柴胡汤)。 方名大柴胡汤 药物组成柴胡J两,黄芩3两,芍药^两,甘草(炙)3两,半夏2两半(汤洗7次),大 黄2两,枳实l两(麸炒,去瓤) 功效梳利风热 主治头痛,痰嗽,腹胀,及里证未解。方剂配伍规律研究的核心问题是研究药物的组配规律,其中,药对是药物 间最基本的组配方式。通过频繁模式和关联规则挖掘,可以发现药物的组配规 律。如下由数据挖掘所获得的频繁模式所导出的药物组配规律:案例2 (药物组配规律)。 药物组成人参,白术,茯苓方剂学证据在1474首方剂中出现上述的药物组成 测量指标反映药物组配规律可靠性的量化指标为"A在从0到1的闭区间内取值)。 通过上面的挖掘出的药物组配规律,领域专家可以根据方剂学证据分析这一模式是否合理,并决定是否进行进一步的验证工作。领域专家的知识发现活动往往是案例驱动的。案例本身对数据挖掘提供了一系列的约束条件。如下是由约束数据发掘所获得的频繁模式导出的药物组配规律:案例3 (药物组配规律(续))。 约束条件具有清热解毒功效的所有方剂 药物组成
板蓝根,金银花 方剂学证据440首方剂具有清热解毒功效测量指标反映药物组配规律可靠性的量化指标为0。 24(在从0到1的闭区间内取值)通过使用功效,药物等约束条件对方剂集合进行限制,领域专家可以更加 有针对性地进行研究,并提高知识发现的效率。在上文中分析了中医方剂药物组配规律挖掘的背景和内涵。通过上述分析 口J知,中医方剂药物组配规律挖掘是和中医方剂学领域知识高度相关的。本发 明将领域知识的表示,无缝集成在中医方剂挖掘中,从而很好地处理了这一相 关性。本发明提供/一种结合关联规则挖掘和领域知识表示的泛化关联规则方 法,其中主要设计策略包括:(1)使用基于语义万维网的知识表示方法构建领 域知识库。(2)使用本体学习方法来抽取中医方剂学信息。(3)使用泛化关联 规则挖掘方法,利用领域术语的层次结构,来提高规则提取的有效性。(4)使 用知识推理方法生成频繁模式的语义标注。如附图1所示,本发明所提出的方 法涉及如下的功能性部件:多个中医力剂学数据源用于提供中医方剂药物组配规律需要的数据。这些数据源包括计算机化的 病人记录,计算机化的临床研究文献,和结构化的药物化学组成。中医方剂学 数据源为多个分治的,物理上分步式的,结构互异的资源库,这些资源库可以 是:数据库,数据仓库,或者数据服务。一个领域知识库它是由基于描述逻辑的知识表示系统所构建,推理与维护的,它包括术语 系统(称为TBox)和领域规则系统(称为ABox)。术语系统描述了中医方剂学领域 中的术语,包括表示领域中研究对象的概念,和表示2个概念之间的关系的角 色。术语系统以基于万维网本体语言的文件的形式向外界提供术语服务。领域 规则系统是由描述中医方剂学领域规则的断言所组成的,而每一条断言都是由 术语系统中的个体所构成的。 -个知识发现器它利用领域知识库所提供的术语系统和领域规则完成数据挖掘过程,并将 挖掘结果以知识提案的形式提交领域知识库。它包括一个信息提取器, 一个模 式发现器和一个规则发现器。信息提取器负责提供结构化的中医方剂学记录集
合,实现的手段包括针对非结构性信息的提取和针对结构性信息的提取,而这2 种形式的信息都来源于中医方剂学数据源。模式发现器利用领域知识库所提供 的术语系统和领域规则完成频繁模式发现,解释和语义标注。规则发现器利用 领域知识库所提供的术语系统和领域规则完成泛化关联规则的发现和处理,根 据处理后的泛化关联规则产生知识提案,并将产生的知识提案提交给领域知识 库。连接部件上述部件之间通过对应的连接部件实现相互作用。其中,信息抽取器数据 源连接部件负责建立与各种数据源之间的连接,并通过这些连接获得信息。信 息抽取器和模式发现器之间通过一个连接部件实现中医方剂学记录集合的传 递,模式发现器和规则发现器之间通过一个连接部件实现被标注模式的传递。 知识发现器通过领域知识连接部件获得领域知识库中的术语和规则。规则发现 器通过知识提案提交部件将知识提案提交给领域知识库。领域知识库的知识提 案受理部件对规则发现器提交的知识提案进行受理。图1显示本发明所提供的方法所涉及的部件,以及部件之间的相互作用, 从而直观地揭示了该方法的实质内容。本发明所提供的方法包括如下步骤: •、构建多个中医方剂学数据源通过行业公识的数据加工技术,构建计算机化的病人记录,计算机化的临 床研究文献,和结构化的药物化学组成等数据源。经过接近二十年的发展,巾医方剂学数据源的构建技术已经成熟并在行业 内成功推广。行业内已经产生多个分治的,物理上分步式的,结构互异的资源 库,这些资源库的形式为:数据库,数据仓库,或者数据服务等。利用行业公 识的技术,以已有的中医方剂学资源库为基础,可以按需新建中医方剂学资源 库。中医方剂学数据源构建的具体实施方法和结果形式,不影响本发明所提供 方法的实质。 二、构建领域知识库通过基于描述逻辑的知识表示系统构建领域知识库,并向知识库中添入中 医方剂学领域中的术语和中医方剂学领域规则。知识表示是知识获取和使用的前提和基础。最近,知识表示领域中出现了 -个新的发展趋势,这就是本体论理论的提出,以及这一理论在知识发现,知 识管理,和决策支持等系统中的应用。本体论是用于领域概念化的正式规范。
通过本体论,可以使有关各方(人或机器)对领域内共用的词汇,术语和术语分 类达成共识,从而实现知识在各方之间的交流,共享和重用。本体论在多方参 与,剧烈变化的万维网环境中,仍然具有很好的灵活性,可扩展性和可维护性。 将本体论应用于万维网就导致了万维网本体论语言(即OWL)的提出。语义万维网是一组规定万维网信息和知识表示的工业标准。本发明使用语 义万维网技术作为领域知识表示的主要手段:(1)语义万维网査询推荐标准(即SPARQL)用于医学记录传递过程中的查询处理。(2)万维网本体语言(即OWL)用 于描述和交换术语系统中的概念与角色,并用于描述和交换中医方剂学领域规 则的语义标注。(3)语义万维网规则语言(g卩Semantic Web Rule Language或 S WRL)用于描述和交换中医方剂学领域规则。 三、挖掘并提交方剂学知识提案通过知识发现器完成数据挖掘过程,并将挖掘结果以知识提案的形式提交 领域知识库。包括如下步骤:(1) 通过信息提取器来提取结构化的中医方剂学记录集合。 在这个步骤屮,从多个数据源中产生RDF单句。RDF单句的形式为〈主语,谓语,宾语〉,其中宾语本身可以是一个没有全局标识的RDF子图。系统支持如 下2类数据源:(a)结构化数据源:执行SPARQL查询获得的结果可以表示为RDF 单句集合;(b)非结构化数据源:首先对文档分段,然后将非结构化的文本段 翻译为词序列,再将词组合成句于。基于描述逻辑的信息提取方法有多种,在 实现发明时可以选择其中一种。 一种方法是短语定位规则,用于从词序列中提 取信息。短语定位规则适用于每一个单独的句子,它规定当句子中包含某个模 式时,就产生一条新的观察。(2) 通过模式发现器,利用领域知识库所提供的术语系统和领域规则完成 频繁模式发现,解释和语义标注。在这个步骤的一个具体实施例中,首先使用行业公识的Apriori算法发现 频繁模式,然后使ffl行业中广泛使用Prolog解释器产生频繁模式的语义标注, 即通过基于领域知识库的机器推理所得出的对频繁模式的解释。PROLOG解释器 可以通过一个知识库来论证一个目标,论证后所生成的AND/OR树是基于该知识 库对目标的解释。使用PROLOG解释器同样可以对频繁模式进行解释,而解释的 结果是频繁模式的语义标注,这一语义标注可以保存为OWL格式的文件,并通 过树或图的视图展示给领域专家。通过生成频繁模式的语义标注,可以辅助领 域专家理解频繁模式的语义内涵。
当然,知识推理方法并非仅仅包括PROLOG解释器,而使用其它方法同样可以获得频繁模式的解释,从而生成语义标注。基于领域知识库的机器推理的方 法有多种,在发明的实现中可以使用任何可行的方法,而不影响发明中所提供的方法的实质。(3)通过规则发现器,利用领域知识库所提供的术语系统和领域规则完成 泛化关联规则的发现和处理,根据处理后的泛化关联规则产生知识提案并将产 生的知识提案提交给领域知识库。泛化关联规则挖掘的算法本身已经比较成熟,并在商业以及医学领域得到 使用。为了证明算法的可行性,介绍一种直接的解法:首先,对于一条记录的每 个项目,将该项目的所有祖先加入记录中,然后在"扩展记录"的集合上运行 行业共识的Apriori算法。后续的改进算法与这一基本算法相比,可以提高问 题求解的效率,但并不影响发明所提供的方法的实质。下面举例说明泛化关联规则的医学应用。在这一例子中,任意一个医学文 献库被视为医学记录集D,它包含大量医学文档,文档中所包括的作者,疾病, 症状和证候等概念视为具有全局唯一标识的资源。例如:(1) 挖掘出"SARS病毒导致非典型性肺炎"规则,因为100篇中有50篇 谈到了 SARS病毒,这50篇中又有25篇谈到了非典型性肺炎,所以规则的可信 度25/50,而规则的支持度25/100。(2) 挖掘出"非典型性肺炎有发热和咳嗽"规则,因为100篇中有50篇 谈到了非典型性肺炎,这50篇中又冇40篇即谈到了 "发热"又谈到了 "咳 嗽",所以规则的可信度40/50,而规则的支持度40/100。传统定义中以资源(词)为单位挖掘,而非以陈述为单元挖掘。例如,现有 的数据库中含有一篇文献中包括类似"非典型性肺炎的症状是发热"的结构信 息(有一张疾病表, 一张症状表和一张疾病证候关联表)。我们将它表示为〈非典 型性肺炎,疾病的症状,发热〉。然后以陈述为单位挖掘。例如:有50篇〈非典 型性肺炎,疾病的症状,发热〉〈非典型性肺炎,疾病的症状,咳嗽〉其中25篇 〈blank,治疗医院,北京某某医院Xblank,治疗方法,针灸〉〈blank,证候, 某某>。我们发现传统资源或词的集合是不具有语义的,它丢失了语义信息。而 陈述的集合本身是具有连贯的语义的,而且越多陈述表示越丰富的语义内涵。 所以基于语义万维网的关联规则具有更强的参考意义。在多数情形下,针对项 目的分类系统("属于"层次结构)可以从本体论中得到。例如我们挖出:〈非典 型性肺炎,疾病的症状,发热〉,〈典型性肺炎,疾病的症状,发热〉。然后本体 中发现:非典型性肺炎和典型性肺炎都属于肺炎。所以推出〈肺炎,疾病的症状,发热>。我们挖出:〈m,研究,非典型性肺炎〉,〈n,学习,典型性肺炎〉,然后 本体中发现:m, n属于中医院,就推出〈中医院,感兴趣,肺炎〉。用户对分类系统各个层次的项目所组成的规则都感兴趣。然而,"肺炎推出发热"的支持 度不等于"非典型性肺炎推出发热"和"典型性肺炎推出发热"的支持度之 和,因为有人可能同时患有两种疾病。发现泛化关联规则有如下价值:(1) 低层次的规则可能没有足够的支持度,所以如果我们只发现分类系统 叶子节点所组成的规则,那么可能漏掉一些重要的关联规则。(2) 分类系统可以用来过滤无意义和冗余规则。四、受理方剂学知识提案通过领域知识库的知识提案受理部件,对规则发现器提交的知识提案进行受理。知识提案的受理过程包括:(1) 接受和缓存知识提案;(2) 帮助领域专家查看,理解,验证和评价知识提案,从而产生可操作的 领域知识;(3) 将新产生的可操作的领域知识永久存储于领域知识库。 在具体实施中,可以在不违背知识提案受理步骤实质的前提下,根据具体的业务需求确定实施要素的内容,例如:专家成员,知识管理和专家评议等软 件系统的采购和部署,以及制定知识提案受理的流程与政策等。本发明所提供的方法的结果是可验证的知识提案。知识提案包括描述泛关 联规则的断言和用于帮助领域专家理解泛化关联规则的语义标注。经过专家受 理的知识提案,描述了中医方剂药物组配规律,从而可以嵌入中医方剂与药物 发现系统,并在发现新的中医方剂与药物中发挥重要作用。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于中医临床知识图谱的机器人主动问诊方法 | 2020-05-11 | 269 |
妊娠期恶心呕吐的中医体质分布特点及辨体取穴研究方法 | 2020-05-12 | 572 |
基于设计逻辑的参数化建筑设计工法 | 2020-05-23 | 955 |
一种用于电力95598工单的领域术语识别系统及方法 | 2020-05-25 | 520 |
一种基于深度学习的医疗记录模型构建方法、系统及装置 | 2020-05-25 | 667 |
基于知识图谱有向图的生物过程控制方法 | 2020-05-22 | 100 |
基于知识图谱的皮肤病特征分析系统 | 2020-05-23 | 324 |
一种基于机器学习的领域性审计知识图谱构建方法 | 2020-05-13 | 55 |
在电子消息中生成并显示定制头像 | 2020-05-16 | 460 |
基于统计与模板匹配的领域概念自动抽取精化方法及系统 | 2020-05-18 | 711 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。