首页 / 专利库 / 人工智能 / 知识表示与推理 / 一种用于医学影像的知识图谱构建方法

一种用于医学影像的知识图谱构建方法

阅读:638发布:2020-05-22

专利汇可以提供一种用于医学影像的知识图谱构建方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种用于医学影像的知识图谱构建方法,属于知识图谱领域。构建过程包括:知识表示,采用 框架 理论表示法;知识获取,实体、属性和属性值 抽取 的知识来源为非结构化数据;知识融合;对获得的新知识进行整合,消除歧义;知识加工,对知识融合后的数据进行知识推理和 质量 评估,将合格的数据加入到知识图谱中;知识更新,根据医学影像知识的更新发展,更新知识图谱。本发明根据医学影像知识自身的特点,以教科书、学术期刊等非结构化数据作为知识来源,大大提高了知识获取率。,下面是一种用于医学影像的知识图谱构建方法专利的具体信息内容。

1.一种用于医学影像的知识图谱构建方法,其特征在于,构建过程包括:
(一)知识表示采用框架理论表示法,将存储在图数据库中的所有数据构成实体关系网络,形成知识图谱;
(二)知识获取先进行实体、属性和属性值抽取,再进行实体间以及实体属性间的关系抽取,获得新知识;实体、属性和属性值抽取的知识来源为非结构化数据;
(三)知识融合对获得的新知识进行整合,消除歧义;
(四)知识加工对知识融合后的数据,进行知识推理和质量评估,将合格的数据加入到知识图谱中;
(五)知识更新根据医学影像知识的更新发展,更新知识图谱。
2.根据权利要求1所述的一种用于医学影像的知识图谱构建方法,其特征在于,过程(一)中,所述知识表示以框架名-侧面-侧面名作为基本表达方式,具体表示过程如下:
通过纵向联系把具有继承关系的上下层框架联系在一起,通过横向联系以一个框架名作为一个槽的槽值或侧面值建立起框架之间的联系;
在框架理论构建过程中通过继承、匹配和填槽三种方式来完成。
3.根据权利要求1所述的一种用于医学影像的知识图谱构建方法,其特征在于,所述非结构化数据通过以下三种方式获取:
方式一、采用基于规则和词典的方法获取;
方式二、采用基于统计的实体命名识别方法获取;
方式三、采用基于语义分析方法获取。
4.根据权利要求3所述的一种用于医学影像的知识图谱构建方法,其特征在于,基于规则和词典的方法获取非结构化数据的具体方法如下:
从非结构化文本中,通过正则表达式和正向最大匹配算法获取结构化的医学知识;
通过正则表达式和正向最大匹配算法获取结构化的医学知识的具体过程如下:
首先是通过正则表达式获取句子,再通过正向最大匹配法进行分词;
将HanLP分词器导入内存,将RadLex元数据词典翻译成中文,并对RadLex元数据词典的分类进行细化,得到改进的数据词典,导入内存;对影像检查报告单进行总结训练,得到同义词词典,同样导入内存;HanLP分词器、改进的数据词典和同义词词典三者形成分词词典,将待查询的句子按照从左到右的最长匹配原则在分词词典中进行查找;
在分词词典中采用二分快速查找法查找词组:在查找词组过程中,读取句子中的首个字符,定位到分词词典中的起始位置和结束位置,再进行二分法查找;
在查找词组的过程中,记录起始到结束位置之间所有词语的最大长度,从最大长度开始查找,逐一递减,直至找到该词结束。
5.根据权利要求3所述的一种用于医学影像的知识图谱构建方法,其特征在于,基于统计的实体命名识别方法获取结构化数据的具体方法如下:
对于词典中未出现的词,首先选取样本总量的5-10%进行词性标注,再通过隐尔可夫模型对海量的医学知识文本进行训练从而得到词向量,统计并计算未出现词与已标记词之间的相似度,通过比较相似度的大小来判断未出现词和已出现词之间的相似性;
隐马尔可夫模型在训练的时候需要三个参数,即(P,A,B),其中P为先验概率,A为词性之间的状态转移概率矩阵,表示某一标注转移到下一个标注的概率;B为词到词的观察概率矩阵,表示在某个标注下,生成某个词的概率;通过分析语料库获得以上三个参数,统计每个出现的词的词性以及计算每个词出现的次数及其后续词性出现的次数和词性对应的词,通过以上统计信息可以训练出三个参数进而通过频率来计算概率:
公式1表示词性之间的状态转移概率:
公式1中#(St-1,St)表示的是两个词性先后出现的次数,#(St-1)表示的是单个词性出现的次数;
公式2表示词到词的的观察概率:
公式2中#(Ot,St)表示的是两个词同时出现的次数,#(St)表示的是单个词出现的次数。
6.根据权利要求3所述的一种用于医学影像的知识图谱构建方法,其特征在于,基于语义分析方法获取结构化数据的具体方法如下:
首先对句子中的核心谓语动词进行标注,然后找到句子中的根节点,自动分析句子中剩余的成分,通过训练,计算机能对前面的输出进行记忆并应用于当前输出的计算中,并将前面的输出作为后面的输入,从而实现将两个句子联系在一起。
7.根据权利要求3所述的一种用于医学影像的知识图谱构建方法,其特征在于,所述关系抽取,使用基于Bootstrapping半监督学习方法,具体的算法流程如下:
首先进行假设,假设分类器对样本实例进行预测时置信度平在0.90以上的样本能够被正确分类,假设两类数据M和N,其中的M是被标注过的数据,N是未被标注的数据;
(1)从非结构化数据中随机抽取一部分样本集进行人工标注,选择出符合条件的实体对作为样本集M;
(2)对样本集M进行训练,得到分类模型K;
(3)计算非结构化数据的剩余语料对应的模板与模板库中模板的相似度;
(4)用模型K来预测N;
(5)将预测的结果置信水平在0.90以上的n个样本集合J的标签加入到训练数据M中,并删除N;
(6)返回到第(1)步,继续进行下一步的迭代,不断扩大当前的样本集,直到得到全部的未标注的数据并加入到M中。
8.根据权利要求1所述的一种用于医学影像的知识图谱构建方法,其特征在于,过程(三)中,所述知识融合的具体过程如下:
当一个实体对应多个指称项时,采用向量空间模型,从当前的语料中取出实体周边的词构成特征向量,然后通过向量的余弦相似度进行比较,将该实体聚类到与之最相近的实体集合中;
当多个指称项对应于同一实体对象时,根据同义词识别和语义分析从原始语料中抽取实体上下文模式的信息。
9.根据权利要求1所述的一种用于医学影像的知识图谱构建方法,其特征在于,过程(四)中,所述知识加工具体采用确定性推理和不确定性推理两种方式:
所述确定性推理为根据预先定义好具有继承关系的上下层框架进行推理,能够准确地推导出最终的结论;
所述不确定性推理通过贝叶斯网络算法进行。
10.根据权利要求1所述的一种用于医学影像的知识图谱构建方法,其特征在于,过程(五)中,所述知识更新是从新数据中抽取新的实体、属性和属性值并将其映射到现有的知识图谱中,得到新数据后进行知识融合,再根据所述知识获取的方法加入新的三元组,扩充影像诊断知识图谱。

说明书全文

一种用于医学影像的知识图谱构建方法

技术领域

[0001] 本发明属于知识图谱领域,具体地说,涉及一种用于医学影像的知识图谱构建方法。

背景技术

[0002] 知识图谱是智能大数据的前沿研究问题,它以独有的技术优势顺应了信息化时代的发展;知识图谱是结构化的语义知识库,是一种基于图的数据结构,采用符号的形式描述事物的概念以及相互之间的关系。在医学领域,积累了海量的医学数据,如何从这些数据中提炼信息并加以管理、共享及应用,是推进医学智能化的关键问题,是医学知识检索、临床诊断、医疗质量管理、电子病历及健康档案智能化处理的基础
[0003] 医学影像主要应用于人工智能辅助诊断,提高医生对医学影像的诊断正确率。目前还没有大型、完善的医学影像知识图谱,多数影像学知识图谱是基于不同单元结构来构建的,无法广泛应用于临床。这主要是因为影像学数据复杂且多样;此外,自然语言处理技术不成熟,也导致知识的获取率低。
[0004] 申请日为2016年4月29日,公开日为2016年10月12日,公布了一种医学知识图谱的构建方法、其装置及其查询的发明专利申请,通过从医学数据源采集用于构建医学知识图谱的数据;在采集中的数据中提取实体、实体的属性信息以及各实体之间的关系信息;根据提取出的各实体、各实体的属性信息以及各实体之间的关系信息,构建医学知识图谱。通过上述方式构建的医学知识图谱,采用非关系型数据存储模式,更方便医学知识体系的多方向的知识挖掘,为医护人员提供更直观的参考,从而降低医疗事故的发生。但是该专利申请并没有对知识获取的方法进行展开,对于一些数据复杂多样的医学领域,知识获取率并不高。

发明内容

[0005] 1、要解决的问题
[0006] 针对影像学数据复杂且多样、知识获取率低的问题,本发明提供一种用于医学影像的知识图谱构建方法。
[0007] 2、技术方案
[0008] 为解决上述问题,本发明采用如下的技术方案。
[0009] 一种用于医学影像的知识图谱构建方法,构建过程包括:
[0010] (一)知识表示 采用框架理论表示法,将存储在图数据库中的所有数据构成实体关系网络,形成知识图谱;
[0011] (二)知识获取 先进行实体、属性和属性值抽取,再进行实体间以及实体属性间的关系抽取,获得新知识;实体、属性和属性值抽取的知识来源为非结构化数据;
[0012] (三)知识融合 对获得的新知识进行整合,消除歧义;
[0013] (四)知识加工 对知识融合后的数据,进行知识推理和质量评估,将合格的数据加入到知识图谱中;
[0014] (五)知识更新 根据医学影像知识的更新发展,更新知识图谱。
[0015] 作为优化方案,过程(一)中,所述知识表示以框架名-侧面-侧面名作为基本表达方式,具体表示过程如下:
[0016] 通过纵向联系把具有继承关系的上下层框架联系在一起,通过横向联系以一个框架名作为一个槽的槽值或侧面值建立起框架之间的联系;
[0017] 在框架理论构建过程中通过继承、匹配和填槽三种方式来完成。
[0018] 作为优化方案,所述非结构化数据通过以下三种方式获取:
[0019] 方式一、采用基于规则和词典的方法获取;
[0020] 方式二、采用基于统计的实体命名识别方法获取;
[0021] 方式三、采用基于语义分析方法获取。
[0022] 作为优化方案,基于规则和词典的方法获取非结构化数据的具体方法如下:
[0023] 从非结构化文本中,通过正则表达式和正向最大匹配算法获取结构化的医学知识;
[0024] 通过正则表达式和正向最大匹配算法获取结构化的医学知识的具体过程如下:
[0025] 首先是通过正则表达式获取句子,再通过正向最大匹配法进行分词;
[0026] 将HanLP分词器导入内存,将RadLex元数据词典翻译成中文,并对RadLex元数据词典的分类进行细化,得到改进的数据词典,导入内存;本实施例中的医生报告主要来源于安徽中医药大学第一附属医院影像科的影像检查报告并对医生报告进行总结训练,得到同义词词典,同样导入内存;HanLP分词器、改进的数据词典和同义词词典三者形成分词词典,将待查询的句子按照从左到右的最长匹配原则在分词词典中进行查找;
[0027] 在分词词典中采用二分快速查找法查找词组:在查找词组过程中,读取句子中的首个字符,定位到分词词典中的起始位置和结束位置,再进行二分法查找;
[0028] 在查找词组的过程中,记录起始到结束位置之间所有词语的最大长度,从最大长度开始查找,逐一递减,直至找到该词结束。
[0029] 作为优化方案,基于统计的实体命名识别方法获取结构化数据的具体方法如下:
[0030] 对于词典中未出现的词,首先选取样本总量的5-10%进行词性标注,再通过隐尔可夫模型对海量的医学知识文本进行训练从而得到词向量,统计并计算未出现词与已标记词之间的相似度,通过比较相似度的大小来判断未出现词和已出现词之间的相似性;
[0031] 隐马尔可夫模型在训练的时候需要三个参数,即(P,A,B),其中P为先验概率,A为词性之间的状态转移概率矩阵,表示某一标注转移到下一个标注的概率;B为词到词的观察概率矩阵,表示在某个标注下,生成某个词的概率;通过分析语料库获得以上三个参数,统计每个出现的词的词性以及计算每个词出现的次数及其后续词性出现的次数和词性对应的词,通过以上统计信息可以训练出三个参数进而通过频率来计算概率:
[0032] 公式1表示词性之间的状态转移概率:
[0033]
[0034] 公式1中#(St-1,St)表示的是两个词性先后出现的次数,#(St-1)表示的是单个词性出现的次数;
[0035] 公式2表示词到词的的观察概率:
[0036]
[0037] 公式2中#(Ot,St)表示的是两个词同时出现的次数,#(St)表示的是单个词出现的次数;
[0038] 作为优化方案,基于语义分析方法获取结构化数据的具体方法如下:
[0039] 首先对句子中的核心谓语动词进行标注,然后找到句子中的根节点,自动分析句子中剩余的成分,通过训练,计算机能对前面的输出进行记忆并应用于当前输出的计算中,并将前面的输出作为后面的输入,从而实现将两个句子联系在一起。
[0040] 作为优化方案,所述关系抽取,使用基于Bootstrapping半监督学习方法,具体的算法流程如下:
[0041] 首先进行假设,假设分类器对样本实例进行预测时置信度平在0.90以上的样本能够被正确分类,假设两类数据M和N,其中的M是被标注过的数据,N是未被标注的数据;
[0042] (1)从非结构化数据中随机抽取一部分样本集进行人工标注,选择出符合条件的实体对作为样本集M;
[0043] (2)对样本集M进行训练,得到分类模型K;
[0044] (3)计算非结构化数据的剩余语料对应的模板与模板库中模板的相似度;
[0045] (4)用模型K来预测N;
[0046] (5)将预测的结果置信水平在0.90以上的n个样本集合J的标签加入到训练数据M中,并删除N;
[0047] (6)返回到第(1)步,继续进行下一步的迭代,不断扩大当前的样本集,直到得到全部的未标注的数据并加入到M中。
[0048] 作为优化方案,过程(三)中,所述知识融合的具体过程如下:
[0049] 当一个实体对应多个指称项时,采用向量空间模型,从当前的语料中取出实体周边的词构成特征向量,然后通过向量的余弦相似度进行比较,将该实体聚类到与之最相近的实体集合中;
[0050] 当多个指称项对应于同一实体对象时,根据同义词识别和语义分析从原始语料中抽取实体上下文模式的信息。
[0051] 作为优化方案,过程(四)中,所述知识加工具体采用确定性推理和不确定性推理两种方式:
[0052] 所述确定性推理为根据预先定义好具有继承关系的上下层框架进行推理,能够准确地推导出最终的结论;
[0053] 所述不确定性推理通过贝叶斯网络算法进行。
[0054] 作为优化方案,过程(五)中,所述知识更新是从新数据中抽取新的实体、属性和属性值并将其映射到现有的知识图谱中,得到新数据后进行知识融合,再根据所述知识获取的方法加入新的三元组,扩充影像诊断知识图谱。
[0055] 3、有益效果
[0056] 相比于现有技术,本发明的有益效果为:
[0057] (1)本发明创建的医学影像领域的知识图谱,弥补了医学影像知识图谱领域的空白,通过知识图谱的形式,将掌握在部分人手中的医学影像知识被大家广泛应用;在医学影像的知识图谱构建过程中,知识抽取的质量(准确率和召回率)对后续的知识获取效率和质量有较大的影响,本发明根据医学影像知识自身的特点,以教科书、学术期刊等非结构化数据作为知识来源,大大提高了知识获取率。
[0058] (2)通过框架理论将医学影像知识结构化,能够清楚表达知识的层级关系;同时有效的减少了知识冗余,“框架名-侧面-侧面名”作为基本表达方式,将存储在图数据库中的所有医学数据构成庞大的实体关系网络,形成知识的“图谱”。
[0059] (3)由于影像数据的复杂多样,即使只采集非结构化数据,依然很难保证获取率,本发明通过采用基于规则和词典、基于统计的实体命名识别以及基于语义分析三种方法并用,获取全面、有效的非结构化数据;三种方式协同获取知识,大大提高了知识的获取率。
[0060] (4)基于规则和词典的方法获取知识,设计思想简单,易于机器实现,时间复杂度也比较低,但对分词词库的要求较高。目前的中文分词词典满足不了对医学影像学诊断知识图谱构建中的分词要求,为了提高分词的效率和正确性,本发明在HanLP分词器词库的基础上借鉴了北美放射协会的RadLex元数据词典,该词典包含了解剖、影像学表现、影像检查方法等15类信息,是一个比较全面的影像学英文分词词典,故本发明在此基础上将该词典进行翻译并进行了更细的分组,同时还构建了大量的同义词词典,以此来提高分词的正确率。
[0061] (5)通过ER和FMM方法的知识获取率不够高,还有很多实体和属性以及属性值获取不到,故本发明采用了命名实体识别方法提高获取率。对于词典中未出现的词,本发明通过基于统计命名实体识别(Named Entity Recognition,NER),首先本发明选取部分样本进行词性标注,再通过隐马尔可夫模型(Hidden Markov Model,HMM)对海量的医学知识文本进行训练从而得到词向量,统计并计算未出现词与已标记词之间的相似度,提高获取知识的正确率。
[0062] (6)在医学影像学报告中还存在很多的句子没有主语,通过命名实体识别和基于规则的方法均无法获取其属性和属性值,本发明针对这种情况采取了语义理解这一自然语言处理方法,完善了知识获取,提高了获取率。
[0063] (7)经过实体、属性和属性值抽取后,得到的是一系列离散的名词,为了得到语义信息,还需从相关的文本中提取出实体间及实体和属性间的关系,通过关系将实体和属性之间联系起来,形成网状的知识图谱。
[0064] 由于医学影像标注的复杂度和专业性,很难投入大量人进行手工标注,利用Bootstrapping算法可以通过较少的影像标注语料获取到置信度较高的多量的影像标注语料的反复迭代的过程。
[0065] (8)在获得新知识之后,需要对其进行整合,消除歧义,比如某些实体可能有多种表达方式,某个特定称谓也可能对应多个不同的实体,需要将不同的实体进行知识融合。本发明通过知识融合,能够消除大量冗余和错误信息,使扁平化的数据关系增加层次性和逻辑性。
[0066] (9)对于经过融合的数据,还需经过知识推理和质量评估之后(人工参与甄别)将合格的数据加入到知识图谱中,以此来确保知识图谱的质量。确定性推理具有完备的推理过程和充分的表达能力,对于一些结构简单的数据可以准确地推导出结论,而不确定性推理可以对结构复杂的数据进行推理补充。
[0067] (10)医学影像知识在不断的更新发展,随之知识图谱也需要不断的更新,以满足临床的需求。由于本发明中医学影像数据来源的特殊性,医学影像诊断知识图谱的结构一定时期内不会发生改变,只需从新数据中抽取新的实体并将其映射到医学影像诊断知识图谱中的概念中,得到新实体数据后进行知识融合,再根据一定的加入新的三元组,即扩充了影像诊断知识图谱。附图说明
[0068] 图1为本发明提供的医学影像的知识图谱构建流程示意图;
[0069] 图2为实施例2使用的框架理论表示法示意图;
[0070] 图3为实施例3提供的分词示意图。

具体实施方式

[0071] 下面结合附图和具体实施例对本发明进行详细描述。
[0072] 实施例1
[0073] 知识图谱通常有两种构建方法:自顶向下(Top-Down)和自底向上(Bottom-Up)。自顶向下的方法是先构建本体,并将抽取到的实体匹配到所构建的顶层本体中;自底向上的方法是直接从抽取到的数据中提取实体间的关系并更新到知识图谱中。本发明采用自底向上的方法构建医学影像诊断知识图谱,流程如图1所示:
[0074] 一种用于医学影像的知识图谱构建方法,构建过程包括:
[0075] (一)知识表示 采用框架理论表示法,将存储在图数据库中的所有数据构成实体关系网络,形成知识图谱;
[0076] (二)知识获取 先进行实体、属性和属性值抽取,再进行实体间以及实体属性间的关系抽取,获得新知识;实体、属性和属性值抽取的知识来源为非结构化数据;
[0077] (三)知识融合 对获得的新知识进行整合,消除歧义;
[0078] (四)知识加工 对知识融合后的数据,进行知识推理和质量评估,将合格的数据加入到知识图谱中;
[0079] (五)知识更新 根据医学影像知识的更新发展,更新知识图谱。
[0080] 影像学数据复杂且多样、知识获取率低,目前鲜有相关的知识图谱。为弥补这一领域的空白,本发明提供了一种用于医学影像的知识图谱构建方法,通过知识图谱的形式,将掌握在部分人手中的医学影像知识被大家广泛应用;在医学影像的知识图谱构建过程中,知识抽取的质量(准确率和召回率)对后续的知识获取效率和质量有较大的影响,本发明以教科书、学术期刊等非结构化数据作为知识来源,可以避免因数据结构的多样性而导致知识获取率低的问题。
[0081] 实施例2
[0082] 实施例2与实施例1的方案基本相同,实施例2的过程(一)中,知识表示以“框架名-侧面-侧面名”作为基本表达方式,具体表示过程如下:
[0083] 通过纵向联系把具有继承关系的上下层框架联系在一起,通过横向联系以一个框架名作为一个槽的槽值或侧面值建立起框架之间的联系;
[0084] 在框架理论构建过程中通过继承、匹配和填槽三种方式来完成。
[0085] 框架表示知识的具体步骤为:
[0086] (1)分析医学影像教材和文献中医学影像的知识对象及其属性,对框架中的槽和侧面进行设置,为所有可能用到的属性设置相应的槽和侧面,避免将无用的属性表示出来。
[0087] (2)对各对象间的各种联系进行考察,根据医学影像知识结构的需要定义一些表达联系的槽名,来描述上下框架间的联系。
[0088] (3)对各层对象的“槽”及“侧面”进行筛查,避免信息描述的重复。
[0089] 框架的一般结构如下所示:
[0090] FRAME<框架名>
[0091] 槽名1:侧面名11:侧面值11
[0092] 侧面名12:侧面值12
[0093] ……
[0094] 侧面名1m:侧面值1m
[0095] ……
[0096] 槽名n:侧面名n1:侧面值n1
[0097] 侧面名n2:侧面值n2
[0098] ……
[0099] 侧面名nm:侧面值nm
[0100] 由于医学影像数据种类繁多、结构复杂、医学影像数据格式和标准不同,导致医学影像领域与其他领域在知识表示方面存在明显差异,目前知识图谱领域多由“实体-关系-实体”三元组构成,而医学影像的知识图谱却多存在以“实体-属性-属性值”的三元组形式,并且医学影像知识图谱的联系紧密、结构复杂,为了更好地表示“属性”和“属性值”等指称项和之间的层级关系,故本发明中知识的表示采用了框架理论表示法,即以框架理论作为基础,用结构化的形式对知识进行表示。
[0101] 通过框架理论方法对知识进行表示,对框架中的各组成部分(槽、侧面及侧面值)进行命名,以医学影像检查中的气管为例,具体的表示方式如图2所示。用气管该部位与知识库中的框架匹配,显然“气管框架”可以匹配,在气管框架中,存在“状态”、“宽度”、“居中性”三个槽,“状态”槽具有“正常”、“异常”两个可选槽值,“宽度”槽具有“正常”、“增宽”、“变窄”三个可选槽值,“居中性”槽具有“居中”、“左偏”、“右偏”三个可选槽值。当其所在槽没有填入槽值时,系统就以缺省侧面值作为该槽的默认值。例如,“状态”槽的默认值为“正常”,“宽度”槽的默认值为“正常”,“居中性”槽的默认值为“居中”。
[0102] 通过该表示法将医学影像知识结构化,能够清楚的看出知识的层级关系;同时有效的减少了知识冗余问题,将存储在图数据库中的所有医学数据构成庞大的实体关系网络,形成知识的“图谱”。
[0103] 实施例3
[0104] 医学知识的来源可以是教科书、学术期刊等非结构化数据,也可以是维基百科、电子病历等半结构化数据,还可以是数据库等结构化数据。而本发明中以教科书、学术期刊等非结构化数据作为知识来源,可以避免因数据结构的多样性而导致知识获取率低的问题。
[0105] 在实施例2的基础上,实施例3的非结构化数据通过以下三种方式获取:
[0106] 方式一、采用基于规则和词典的方法获取;
[0107] 基于规则和词典的方法获取非结构化数据的具体方法如下:
[0108] 从非结构化文本中,通过正则表达式和正向最大匹配算法获取结构化的医学知识;
[0109] 通过正则表达式和正向最大匹配算法获取结构化的医学知识的具体过程如下:
[0110] 首先是通过正则表达式获取句子,再通过正向最大匹配法进行分词;
[0111] 将HanLP分词器导入内存,将RadLex元数据词典翻译成中文,并对RadLex元数据词典的分类进行细化,得到改进的数据词典,导入内存;本实施例中的医生报告主要来源于安徽中医药大学第一附属医院影像科的影像检查报告并对医生报告进行总结训练,得到同义词词典,同样导入内存;HanLP分词器、改进的数据词典和同义词词典三者形成分词词典,将待查询的句子按照从左到右的最长匹配原则在分词词典中进行查找;
[0112] 在分词词典中采用二分快速查找法查找词组:在查找词组过程中,读取句子中的首个字符,定位到分词词典中的起始位置和结束位置,再进行二分法查找;
[0113] 在查找词组的过程中,记录起始到结束位置之间所有词语的最大长度,从最大长度开始查找,逐一递减,直至找到该词结束。以下是分词的具体流程:
[0114] 从教科书、学术期刊等非结构化文本中,通过正则表达式(Regular Expression,ER)和正向最大匹配算法(Forward Maximum Matching,FMM)获取结构化的医学知识。搜集大量具有价值的医学影像教科书、学术期刊并通过正则表达式获取含有关键词(如纹理等部位)的句子,并剔除空格和多余句子。
[0115] 采用HanLP分词器,将词库导入内存中,并将句子按照从左到右的最长匹配原则查找词库。词库一般是按照Unicode码进行排序,故采用了二分快速查找法查找词组。在查找时,读取句子中的首个字符,定位到词库中的起始位置和结束位置,再进行二分法查找。在查找的过程中记录起始到结束位置之间所有词语的最大长度,从最大长度开始查找,逐一递减,直至找到该词结束。
[0116] 例句S1=“气管及纵隔未见明显异常”;
[0117] 假设存在词典:…,气管,及,纵隔,未见明显异常,…
[0118] 从以上词典中可知分词词典中最长词条的长度MaxWL的值为6;
[0119] 那么正向最大匹配的步骤为如下
[0120] 步骤一:输入待拆分字串S1,从S左侧取出长度为6的字串L=“气管及纵隔未”;
[0121] 步骤二:查分词词典,L不在词典中,将L最右边一个字去掉,得到L=“气管及纵隔”;
[0122] 步骤三:查分词词典,L不在词典中,将L最右边一个字去掉,得到L=“气管及纵”;
[0123] 步骤四:查分词词典,L不在词典中,将L最右边一个字去掉,得到L=“气管及”;
[0124] 步骤五:查分词词典,L不在词典中,将L最右边一个字去掉,得到L=“气管”;
[0125] 步骤六:查分词词典,“气管”在词典中,将L添加到S2中,S2=“气管/”,并将L从S1中去除,此时S1=“及纵隔未见明显异常”;
[0126] 步骤七:按照上述步骤依次类推,最后的拆分句S2=“气管/及/纵隔/未见明显异常”,结束。
[0127] 图3具体地表述了分词的过程。该方法设计思想简单,易于机器实现,时间复杂度也比较低,但对分词词库的要求较高。目前的中文分词词典满足不了对医学影像学诊断知识图谱构建中的分词要求,为了提高分词的效率和正确性,本发明借鉴了北美放射协会的RadLex元数据词典,该词典包含了解剖、影像学表现、影像检查方法等15类信息,是一个比较全面的影像学英文分词词典,故本发明在此基础上将该词典进行翻译并进行了更细的分组,如根据检查项目,分为X线检查词典、CT检查词典、DR检查词典等;根据检查部位分为胸部X线检查词典、腹部X线检查词典等;根据组织结构分为软组织检查词典、骨检查词典等等;同时还构建了大量的同义词词典,以此来提高分词的正确率。
[0128] 方式二、对于采用方式一出现的未登录词,采用基于统计的实体命名识别方法获取;
[0129] 基于统计的实体命名识别方法获取结构化数据的具体方法如下:
[0130] 通过ER和FMM方法的知识获取率不够高,还有很多实体和属性以及属性值获取不到,故本发明采用了命名实体识别方法提高获取率。对于词典中未出现的词,对于词典中未登录的词,首先选取样本总量的5-10%进行词性标注,再通过隐马尔可夫模型(Hidden Markov Model,HMM)对海量的医学知识文本进行训练从而得到词向量,通过余弦值来判断未出现词与已标记词之间的相似度,余弦值越趋近于1,相应的相似度也就越高,通过比较相似度的大小来判断未出现词和已出现词之间的相似性,以此来提高获取知识的正确率;当两个词的相似度高时,通过在已登录词的观察概率矩阵代替未登录词的观察概率,因为对于未登录词来说默认其观察矩阵为0。
[0131] 隐马尔可夫模型在训练的时候需要三个参数,即(P,A,B),其中P为先验概率,A为词性之间的状态转移概率矩阵,表示某一标注转移到下一个标注的概率;B为词到词的观察概率矩阵,表示在某个标注下,生成某个词的概率;通过分析语料库获得以上三个参数,统计每个出现的词的词性以及计算每个词出现的次数及其后续词性出现的次数和词性对应的词,通过以上统计信息可以训练出三个参数进而通过频率来计算概率:
[0132] 公式1表示词性之间的状态转移概率:
[0133]
[0134] 公式1中#(St-1,St)表示的是两个词性先后出现的次数,#(St-1)表示的是单个词性出现的次数;
[0135] 公式2表示词到词的观察概率:
[0136]
[0137] 公式2中#(Ot,St)表示的是两个词同时出现的次数,#(St)表示的是单个词出现的次数。
[0138] 在进行频率计算时,当频率很小时统一将计算的结果乘以一个较大的数。假设通过分析语料库获得了X个词性,Y个词组,则就是获得了一个长度为X的向量,A就是一个X×X的句子,B就是一个X×Y的矩阵。对于未登词,默认的观察概率为0,利用同义词词典或词向量相似度找到和未登录词相似同时也在观测概率矩阵里面出现的词语,用已登录词的观察概率来代替为登陆词的观察概率。通过以上计算可以得到一个标注序列,然后通过循环遍历匹配与分词词典进行匹配,输入原词语序列、识别出来的标注序列和序列模式串,输出识别出的医学影像专业名词实体。
[0139] 方式三、对于句子结构复杂,语义不能直观理解的情况,采用基于语义分析方法获取;
[0140] 基于语义分析方法获取结构化数据的具体方法如下:
[0141] 在医学影像学报告中还存在很多的句子没有主语,如“双侧肺纹理未见明显增多,走形尚规整”,从中可以看出“走形尚规整”这句话缺乏主语,通过命名实体识别和基于规则的方法均无法获取其属性和属性值,在这种情况下需要联系上下文,才明白这句话是说“肺纹理-走形-尚规整”。故本发明针对这种情况采取了语义理解这一自然语言处理方法,首先对句子中的核心谓语动词进行标注,然后找到句子中的根节点,自动分析句子中剩余的成分,通过大量的训练,通过训练,计算机能对前面的输出进行记忆并能应用于当前输出的计算中,并将前面的输出作为后面的输入,从而实现将两个句子联系在一起。
[0142] 本发明通过三种方式协同获取知识,大大提高了获取率。
[0143] 实施例4
[0144] 在实施例3的基础上,实施例4的过程(二)中,关系抽取,使用基于Bootstrapping半监督学习方法,具体的算法流程如下:
[0145] 首先进行假设,假设分类器对样本实例进行预测时置信度水平在0.90以上的样本能够被正确分类,假设两类数据M和N,其中的M是被标注过的数据,N是未被标注的数据;
[0146] (1)从非结构化数据中随机抽取一部分样本集进行人工标注,选择出符合条件的实体对作为样本集M;
[0147] (2)对样本集M进行训练,得到分类模型K;
[0148] (3)计算非结构化数据的剩余语料对应的模板与模板库中模板的相似度;
[0149] (4)用模型K来预测N;
[0150] (5)将预测的结果置信水平在0.90以上的n个样本集合J的标签加入到训练数据M中,并删除N;
[0151] (6)返回到第(1)步,继续进行下一步的迭代,不断扩大当前的样本集,直到得到全部的未标注的数据并加入到M中。
[0152] 经过实体获取和属性获取得到的是一系列离散的名词,为了得到语义信息,还需从相关的文本中提取出实体间及实体和属性间的关系,通过关系将实体和属性之间联系起来,形成网状的知识图谱。
[0153] 实施例5
[0154] 在实施例4的基础上,实施例5的知识融合、加工和更新的具体过程如下:
[0155] 当一个实体对应多个指称项时,采用向量空间模型,从当前的语料中取出实体周边的词构成特征向量,然后通过向量的余弦相似度进行比较,将该实体聚类到与之最相近的实体集合中;
[0156] 当多个指称项对应于同一实体对象时,根据同义词识别和语义分析从原始语料中抽取实体上下文模式的信息。
[0157] 在实际语言环境中,经常会遇到某个实体指称项对应于多个命名实体对象的问题,例如“空洞”,在汉语中通常意为“空虚而无内涵”,而在医学影像中指“脏器组织中坏死液化的病变物质排出后,在原处所遗留的凹陷或孔隙”,本发明采用空间向量模型法,从当前的预料中取出实体周边的词构成特征向量,然后通过向量的余弦相似度进行比较,将该指称项聚类到与之最相近的实体指称项集合中。同样,对于多个指称项对应于同一实体对象的问题,例如异常密度影中“斑片状”、“条片状”、“大片状”等指称项可能指向的是同一实体对象“片状影”,根据同义词识别和依存句法分析从原始语料中抽取实体上下文模式的信息。
[0158] 在获得新知识之后,需要对其进行整合,消除歧义,比如某些实体可能有多种表达方式,某个特定称谓也可能对应多个不同的实体,需要将不同的实体以进行知识融合。本发明通过知识融合,能够消除大量冗余和错误信息,使扁平化的数据关系增加层次性和逻辑性。
[0159] 知识加工具体采用确定性推理和不确定性推理两种方式:
[0160] 所述确定性推理为根据预先定义好具有继承关系的上下层框架进行推理,能够准确地推导出最终的结论;
[0161] 所述不确定性推理通过贝叶斯网络算法进行。
[0162] 本发明中知识推理采用了确定性推理和不确定性推理两种方式。确定性推理即根据预先设定好的规则,准确地推导出最终的结论,如在胸部X线检查中肺部包括肺纹理、肺野和肺,通过“肺纹理-状态-正常”、“肺野-状态-正常”和“肺门-状态-正常”可以推理出“肺部-状态-正常”这一结论;不确定性推理则是基于贝叶斯网络算法进行的。
[0163] 经过知识加工的数据需要进行质量评估,通过对知识的可信度进行量化,通过舍弃置信度低的知识,以此来保证知识图谱的质量。
[0164] 对于经过融合的数据,还需经过知识推理和质量评估之后(人工参与甄别)将合格的数据加入到知识图谱中,以此来确保知识图谱的质量。确定性推理具有完备的推理过程和充分的表达能力,对于一些结构简单的数据可以准确地推导出结论,而不确定性推理可以对结构复杂的数据进行推理补充。
[0165] 知识更新是从新数据中抽取新的实体、属性和属性值并将其映射到现有的知识图谱中,得到新数据后进行知识融合,再根据所述知识获取的方法加入新的三元组,扩充影像诊断知识图谱。
[0166] 医学影像知识在不断的更新发展,随之知识图谱也需要不断的更新,以满足临床的需求。由于本发明中医学影像数据来源的特殊性,医学影像诊断知识图谱的结构一定时期内不会发生改变,只需从新数据中抽取新的实体并将其映射到医学影像诊断知识图谱中的概念中,得到新实体数据后进行知识融合,再根据一定的加入新的三元组,即扩充了影像诊断知识图谱。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈