首页 / 专利库 / 诊断设备和程序 / 医学影像学 / 一种基于卷积神经网络的医疗分析辅助系统

一种基于卷积神经网络的医疗分析辅助系统

阅读:515发布:2020-07-25

专利汇可以提供一种基于卷积神经网络的医疗分析辅助系统专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于 卷积神经网络 的医疗分析辅助系统。该系统利用构建的医疗分析模型提供医疗建议,构建医疗分析模型的步骤包括:根据医学书籍记载的 疾病 种类和医学特征之间的关联性,构建由多组样本数据组成的训练样本集,其中每组样本数据包括一种疾病种类和对应的医学特征;基于所述训练样本集,以医学特征作为输入,以疾病种类作为输出,通过训练卷积神经网络获得用于预测疾病信息的医疗分析模型。利用本发明的医疗分析辅助系统能够提供有效的医疗建议。,下面是一种基于卷积神经网络的医疗分析辅助系统专利的具体信息内容。

1.一种构建医疗分析模型的方法,包括以下步骤:
步骤1:根据医学书籍记载的疾病种类和医学特征之间的关联性,构建由多组样本数据组成的训练样本集,其中每组样本数据包括一种疾病种类和对应的医学特征;
步骤2:基于所述训练样本集,以医学特征作为输入,以疾病种类作为输出,通过训练卷积神经网络获得用于预测疾病信息的医疗分析模型。
2.根据权利要求1所述的方法,其中,在步骤1,对于所述医学书籍包含的多种疾病中的一种疾病,执行以下步骤:
步骤11:从所述医学书籍中抽取关于该种疾病的多个方面的文字描述;
步骤12:通过分词方法将该种疾病的多个方面的文字描述转换为医学特征表示;
步骤13:根据所转换的医学特征表示和该种疾病的对应关系构成一组样本数据。
3.根据权利要求2所述的方法,其中,步骤13还包括以下子步骤:
步骤131:从该种疾病对应的医学特征中随机抽取预定比例的组合作为该种疾病对应的医学特征;
步骤132:将步骤131重复执行多次以获得该种疾病对应的多种医学特征组合。
4.根据权利要求2所述的方法,其中,所述多个方面包括病因、发病机制、临床表现、影像学表现、实验室检查、诊断、鉴别诊断、预防以及治疗中的至少两项。
5.根据权利要求1所述的方法,其中,步骤2中包括:
步骤21:将所述训练样本集中的医学特征转换为向量表示;
步骤22:将所述训练样本集中的医学特征的向量表示组合为医学特征向量矩阵;
步骤23:以所述医学特征向量矩阵为输入,以对应的疾病种类为输出训练所述卷积神经网络。
6.根据权利要求5所述的方法,其中,在步骤21中,利用连续词袋模型将医学特征转换为向量表示。
7.一种医疗分析辅助系统,包括:
医学特征提取单元,用于获取描述待诊断样本的医学特征;
辅助分析单元:用于将所述医学特征输入到根据权利要求1至6任一项所获得的医疗分析模型,以获得预测的疾病种类信息。
8.根据权利要求7所述的系统,其特征在于,所述辅助分析单元还用于基于所述预测的疾病种类信息输出用于临床指示的医疗信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至6中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6中任一项所述的方法的步骤。

说明书全文

一种基于卷积神经网络的医疗分析辅助系统

技术领域

[0001] 本发明涉及疾病分析设备技术领域,尤其涉及一种基于卷积神经网络的医疗分析辅助系统。

背景技术

[0002] 信息技术的迅猛发展与计算机硬件的不断更新为医疗服务行业带来了巨大的机遇,智能医疗诊断系统的相关研究极大促进了医疗信息化产业的快速发展,智能医疗诊断系统中的诊断模型也在不断发展进步。在临床诊断中,医师根据自己的知识储备和临床经验,通过患者的症状和相关检查结果,对病人进行诊断,而智能医疗诊断系统使用的诊断模型首先需要学习大量医学知识,然后输出医疗指导建议。因此,抽取质量的医学知识,以及疾病诊断模型对医学知识的有效学习,是训练出高效的疾病诊断模型的重要条件。
[0003] 目前,疾病诊断模型的知识来源是医学图像数据和诊病历文本数据两个方面,即现有的疾病诊断模型均是基于医学图像数据和病历文本数据进行训练。在基于医学图像数据的诊断模型中,通常仅能根据医学图像数据对某一特定的疾病进行诊断,例如,仅针对部结节进行检测诊断,存在诊断范围单一的问题。在基于病历文本数据的诊断模型中,通常使用自然语言处理技术对病历文本进行处理,再使用规则模型、机器学习模型或神经网络模型进行疾病诊断,这需要使用大量电子病历文本数据训练诊断模型,获取待诊断的电子病历对应的词向量矩阵,然后将待诊断的电子病历对应的词向量矩阵输入到预先构建的深度卷积神经网络模型中,利用分类器对待诊断的电子病历的特征向量进行分类诊断,这种方式将卷积神经网络运用到医疗电子病历文本语义理解并进行辅助医疗诊断,在有大量电子病历数据的前提下效果较好,但对于没有大量电子病历的稀有疾病效果不佳。
[0004] 而且,现有技术中的许多诊断模型是基于规则提取和匹配实现的,这类模型基于临床数据库的大量病例整理出大量的IF-THEN形式的规则,或由专家医师总结临床经验整理规则,然后根据患者信息进行规则匹配进行诊断。在这类模型中,整理专家规则需要耗费大量人工成本,专家规则知识库维护成本高、可扩展性差,并且规则中易出现语义歧义问题,从而导致诊断效果不佳。
[0005] 尽管针对医学病例数据较少的情况,许多专家学者采用不同的采样技术进行弥补,例如,从多数类疾病病例样本中进行欠采样,使多数类与少数类达到平衡,但是这种方法并没有改变少数类病例数据少的问题,仍会影响疾病诊断的效果。
[0006] 综上所述,诊断模型的实现都建立在拥有大量医学图像数据或者大量病历文本数据的基础上,而对于稀有疾病来说,其发病率较低、临床案例较少,难以获取大量的医学图像数据或文本病历数据,无法通过现有的方法建立有效的诊断模型,因此,需要对现有技术进行改进以提供针对稀有疾病的医疗分析模型,并进而提供有效的医疗分析辅助系统。

发明内容

[0007] 本发明的目的在于克服上述现有技术的缺陷,提供一种基于卷积神经网络的医疗分析系统。
[0008] 根据本发明的第一方面,提供了一种构建医疗分析模型的方法。该方法包括以下步骤:
[0009] 步骤1:根据医学书籍记载的疾病种类和医学特征之间的关联性,构建由多组样本数据组成的训练样本集,其中每组样本数据包括一种疾病种类和对应的医学特征;
[0010] 步骤2:基于所述训练样本集,以医学特征作为输入,以疾病种类作为输出,通过训练卷积神经网络获得用于预测疾病信息的医疗分析模型。
[0011] 在一个实施例中,在步骤1,对于所述医学书籍包含的多种疾病中的一种疾病,执行以下步骤:
[0012] 步骤11:从所述医学书籍中抽取关于该种疾病的多个方面的文字描述;
[0013] 步骤12:通过分词方法将该种疾病的多个方面的文字描述转换为医学特征表示;
[0014] 步骤13:根据所转换的医学特征表示和该种疾病的对应关系构成一组样本数据。
[0015] 在一个实施例中,步骤13还包括以下子步骤:
[0016] 步骤131:从该种疾病对应的医学特征中随机抽取预定比例的组合作为该种疾病对应的医学特征;
[0017] 步骤132:将步骤131重复执行多次以获得该种疾病对应的多种医学特征组合。
[0018] 在一个实施例中,所述多个方面包括病因、发病机制、临床表现、影像学表现、实验室检查、诊断、鉴别诊断、预防以及治疗中的至少两项。
[0019] 在一个实施例中,步骤2中包括:
[0020] 步骤21:将所述训练样本集中的医学特征转换为向量表示;
[0021] 步骤22:将所述训练样本集中的医学特征的向量表示组合为医学特征向量矩阵;
[0022] 步骤23:以所述医学特征向量矩阵为输入,以对应的疾病种类为输出训练所述卷积神经网络。
[0023] 在一个实施例中,在步骤21中,利用连续词袋模型将医学特征转换为向量表示。
[0024] 根据本发明的第二方面,提供了一种医疗分析辅助系统。该系统包括:
[0025] 医学特征提取单元,用于获取描述待诊断样本的医学特征;
[0026] 辅助分析单元:用于将所述医学特征输入到根据本发明获得的医疗分析模型,以获得预测的疾病种类信息。
[0027] 在一个实施例中,所述辅助分析单元还用于基于所述预测的疾病种类信息输出用于临床指示的医疗信息。
[0028] 与现有技术相比,本发明的优点在于:使用医学书籍文本数据训练医疗分析模型,能够有效地解决稀有疾病病例数据较少,无法训练出高效模型的问题;通过将卷积神经网络运用到医疗书籍文本语义理解并进行辅助医疗分析,能有效克服基于大量医学影像数据和病历文本数据进行处理再使用规则模型进行疾病诊断可能出现的语义歧义、信息阐述不全等问题。附图说明
[0029] 以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的范围,其中:
[0030] 图1示出了根据本发明一个实施例的构建医疗分析模型方法的流程图
[0031] 图2示出了根据本发明一个实施例的医疗分析辅助系统的示意图。

具体实施方式

[0032] 为了使本发明的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0033] 根据本发明的一个实施例,提供了一种构建医疗分析模型的方法,该方法通过分析医学书籍中的疾病种类和医学特征之间的关联性来构建训练样本集,利用卷积神经网络进行训练,从而获得用于进行医疗分析的模型。具体地,参见图1所示,该方法包括以下步骤:
[0034] 第一步、从医学书籍中提取多种疾病的医学特征
[0035] 医学书籍对疾病的病因、病历、各项表现以及治疗方案均有详细介绍,对疾病的阐述完整并且准确,对于普通人群中发病率较低的稀有疾病也有详细描述。本文所述的医学书籍是指描述疾病和相关医疗信息的专业性书籍,既包括纸质版本、也包括各种电子版本。
[0036] 在本发明的实施例中,从医学书籍中提取多种疾病特别是稀有疾病的医学特征来构成训练样本集,但由于医学专业书籍内容繁多、排版复杂,在使用其中的医学知识之前需要将相关疾病知识使用自然语言处理技术进行整理获得规则化的医学疾病知识。
[0037] 具体地,首先,对原始医学专业书籍文本进行格式处理,例如,将PDF版本医学专业书籍转换成Word版本,统一文本篇章结构和格式,并且修改因格式转换产生的错误等。
[0038] 然后,使用自然语言处理技术包括正则匹配技术等,对每种稀有疾病的知识进行分抽取并保存。例如,在一个实施例中,使用以下数据结构进行整理并保存:{“病因”:…,“发病机制”:…,“临床表现”:…,“影像学表现”:…,“实验室检查”:…,“诊断”:…,“鉴别诊断”:…,“预防”:…,“治疗”:…}。尽管该数据结构中列出了九个方面的内容,根据疾病的具体情况和专业书籍中所列举的内容,本领域的技术人员也可减少或增加所保存的内容。
[0039] 接下来,从医学专业书籍介绍的疾病抽取所需要的疾病组成疾病集合。在本发明的一个实施例中,使用医学专业书籍中的疾病种类不重复地组合为疾病集合,疾病集合用D表示,D={D1,D2,...,Dm},m表示疾病种类的数目,其中,疾病Di={F1,F2,F3,F4,F5,F6,F7,F8,F9},i为疾病种类的编号,F1、F2、F3、F4、F5、F6、F7、F8、F9分别表示“病因”、“发病机制”、“临床表现”、“影像学表现”、“实验室检查”、“诊断”、“鉴别诊断”、“预防”以及“治疗”共九个方面的内容(或称九部分内容)。
[0040] 最后,对每个方面的内容进行特征提取。疾病的每个方面的内容都是对疾病的文字描述,可使用分词技术将文字描述转化为特征表示。例如,临床特征为“咽部发痒,常伴有咳嗽,当吞咽疼痛时,常提示有链球菌感染”,可提取特征“咽部发痒”、“咳嗽”、“吞咽疼痛”、“链球菌感染”等四个特征。每个方面内容的所有特征的不重复组合(即无先后顺序)可以表示该部分内容,提取的任意特征用Si表示,疾病的第i个方面的特征可以表示为Fi={S1,S2,...,Sp}。
[0041] 在此步骤中,通过处理医学专业书籍可以获得规则化的关于多个种类的疾病知识的医学特征表示。
[0042] 第二步、根据提取的医学特征构建训练样本集。
[0043] 在此步骤中,利用所提取的多种疾病的医学特征构建训练样本集,其中训练样本集中包含多组样本数据,每组样本数据包括一种疾病种类和对应的医学特征。
[0044] 在一个实施例中,构建训练样本集的具体步骤包括:
[0045] 首先,在每种疾病都有九个方面的内容的情况下,从某种疾病三个部分“临床表现”、“影像学表现”、“实验室检查”的医学特征中随机抽取60%(即如果某部分有100个特征,随机抽取其中60个特征),将该三个部分的60%的特征组合成为该疾病对应的一个训练样本。在另外的实施例中,也可以从“病因”、“发病机制”、“临床表现”、“影像学表现”、“实验室检查、“诊断”、“鉴别诊断”、“预防”、“治疗”等中选择多个部分的一定比例特征来组合训练样本。
[0046] 然后,对上述特征抽取组合步骤重复1000次,可以生成该疾病对应的1000个训练样本。
[0047] 通过对每个疾病都进行上述操作,可获得每个疾病的1000个训练样本,从而构成训练样本集。通过这种随机提取特征并构成多种组合的方式对于同一种类的疾病可构建多个样本数据,从而提高训练的精确度。
[0048] 一般性地,对于训练样本集中的医学特征部分用xi表示,对应的疾病种类标签用yi表示,则训练样本可以形式化表达为:
[0049]
[0050]
[0051] 其中,S表示医学特征集合,j为医学特征编号,医学特征的总数为J, 表示第i个训练样本中的第j个医学特征,D为疾病种类集合, 表示第i个训练样本中对应的疾病种类编号为k。因此,任意一个训练样本可表示为(xi,yi)。
[0052] 需要说明的是,训练样本集包含的医学特征数量、每种疾病对应的样本数以及整个训练样本集中包含的样本数等都可以根据样本内容的丰富程度、对训练速度和训练精度的要求作适当的改变。
[0053] 第三步、通过训练卷积神经网络获得医疗分析模型。
[0054] 在此步骤中,以训练样本集中的医学特征为输入,以对应的疾病种类为输出,通过训练深度学习模型获得医疗分析模型。
[0055] 例如,深度学习模型可采用卷积神经网络,卷积神经网络的最后一层采用softmax函数进行分类,在训练过程中,通过迭代更新使模型的损失函数最小,从而获得卷积神经网络各层的优化权值和偏置,以及softmax函数的优化系数,由这些优化值所限定的深度学习模型即为获得的医疗分析模型。
[0056] 在一个实施例中,在获得训练样本集之后,使用CBOW(Continuous Bag-Of-Words,连续词袋模型)对每个样本进行向量表示初始化,使每个医学特征都由向量表示,然后,将医学特征的向量表示拼接成训练样本的特征向量矩阵,将训练样本集的每个特征向量矩阵输入至卷积神经网络模型进行训练,即可获得医疗分析模型。
[0057] 在本发明中,利用大量训练样本对神经网络进行训练,能够对输入的来自于医疗书籍中的医学特征进行正确的文本语义理解,能够克服现有技术中利用临床数据库整理专家规则易出现的语义歧义问题并充分利用了医疗书籍对医疗信息特别是稀有病例阐述较全的优势。
[0058] 本发明获得的医疗分析模型可以应用于医疗分析设备或医疗分析系统中,用于提供临床指示信息。图2示出了基于本发明的医疗分析模型的医疗分析辅助系统的示意图,在该实施例中,系统200包括医学特征提取单元210、向量转换单元220、辅助分析单元230,其中,医学特征提取单元210用于接收或解析输入的待诊断数据,获得符合本发明的医疗分析模型所要求的医学特征,并发送至向量转换单元220;向量转换单元220用于将接收到的医学特征转换为向量表示并发送给辅助分析单元230;辅助分析单元230用于利用已经训练好的医疗分析模型获得与医学特征对应的预测的疾病种类。
[0059] 在另一个实施例中,该系统还可预先存储每种疾病种类相关的推荐医疗信息,例如,注意事项和建议的治疗方案等,在获得预测的疾病种类之后,进一步输出这些临床指示信息。
[0060] 图2所示的医疗分析系统可以应用在多种类型的电子设备上,例如、计算所、平板电脑等,其中,向量转换单元220可以基于CBOW模型或其他的词-向量转换模型实现。此外,医疗分析模型可在线或离线获得,例如,将在其他计算机或计算计集群训练好的模型嵌入到辅助分析单元230以对待诊断数据进行医疗信息预测。
[0061] 需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
[0062] 本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
[0063] 计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
[0064] 以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈