首页 / 专利库 / 电脑编程 / 算法 / 期望最大化算法 / 一种尘肺病筛查系统及其数据训练方法

一种尘病筛查系统及其数据训练方法

阅读:1016发布:2020-05-25

专利汇可以提供一种尘病筛查系统及其数据训练方法专利检索,专利查询,专利分析的服务。并且本 发明 实施例 涉及一种尘 肺 病筛查系统及其数据训练方法,其中,所述系统包括报告模型,所述报告模型包括深度卷积模型、过渡层、循环神经网络、基于注意 力 的文本嵌入函数、显著性加权全局平均池函数以及全连接层。本 申请 提供的技术方案,能够自动对胸片进行识别,从而提高识别效率和 精度 。,下面是一种尘病筛查系统及其数据训练方法专利的具体信息内容。

1.一种尘病筛查系统,其特征在于,所述系统包括报告模型,所述报告模型包括深度卷积模型、过渡层、循环神经网络、基于注意的文本嵌入函数、显著性加权全局平均池函数以及全连接层,其中:
所述深度卷积模型用于接收输入的影像数据,并将所述影像数据的处理结果发送至所述过渡层;
所述过渡层用于提取所述影像数据的处理结果中的特征信息;
所述循环神经网络用于接收所述过渡层发送来的所述特征信息和影像报告中的文字,并对所述特征信息和所述文字进行处理;
所述基于注意力的文本嵌入函数用于接收所述循环神经网络的处理结果,并根据所述循环神经网络的处理结果生成筛查报告;
所述显著性加权全局平均池函数用于对所述过渡层的输出结果进行处理;
所述全连接层用于接收所述基于注意力的文本嵌入函数和所述显著性加权全局平均池函数各自的输出结果,并根据所述各自的输出结果生成诊断结论。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括定位,所述定位模块中包括知识保留模块和注意力挖掘模块,所述知识保留模块中包括多尺寸聚合模块,其中:
所述多尺寸聚合模块使用ResNext-50作为基础模型骨架,并加入MSA多尺寸聚合部分,以提高所述定位模型在小尺寸病灶的表现;
所述知识保留模块用于防止训练数据的过拟合,在训练过程中,提供给所述知识保留模块中的多尺寸聚合模块的训练数据为全部训练数据中的一部分;
所述定位模块用于接收胸片数据,并将所述胸片数据传输给所述知识保留模块,所述知识保留模块输出的特征图进入所述注意力挖掘模块,以通过模型优化损失函数生成病灶点定位图。
3.一种应用于如权利要求1或2所述的尘肺病筛查系统中的数据训练方法,其特征在于,所述方法包括:
收集预设数量的胸片,所述预设数量的胸片中包括合格的胸片和不合格的胸片;
将所述预设数量的胸片输入所述尘肺病筛查系统进行训练,以使得所述尘肺病筛查系统作为数据过滤器,对后续输入的胸片进行过滤;
对经过所述尘肺病筛查系统过滤后的合格胸片进行多次数据标注,以使得所述合格胸片具备真实标签和多个标注者的判断标签;
基于所述真实标签和所述多个标注者的判断标签,通过期望最大化算法得到所述合格胸片对应的标注结果,所述标注结果中包括图像难度和标注者准确度;
利用具备标注结果的合格胸片对所述尘肺病筛查系统进行训练。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述预设数量的胸片进行直方图均衡处理,并且按照系统输入要求,调整所述预设数量的胸片的图像尺寸。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
预先对所述尘肺病筛查系统进行迁移学习,以对所述尘肺病筛查系统的特征进行初始化;其中,迁移学习的数据集包括:ImageNet或者Chest X-ray 14。
6.根据权利要求5所述的方法,其特征在于,所述尘肺病筛查系统先通过ImageNet数据集的训练,获得符合预期的结果后,再在Chest X-ray 14数据集上进行训练,以获得良好的医疗胸片特征。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
预先对输入所述尘肺病筛查系统的数据进行数据增强处理,并将数据增强处理后的数据及其标签输入迁移学习后的尘肺病筛查系统进行训练;其中,训练时,使用Adam优化算法对所述尘肺病筛查系统的收敛进行优化。

说明书全文

一种尘病筛查系统及其数据训练方法

技术领域

[0001] 本申请涉及数据处理技术领域,特别涉及一种尘肺病筛查系统及其数据训练方法。

背景技术

[0002] 尘肺病检筛查目前主要的途径就是通过医生对照标准尘肺病诊断胸片来对病人的胸片进行阅片、分级、诊断,不过医生每天工作量最多不会超过200张胸片;长时间的阅片会导致医生疲劳,准确度下降;而且,很多基层医生平不高,没有诊断尘肺病资质,容易出现漏诊、误诊的情况。发明内容
[0003] 本申请的目的在于提供一种尘肺病筛查系统及其数据训练方法,能够自动对胸片进行识别,从而提高识别效率和精度
[0004] 为实现上述目的,本申请提供一种尘肺病筛查系统,所述系统包括报告模型,所述报告模型包括深度卷积模型、过渡层、循环神经网络、基于注意的文本嵌入函数、显著性加权全局平均池函数以及全连接层,其中:
[0005] 所述深度卷积模型用于接收输入的影像数据,并将所述影像数据的处理结果发送至所述过渡层;
[0006] 所述过渡层用于提取所述影像数据的处理结果中的特征信息;
[0007] 所述循环神经网络用于接收所述过渡层发送来的所述特征信息和影像报告中的文字,并对所述特征信息和所述文字进行处理;
[0008] 所述基于注意力的文本嵌入函数用于接收所述循环神经网络的处理结果,并根据所述处理结果生成筛查报告;
[0009] 所述显著性加权全局平均池函数用于对所述过渡层的输出结果进行处理;
[0010] 所述全连接层用于接收所述基于注意力的文本嵌入函数和所述显著性加权全局平均池函数各自的输出结果,并根据所述各自的输出结果生成诊断结论。
[0011] 进一步地,所述系统还包括定位,所述定位模块中包括知识保留模块和注意力挖掘模块,所述知识保留模块中包括多尺寸聚合模块,其中:
[0012] 所述多尺寸聚合模块使用ResNext-50(残差模型)作为基础模型骨架,并加入MSA(Multi-Sized Aggregation)多尺寸聚合部分,以提高所述定位模型在小尺寸病灶的表现;
[0013] 所述知识保留模块用于防止训练数据的过拟合,在训练过程中,提供给所述知识保留模块中的多尺寸聚合模块的训练数据为全部训练数据中的一部分;
[0014] 所述定位模块用于接收胸片数据,并将所述胸片数据传输给所述知识保留模块,所述知识保留模块输出的特征图进入所述注意力挖掘模块,以通过模型优化损失函数生成病灶点定位图。
[0015] 为实现上述目的,本申请还提供一种数据训练方法,所述方法包括:
[0016] 收集预设数量的胸片,所述预设数量的胸片中包括合格的胸片和不合格的胸片;
[0017] 将所述预设数量的胸片输入所述尘肺病筛查系统进行训练,以使得所述尘肺病筛查系统作为数据过滤器,对后续输入的胸片进行过滤;
[0018] 对经过所述尘肺病筛查系统过滤后的合格胸片进行多次数据标注,以使得所述合格胸片具备真实标签和多个标注者的判断标签;
[0019] 基于所述真实标签和所述多个标注者的判断标签,通过期望最大化算法得到所述合格胸片对应的标注结果,所述标准结果中包括图像难度和标注者准确度;
[0020] 利用具备标注结果的合格胸片对所述尘肺病筛查系统进行训练。
[0021] 进一步地,所述方法还包括:
[0022] 对所述预设数量的胸片进行直方图均衡处理,并且按照系统输入要求,调整所述预设数量的胸片的图像尺寸。
[0023] 进一步地,所述方法还包括:
[0024] 预先对所述尘肺病筛查系统进行迁移学习,以对所述尘肺病筛查系统的特征进行初始化;其中,迁移学习的数据集包括:ImageNet(图片网络)或者Chest X-ray(X射线胸片库)14。
[0025] 进一步地,所述尘肺病筛查系统先通过ImageNet数据集的训练,获得符合预期的结果后,再在Chest X-ray 14数据集上进行训练,以获得良好的医疗胸片特征。
[0026] 进一步地,所述方法还包括:
[0027] 预先对输入所述尘肺病筛查系统的数据进行数据增强处理,并将数据增强处理后的数据及其标签输入迁移学习后的尘肺病筛查系统进行训练;其中,训练时,使用Adam优化算法对所述尘肺病筛查系统的收敛进行优化。
[0028] 由上可见,本申请通过将深度卷积神经网络应用于尘肺病的筛查领域,拥有业内领先的准确度,并得到了认可。通过智能筛查模型,可以减轻医生的工作压力,提升筛查的效率与质量附图说明
[0029] 图1为本申请实施例中尘肺病筛查系统的结构示意图;
[0030] 图2为本申请实施例中数据训练方法的流程图

具体实施方式

[0031] 为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
[0032] 请参阅图1,本申请提供一种尘肺病筛查系统,所述系统包括报告模型,所述报告模型包括深度卷积模型、过渡层、循环神经网络、基于注意力的文本嵌入函数、显著性加权全局平均池函数以及全连接层,其中:
[0033] 所述深度卷积模型用于接收输入的影像数据,并将所述影像数据的处理结果发送至所述过渡层;
[0034] 所述过渡层用于提取所述影像数据的处理结果中的特征信息;
[0035] 所述循环神经网络用于接收所述过渡层发送来的所述特征信息和影像报告中的文字,并对所述特征信息和所述文字进行处理;
[0036] 所述基于注意力的文本嵌入函数用于接收所述循环神经网络的处理结果,并根据所述处理结果生成筛查报告;
[0037] 所述显著性加权全局平均池函数用于对所述过渡层的输出结果进行处理;
[0038] 所述全连接层用于接收所述基于注意力的文本嵌入函数和所述显著性加权全局平均池函数各自的输出结果,并根据所述各自的输出结果生成诊断结论。
[0039] 在一个实施方式中,所述系统还包括定位模块,所述定位模块中包括知识保留模块和注意力挖掘模块,所述知识保留模块中包括多尺寸聚合模块,其中:
[0040] 所述多尺寸聚合模块使用ResNext-50作为基础模型骨架,并加入MSA多尺寸聚合部分,以提高所述定位模型在小尺寸病灶的表现;
[0041] 所述知识保留模块用于防止训练数据的过拟合,在训练过程中,提供给所述知识保留模块中的多尺寸聚合模块的训练数据为全部训练数据中的一部分;
[0042] 所述定位模块用于接收胸片数据,并将所述胸片数据传输给所述知识保留模块,所述知识保留模块输出的特征图进入所述注意力挖掘模块,以通过模型优化损失函数生成病灶点定位图。
[0043] 请参阅图2,本申请还提供一种应用于上述尘肺病筛查系统中的数据训练方法,所述方法包括:
[0044] S1:收集预设数量的胸片,所述预设数量的胸片中包括合格的胸片和不合格的胸片;
[0045] S2:将所述预设数量的胸片输入所述尘肺病筛查系统进行训练,以使得所述尘肺病筛查系统作为数据过滤器,对后续输入的胸片进行过滤;
[0046] S3:对经过所述尘肺病筛查系统过滤后的合格胸片进行多次数据标注,以使得所述合格胸片具备真实标签和多个标注者的判断标签;
[0047] S4:基于所述真实标签和所述多个标注者的判断标签,通过期望最大化算法得到所述合格胸片对应的标注结果,所述标准结果中包括图像难度和标注者准确度;
[0048] S5:利用具备标注结果的合格胸片对所述尘肺病筛查系统进行训练。
[0049] 在一个实施方式中,所述方法还包括:
[0050] 对所述预设数量的胸片进行直方图均衡处理,并且按照系统输入要求,调整所述预设数量的胸片的图像尺寸。
[0051] 在一个实施方式中,所述方法还包括:
[0052] 预先对所述尘肺病筛查系统进行迁移学习,以对所述尘肺病筛查系统的特征进行初始化;其中,迁移学习的数据集包括:ImageNet或者Chest X-ray 14。
[0053] 在一个实施方式中,所述尘肺病筛查系统先通过ImageNet数据集的训练,获得符合预期的结果后,再在Chest X-ray 14数据集上进行训练,以获得良好的医疗胸片特征。
[0054] 在一个实施方式中,所述方法还包括:
[0055] 预先对输入所述尘肺病筛查系统的数据进行数据增强处理,并将数据增强处理后的数据及其标签输入迁移学习后的尘肺病筛查系统进行训练;其中,训练时,使用Adam优化算法对所述尘肺病筛查系统的收敛进行优化。
[0056] 具体地,在实际应用中,本申请的技术方案可以按照以下方式实施:
[0057] 1.TMNet模型
[0058] 1.1TMNet-report报告模型
[0059] 模型功能说明:
[0060] 模型输入元素为胸片影像与影像报告,模型输出根据影像报告描述所得的结论,包含:无尘肺、尘肺一期、尘肺二期、尘肺三期,同时,输出根据影像与报告学习而得的影像报告。该模型应用于两个场景:1.从影响报告中获取对应影像的结论,作为训练数据,供筛查模型学习;2.对于实际应用中,生成的胸片影像,模型提供筛查结论(无尘肺、尘肺一期、尘肺二期、尘肺三期)和影像筛查报告(参考现实影像科医生出具的影像报告格式与内容),影像科医生可以根据生成的影像报告书写影像报告,提高准确度与效率,诊断医生根据影像报告与筛查结论做出诊断,提高准确度与效率。
[0061] 模型结构说明:
[0062] 请参阅图1,从左至右依次为:
[0063] 输入影像;
[0064] ResNext-50深度卷积模型;
[0065] 过渡层Transition Layer;
[0066] RNN(Recurrent Neural Network,循环神经网络),输入为影像报告中的文字与过渡层的特征,其中RNN的单元为LSTM(Long Short-Term Memory,长短期记忆网络);
[0067] RNN网络的输出进入AETE(Attention-encoded Text Embedding,基于注意力的文本嵌入)函数,同时生成筛查报告;
[0068] 过渡层输出进入SWGAP(Saliency Weighted Global Average Pooling,显著性加权全局平均池)函数;
[0069] AETE和SWGAP输出合并进入全连接层,而后做诊断结论判断。
[0070] 1.2TMNet-localization定位模型
[0071] 1.2.1多尺寸聚合(Multi-Sized Aggregation,MSA)模块
[0072] 我们使用ResNext-50作为基础模型骨架,后面加入MSA多尺寸聚合部分,从而构成ResNet-MSA的模块,以提高模型在小尺寸病灶的表现。
[0073] 1.2.2知识保留模块(Knowledge keeP,KP)
[0074] 为了避免模型在训练集上过拟合,我们使用只是知识结构来训练模型。在训练时,ResNet-MSA模块中的参数会被更新,提供给ResNet-MSA模块的训练数据是全部训练数据的一部分,防止过拟合。
[0075] 1.2.3注意力挖掘
[0076] 注意力挖掘模型结构为最终的病灶定位模型,数据流程为:输入胸片-知识保留模块-知识保留模块输出的特征图-特征图进入注意力挖掘机制-最终的模型优化损失函数Lcls-注意力挖掘机制会生成病灶点定位图。
[0077] 2.获取训练数据
[0078] 2.1数据过滤
[0079] 收集的医疗胸片数据质量参差不齐。胸片数据质量分为四个等级:一级,二级,三级,废片。用于尘肺诊断的胸片需要满足一级或二级,所以我们需要对待标注数据进行质量过滤,以防质量差的数据影像模型准确率。
[0080] 首先,收集足够量的合格片(一级与二级),与不合格的胸片(三级与废片)。
[0081] 将数据喂给TMNet训练,在准确率与模型整体表现符合要求后,将模型作为数据过滤器。
[0082] 每一例入库数据需要经过过滤器过滤后,才会被保存下来,以供标注使用。
[0083] 2.2数据标注平台
[0084] 2.2.1获取登录凭证
[0085] 当标注者第一次使用标注平台时,管理员会通过线下渠道发送标注者所属的用户名和与本次标注任务相关的任务码。
[0086] 2.2.2TMNet-report生成数据标注
[0087] 我们使用TMNet-report模型对原始胸片与其对应的影像报告进行学习,生成胸片的对应标注结果(无尘肺,尘肺一期,尘肺二期,尘肺三期)。
[0088] 2.2.3人工标注
[0089] 专家通过使用在线的人工标注平台,对没有对应影像报告的胸片进行人工标注。
[0090] 2.2.4生成数据标签
[0091] 每一例合格的影像数据会被多个专家标注,而确定数据的最终诊断结果标签(无尘肺、尘肺一期、尘肺二期、尘肺三期)需要经过期望最大化Expectation-Maximization确定。
[0092] 具体地,每一个数据x都有一个真实的标签Zx,每一个标注者y提供了他的判断Lyx,通过期望做大化算法,我们获得了每一个数据x的真实标记Zx,图像难度βx,标注者准确度αx。
[0093] 这样,我们就获取了每一例数据的标注结果,以供模型学习。
[0094] 3.训练数据处理
[0095] 在数据进入模型训练流程前,会经过一系列的图像处理过程,顺序如下:
[0096] 直方图均衡;
[0097] 按照模型输入要求,调整图像尺寸。
[0098] 4.模型训练
[0099] 4.1迁移学习
[0100] 在使用尘肺病数据训练之前,模型先经过迁移学习,对模型的特征进行初始化。迁移学习的数据集为:ImageNet,Chest X-ray 14。TMNet先通过ImageNet数据集的训练,获得比较好的结果后,再在Chest X-ray14数据集上进行训练,从而获得良好的医疗胸片特征。
[0101] 4.2TMNet训练
[0102] 数据在进入模型前,会经过数据增强Data Augmentation过程:
[0103] 仿射变换:水平翻转;旋转;缩放;平移。
[0104] 将增强后的数据与其标签喂给迁移学习后的TMNet进行训练。训练时,使用Adam优化算法对模型收敛进行优化。经过一定的训练周期后,模型的性能AUC、准确率达到最优后,得到尘肺病的筛查模型。
[0105] 4.3模型训练流程
[0106] 1)训练TMNet-report模型,目的:a.用于生成原始数据的标注结果;b.用于筛查报告的生成
[0107] 2)训练TMNet-localization
[0108] a)通过迁移学习训练加入了多尺寸聚合模块的ResNext-MSA
[0109] b)将a)训练完毕的ResNext-MSA放入结合知识保留模块与注意力挖掘的模型结构中继续训练,获得可以生成病灶图与筛查结果的模型。病灶图生成于注意力挖掘机制,而后通过病灶的位置与严重程度,模型生成最终的筛查结果(无尘肺、尘肺一期、尘肺二期、尘肺三期)。
[0110] 由上可见,本申请提供的模型,具备以下优势:
[0111] 首创报告模型,通过医院现有的数据与影像报告自动获取数据标签。
[0112] 首创筛查影像报告生成模型,为医生书写影像报告提供参考,提升效率与准确度。
[0113] 在ResNext模型后加入MSA模块,提升了模型准确度5%。
[0114] 使用注意力挖掘机制,使得模型可以生成病灶点定位。
[0115] 在注意力挖掘机制中加入知识保留模块,使得模型的准确度提升5%。
[0116] 上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈