热词 | patch wsi 图像 swin 注意力 尺度 学习 嵌入 网络 注意 | ||
专利类型 | 发明公开 | 法律事件 | 实质审查; 授权; |
专利有效性 | 有效专利 | 当前状态 | 授权 |
申请号 | CN202411015603.9 | 申请日 | 2024-07-26 |
公开(公告)号 | CN118840749A | 公开(公告)日 | 2024-10-25 |
申请人 | 山东工商学院; 烟台毓璜顶医院; | 申请人类型 | 学校 |
发明人 | 毛宁; 王钦; 赵峰; 张海程; 王琪; 杨平; 初同朋; 林凡; 高婧; 郑甜甜; 李子胤; | 第一发明人 | 毛宁 |
权利人 | 山东工商学院,烟台毓璜顶医院 | 权利人类型 | 学校 |
当前权利人 | 山东工商学院,烟台毓璜顶医院 | 当前权利人类型 | 学校 |
省份 | 当前专利权人所在省份:山东省 | 城市 | 当前专利权人所在城市:山东省烟台市 |
具体地址 | 当前专利权人所在详细地址:山东省烟台市莱山区滨海中路191号; | 邮编 | 当前专利权人邮编:264003 |
主IPC国际分类 | G06V20/69 | 所有IPC国际分类 | G06V20/69 ; G06V10/44 ; G06V10/52 ; G06V10/764 ; G06V10/70 ; G06V10/80 ; G06V10/82 ; G06N3/042 ; G06N3/0442 ; G06N3/0455 ; G06N3/0464 ; G06N3/0895 |
专利引用数量 | 0 | 专利被引用数量 | 0 |
专利权利要求数量 | 10 | 专利文献类型 | A |
专利代理机构 | 淄博市众朗知识产权代理事务所 | 专利代理人 | 郑祥伟; |
摘要 | 本 发明 属于图像 数据处理 技术领域,具体涉及一种基于 深度学习 的WSI图像分类系统,包括图像收集及预处理模 块 ,用于获取WSI图像并进行预处理;初步特征提取模块,用于得到不同尺度WSI图像的初步提取特征;多尺度特征融合模块,对提取的初步提取特征进行多尺度特征融合;高斯上下文Transformer注意 力 门 控,基于融合后的特征,获取每个通道对应特征的重要程度并赋予权重值,并对多尺度特征进行 降维 ;二分支注意力分类模块,对处理后的特征进行学习、训练和预测,将patch级别的特征总结为WSI图像级别的表示,用于进行最终的诊断预测。本发明实现了多尺度WSI图像的快速分类,提升了WSI图像分类的效率和 精度 。 | ||
权利要求 | 1.一种基于深度学习的WSI图像分类系统,其特征在于包括以下模块: |
||
说明书全文 | 一种基于深度学习的WSI图像分类系统技术领域背景技术[0002] 深度学习(DL)是机器学习的一个子领域,是基于人工神经网络的学习算法,深度学习模型通过模拟人脑处理信息的方式,使用多层(深层)的神经网络结构来学习数据的复杂模式和特征,可以自动从图像中提取难以察觉的隐藏特征,在图像分类方面有广泛应用。 [0003] 近年来,Transformer和图卷积在医学图像分类中展现出卓越性能。Transformer是一种基于自注意力机制的神经网络架构,通过并行处理输入序列的所有元素,能够捕捉长距离依赖关系,并在机器翻译、文本摘要等任务中表现出色。图卷积网络(GCN)是一种用于图结构数据的深度学习模型,通过在图的节点上应用卷积操作来学习节点的嵌入表示,能够有效地捕捉节点之间的拓扑结构和局部连接模式。 [0004] 此外,注意力机制已经被证明可以使深度学习网络在学习过程中更加关注到对分类有用信息并且忽略无用的信息,有效提高模型的分类性能。不同尺度的信息会提供不同的图像特征信息,高尺度的图像会反映全局特征,而低尺度的更突出细节信息。基于多尺度图像的网络往往比单一尺度的网络学习到更多的特征,能实现特征之间的相互补充。 [0005] 现有的WSI图像分类系统没有考虑到不同尺度图像包含的不同粒度下的特征,具体来说,高尺度的WSI即细粒度图像能反映细节的细胞特征,而低尺度的WSI即粗粒度图像能反映宏观肿瘤微环境特征。此外,先前的研究仅考虑到上下文特征或细胞间的交互得到的图特征,没有将二者结合考虑。再者,只通过Transformer或者GCN网络来进行分类,没有将两者同时进行结合使用。 发明内容[0006] 根据以上现有技术中的不足,本发明提供了一种基于深度学习的WSI图像分类系统,基于深度学习方法,实现了基于Transformer和图卷积的多尺度WSI图像的快速分类,提升了WSI图像分类的效率和精度。 [0007] 为达到以上目的,本发明提供了一种基于深度学习的WSI图像分类系统,包括以下步骤:图像收集及预处理模块,用于获取WSI图像并进行预处理,得到预处理后的样本图像,预处理过程包括灰度化、去噪、二值化、裁剪以及分割; 初步特征提取模块,用于将预处理后的样本图像分别输入到Swin‑Transformer网络和图卷积网络GCN中进行初步特征提取,得到不同尺度WSI图像的初步提取特征; 多尺度特征融合模块,对Swin‑Transformer网络和图卷积网络GCN中提取的初步提取特征进行多尺度特征融合; 高斯上下文Transformer注意力门控,基于融合后的特征,获取每个通道对应特征的重要程度并赋予权重值,以提升对当前任务有用的通道,并对多尺度特征进行降维; 二分支注意力分类模块,对经过高斯上下文Transformer注意力门控处理后的特征进行学习、训练和预测,将patch级别的特征总结为WSI图像级别的表示,用于进行最终的诊断预测。 [0009] 所述的图像收集及预处理模块包括图像灰度化单元、中值滤波器、二值化单元、裁剪单元和分割单元,用于实现预处理过程的灰度化、去噪、二值化、裁剪以及分割,具体为:图像灰度化单元,对获取的WSI图像使用图像处理包Opencv的cvtColor函数,将三通道的RGB图像转换为单通道的HSV的灰度图像; 中值滤波器,去除WSI图像中的噪声,并增强其中的肿瘤组织区域,得到中值滤波图像:选取长度大于1个点数的奇数的窗口在WSI图像上扫描,将窗口中所含的像素点按灰度级的升序或降序排列,取位于中间的灰度值来代替该窗口选中区域中的像素点的灰度值,从而消除孤立的噪声点; 二值化单元,对去噪后的WSI图像进行二值化处理,得到二值化图像:使用Opencv包的threshold函数确定一个阈值,将WSI图像的像素值划分为两组并使这两组像素值的类间方差最大,然后将大于该阈值的像素点的值设为255,小于该阈值的像素点的值设为0,从而将WSI图像二值化,使肿瘤组织区域和背景区域分离,得到原始WSI图像对应的二值化WSI图像; 裁剪单元,用于从二值化WSI图像中裁剪出肿瘤组织区域:使用Opencv包的findContours函数将二值化WSI图像建立两个等级的轮廓,外层的轮廓为外边界,内层的轮廓为内孔的边界信息,并通过_filter_contours函数过滤轮廓,得到肿瘤组织区域的轮廓; 分割单元,用于将裁剪出肿瘤组织区域的WSI图像按照512像素的长宽和512像素的坐标间隔划分成512×512像素大小的patch。 [0010] 所述的初步特征提取模块中,Swin‑Transformer网络包括图像拆分模块、线性嵌入层、Swin‑Transformer模块和patch合并层,并且Swin‑Transformer网络包含四个阶段,其中,阶段1包含2个线性嵌入层和2个Swin‑Transformer模块,阶段2包含2个patch合并层和2个Swin‑Transformer模块,阶段3包含6个patch合并层和6个Swin‑Transformer模块,阶段4包含2个patch合并层和2个Swin‑Transformer模块,图像拆分模块位于阶段1之前。 [0011] 所述的Swin‑Transformer网络中:2 图像拆分模块,将输入的512×512×3的样本图像拆分为非重叠等尺寸的M×(P×3)的子patch,得到 维度的特征,M为Transformer的有效输入序 列长度,P代表像素; 线性嵌入层,将 维度的特征特征投射到任意维度C,得到 维度的特征; Swin‑Transformer模块,用于提取patch的特征,包括归一化层、MLP层和基于窗口的自注意力模块: 归一化层,用于对输入的特征进行归一化,得到归一化的特征数据; MLP层,即为多层感知机,用于特征的表示学习,包含输入层,隐藏层,输出层; 基于窗口的自注意力模块,将输入的特征图均匀划分为4个patch,然后采用自前一层移位的窗口配置向左上循环移位 像素; patch合并层,patch合并层拼接了每组256×256相邻patch,patch token数变为原来的1/4,同时patch token维度扩大4倍;然后,对维度扩大4倍的patch拼接特征使用了一个线性嵌入层,将输出维度降低一半。 [0012] 所述的Swin‑Transformer网络中,在阶段1,将512×512特征图通过Swin‑Transformer模块划分为4个256×256的patch,然后在阶段2进行合并和再次拆分,在阶段3继续进行合并和拆分,在阶段4进行最后一次合并和拆分。 [0013] 所述的GCN网络包括基于对比学习的patch嵌入模块、图构建模块和两个图卷积层,其中:基于对比学习的patch嵌入模块,将输入的patch嵌入到特征向量中:通过ResNet50网络从每个patch中提取代表性的嵌入向量,然后投影头将嵌入向量映射到应用对比学习损失的潜在空间,获得嵌入后的patch特征向量; N 图构建模块,使用patch特征向量做为结点特征,表示为F=[f1,f2,...,fN],F∈R×D ,其中fi(i=1,2,……,N)是使用基于对比学习的patch嵌入模块的ResNet50获得的D维嵌入向量,N是来自一个WSI图像的patch总数,根据WSI图像上对应patch的空间位置,通过K近邻法选出至多8个结点连接成边,构成图; 图卷积层,通过传播和聚集信息来提取图特征。 [0014] 在多尺度特征融合模块中,对于Swin‑Transformer网络和图卷积网络GCN中提取的初步提取特征,每个网络先对接收的三个放大倍率下的patch的特征进行融合,然后两个网络的特征再输入多尺度特征融合模块中进行最终的多尺度特征融合。 [0015] 所述的高斯上下文Transformer注意力门控包括全局上下文嵌入模块、通道归一化模块和门控自适应模块,其中:全局上下文嵌入单元,获取输入通道统计信息,在多尺度特征的空间上进行全局信息的聚合; 通道归一化单元,通过嵌入信息与可训练参数来进行通道归一化,在神经元之间建立竞争关系; 门控自适应单元,形成特征间的竞争和合作关系,当一个通道的门控权重被积极激活时促进该通道与其他通道竞争,当门控权重被消极激活时鼓励该通道与其他通道合作。 [0016] 所述的二分支注意力分类模块包括训练聚类层和注意力池化层,其中:训练聚类层,将高注意力得分的patch和低注意力得分的patch进行聚类,使聚类层学习在不同类别特征之间可分离的丰富patch级特征空间:训练聚类层中前K个高注意力得分的patch和后K个低注意力得分的patch被用作训练聚类层的代表性样本,聚类层学习在不同类别的正标签和负标签之间分离的丰富patch级特征空间; 注意力池化层,聚合patch级别的预测得到WSI图像级别的预测:根据patch各自的注意力得分对patch进行加权,并将patch级别的特征总结为WSI图像级别的表示,用于进行最终的诊断预测。 [0018] 本发明所具有的有益效果是:本发明实现了基于Transformer和图卷积的多尺度WSI图像的快速分类,提升了WSI图像分类的效率和精度;基于WSI图像级别的表示,能够从细胞和patch的上下文结构的角度深度挖掘WSI分类特征,提升图像分类的效率和精度;能够提取到肉眼无法观察到的特征,从而可以在临床上协助医生进行诊断;具有一定的可解释性,在这里高斯上下文Transformer注意力门控阶段计算的每个patch的权重可作为注意力得分映射到WSI上,有助于医生理解模型的分类性能。 附图说明 具体实施方式[0020] 下面结合附图对本发明的实施例做进一步描述:如图1所示,一种基于深度学习的WSI图像分类系统包括以下步骤: 图像收集及预处理模块,用于获取WSI图像并进行预处理,得到预处理后的样本图像,预处理过程包括灰度化、去噪、二值化、裁剪以及分割; 初步特征提取模块,用于将预处理后的样本图像分别输入到Swin‑Transformer网络和图卷积网络GCN中进行初步特征提取,得到不同尺度WSI图像的初步提取特征; 多尺度特征融合模块,对Swin‑Transformer网络和图卷积网络GCN中提取的初步提取特征进行多尺度特征融合; 高斯上下文Transformer注意力门控,基于融合后的特征,获取每个通道对应特征的重要程度并赋予权重值,以提升对当前任务有用的通道,且抑制对当前任务用处不大的通道,并对多尺度特征进行降维; 二分支注意力分类模块,对经过高斯上下文Transformer注意力门控处理后的特征进行学习、训练和预测,将patch级别的特征总结为WSI图像级别的表示,用于进行最终的诊断预测。 [0021] 图像收集及预处理模块中,获取的WSI图像为原始WSI图像的10×、20×、40×放大倍率图像,并经预处理划分为512×512像素大小的patch,即为预处理后的样本图像。 [0022] 图像收集及预处理模块包括图像灰度化单元、中值滤波器、二值化单元、裁剪单元和分割单元,用于实现预处理过程的灰度化、去噪、二值化、裁剪以及分割,具体为:图像灰度化单元,对获取的WSI图像使用图像处理包Opencv的cvtColor函数,将三通道的RGB图像转换为单通道的HSV的灰度图像; 中值滤波器,去除WSI图像中的噪声,并增强其中的肿瘤组织区域,得到中值滤波图像:选取长度大于1个点数的奇数的窗口在WSI图像上扫描,将窗口中所含的像素点按灰度级的升序或降序排列,取位于中间的灰度值来代替该窗口选中区域中的像素点的灰度值,从而消除孤立的噪声点; 二值化单元,对去噪后的WSI图像进行二值化处理,得到二值化图像:使用Opencv包的threshold函数确定一个阈值,将WSI图像的像素值划分为两组并使这两组像素值的类间方差最大,然后将大于该阈值的像素点的值设为255(肿瘤组织区域),小于该阈值的像素点的值设为0(背景区域),从而将WSI图像二值化,使肿瘤组织区域和背景区域分离,得到原始WSI图像对应的二值化WSI图像; 裁剪单元,用于从二值化WSI图像中裁剪出肿瘤组织区域:使用Opencv包的findContours函数将二值化WSI图像建立两个等级的轮廓,外层的轮廓为外边界,内层的轮廓为内孔的边界信息,并通过_filter_contours函数过滤轮廓,得到肿瘤组织区域的轮廓; 分割单元,用于将裁剪出肿瘤组织区域的WSI图像按照512像素的长宽和512像素的坐标间隔(步长)划分成512×512像素大小的patch。 [0023] 初步特征提取模块中,如图2所示,Swin‑Transformer网络包括图像拆分模块、线性嵌入层、Swin‑Transformer模块(图2中简称为S‑T模块)和patch合并层,并且Swin‑Transformer网络包含四个阶段,其中,阶段1包含2个线性嵌入层和2个Swin‑Transformer模块,阶段2包含2个patch合并层和2个Swin‑Transformer模块,阶段3包含6个patch合并层和6个Swin‑Transformer模块,阶段4包含2个patch合并层和2个Swin‑Transformer模块,图像拆分模块位于阶段1之前。 [0024] Swin‑Transformer网络中:2 图像拆分模块,将输入的512×512×3的样本图像拆分为非重叠等尺寸的M×(P×3)的子patch,得到 维度的特征,M为Transformer的有效输入序 列长度,P代表像素; 线性嵌入层,将 维度的特征特征投射到任意维度C,得到 维度的特征; Swin‑Transformer模块,用于提取patch的特征,包括归一化层、MLP层和基于窗口的自注意力模块: 归一化层,用于对输入的特征进行归一化,得到归一化的特征数据; MLP层,即为多层感知机,用于特征的表示学习,包含输入层,隐藏层,输出层; 基于窗口的自注意力模块,将输入的特征图均匀划分为4个patch,然后采用自前一层移位的窗口配置向左上循环移位 像素; patch合并层,patch合并层拼接了每组256×256相邻patch,patch token数变为原来的1/4,同时patch token维度扩大4倍;然后,对维度扩大4倍的patch拼接特征使用了一个线性嵌入层,将输出维度降低一半。 [0025] Swin‑Transformer网络中,在阶段1,将512×512特征图通过Swin‑Transformer模块划分为4个256×256的patch,然后在阶段2进行合并和再次拆分,在阶段3继续进行合并和拆分,在阶段4进行最后一次合并和拆分。 [0026] 具体的,在阶段1,线性嵌入层得到 维度的特征,通过Swin‑Transformer模块划分为4个256×256的patch后,在阶段2进行合并和再次拆分,变为维 度的特 征,在阶段 3进行 合并和再 次拆 分,变 为 维度的特征,最后在阶段4进行最后一次合并和拆分,变为 维度的特征。 [0027] GCN网络包括基于对比学习的patch嵌入模块、图构建模块和两个图卷积层,其中:基于对比学习的patch嵌入模块,将输入的patch嵌入到特征向量中:通过ResNet50网络从每个patch中提取代表性的嵌入向量,然后投影头将嵌入向量映射到应用对比学习损失的潜在空间,获得嵌入后的patch特征向量; N 图构建模块,使用patch特征向量做为结点特征,表示为F=[f1,f2,...,fN],F∈R×D ,其中fi(i=1,2,……,N)是使用基于对比学习的patch嵌入模块的ResNet50获得的D维嵌入向量,N是来自一个WSI图像的patch总数,根据WSI图像上对应patch的空间位置,通过K近邻法选出至多8个结点连接成边,构成图; 图卷积层,通过传播和聚集信息来提取图特征。 [0028] 在多尺度特征融合模块中,对于Swin‑Transformer网络和图卷积网络GCN中提取的初步提取特征,每个网络先对接收的三个放大倍率下的patch的特征进行融合,然后两个网络的特征再输入多尺度特征融合模块中进行最终的多尺度特征融合。 [0029] 高斯上下文Transformer注意力门控包括全局上下文嵌入模块、通道归一化模块和门控自适应模块,其中:全局上下文嵌入单元,获取输入通道统计信息,在多尺度特征的空间上进行全局信息的聚合; 通道归一化单元,通过嵌入信息与可训练参数来进行通道归一化,在神经元之间建立竞争关系; 门控自适应单元,形成特征间的竞争和合作关系,当一个通道的门控权重被积极激活时促进该通道与其他通道竞争,当门控权重被消极激活时鼓励该通道与其他通道合作。 [0030] 二分支注意力分类模块包括训练聚类层和注意力池化层,其中:训练聚类层,将高注意力得分的patch和低注意力得分的patch进行聚类,使聚类层学习在不同类别特征之间可分离的丰富patch级特征空间:训练聚类层中前K个高注意力得分的patch和后K个低注意力得分的patch被用作训练聚类层的代表性样本,聚类层学习在不同类别的正标签和负标签之间分离的丰富patch级特征空间; 注意力池化层,聚合patch级别的预测得到WSI图像级别的预测:根据patch各自的注意力得分对patch进行加权,并将patch级别的特征总结为WSI图像级别的表示,用于进行最终的诊断预测。 [0031] 如图3所示,利用本发明系统进行WSI图像分类的方法为:S1、基于图像收集及预处理模块,获取WSI图像并进行预处理,得到预处理后的样本图像,预处理过程包括灰度化、去噪、二值化、裁剪以及分割; S2、基于初步特征提取模块,将预处理后的样本图像分别输入到Swin‑ Transformer网络和图卷积网络GCN中进行初步特征提取,得到不同尺度WSI图像的初步提取特征; S3、基于多尺度特征融合模块,对Swin‑Transformer网络和图卷积网络GCN中提取的初步提取特征进行多尺度特征融合; S4、基于高斯上下文Transformer注意力门控,对于融合后的特征,获取每个通道对应特征的重要程度并赋予权重值,以提升对当前任务有用的通道,抑制对当前任务用处不大的通道,并对多尺度特征进行降维; S5、基于二分支注意力分类模块,对经过高斯上下文Transformer注意力门控处理后的特征进行学习、训练和预测,将patch级别的特征总结为WSI图像级别的表示,用于进行最终的诊断预测。 |