专利类型 | 发明授权 | 法律事件 | 公开; 实质审查; 授权; |
专利有效性 | 有效专利 | 当前状态 | 授权 |
申请号 | CN202510139004.6 | 申请日 | 2025-02-08 |
公开(公告)号 | CN119579842B | 公开(公告)日 | 2025-04-29 |
申请人 | 中国科学院大学; | 申请人类型 | 科研院所 |
发明人 | 刘艳; 卿中飞; 徐倩; | 第一发明人 | 刘艳 |
权利人 | 中国科学院大学 | 权利人类型 | 科研院所 |
当前权利人 | 中国科学院大学 | 当前权利人类型 | 科研院所 |
省份 | 当前专利权人所在省份:北京市 | 城市 | 当前专利权人所在城市:北京市石景山区 |
具体地址 | 当前专利权人所在详细地址:北京市石景山区玉泉路19号(甲) | 邮编 | 当前专利权人邮编:100049 |
主IPC国际分类 | G06T19/20 | 所有IPC国际分类 | G06T19/20 ; G06T7/00 ; G06T7/10 ; G06N3/0464 ; G06N3/08 |
专利引用数量 | 2 | 专利被引用数量 | 0 |
专利权利要求数量 | 5 | 专利文献类型 | B |
专利代理机构 | 北京中济纬天专利代理有限公司 | 专利代理人 | 杨乐; |
摘要 | 本 发明 涉及面向三维医学图像的分割方法,具体涉及一种交互式三维医学 图像分割 方法。包括步骤为:对待处理数据,分别进行裁剪、标准化等预处理;构建基于视觉基模型及三维编码的神经网络,在训练阶段,将 训练数据 输入交互式三维医学图像分割模型中进行学习;在测试阶段,将待分割数据使用三维编码策略进行在线学习,实现模型的进一步更新。本发明提出了一种基于视觉基模型的交互式图像分割模型 框架 ,采用高效微调策略和网络结构,减少了模型参数量以及训练的算 力 需求,同时保证了模型的高 精度 和实时性;采用三维点击编码提取策略,更好地将用户的点击信息输入给网络,不断提高模型的在线学习性能。 | ||
权利要求 | 1.一种交互式三维医学图像分割方法,所述方法以计算机断层扫描数据即CT数据为应用对象,其特征在于,所述方法包括以下步骤: |
||
说明书全文 | 一种交互式三维医学图像分割方法技术领域[0001] 本发明涉及面向三维医学图像的分割方法,具体涉及一种基于视觉基模型及三维编码的交互式三维医学图像分割方法。 背景技术[0002] 随着医学影像技术的不断发展和广泛应用,计算机断层扫描已经成为疾病早期发现、精确诊断以及有效治疗的关键手段。在临床诊断中,三维医学图像分割扮演着至关重要的角色,它对于疾病的准确诊断、手术方案的精细规划、治疗效果的评估以及后续随访都具有不可替代的临床价值。然而,三维医学图像分割面临着一个显著的挑战:获取金标准数据的过程既复杂又耗时,需要专业医生逐层仔细地勾画和标注,这一过程不仅耗时长,而且对医生的专业技能和经验有着极高的要求。 [0003] 深度学习技术在三维医学图像分割领域的应用前景广阔,但其性能高度依赖于大量高质量的标注数据。因此,开发快速而准确的标注方法对于实现高精度的三维医学图像分割至关重要。为了进一步提高医学图像标注的精确度和效率,研究能够实时响应、高精度并且支持在线学习的交互式三维医学图像分割算法尤为重要。算法可以显著加快标注流程,提高分割的准确性,还能够优化医生的工作体验,减轻他们的负担,并且高效地产生大量高质量的标注数据。 [0004] 目前面向三维医学图像的交互式分割模型普遍存在模型体积大、参数众多、推理时间长和计算资源消耗高的问题,这些问题限制了模型的实际应用和部署。此外,如何有效地将医生的交互信息,如点击动作,转化为模型可以理解的提示,从而提升分割的精度;以及如何让模型能够持续学习并吸收医生的专业判读经验,增强其在线学习能力,对于医学图像分割应用有着重要的意义。 发明内容[0005] 本发明的目的在于面向三维医学图像,构建基于视觉基模型及三维编码的神经网络,提高CT数据交互式图像分割的精确度和效率。 [0006] 本发明是通过以下技术方案实现的,包括以下步骤: [0007] 一、预处理阶段:即对原始CT数据进行裁剪、标准化预处理,具体如下: [0008] (1)对原始CT数据,采用确定窗口尺寸,将目标及其周围进行裁剪,所得数据看作一个样本数据; [0009] (2)对每一个CT样本数据,根据其病灶的均值和方差进行标准化预处理; [0010] 二、训练阶段:将上述经预处理的CT样本数据输入基于视觉基模型SAM(Segment Anything Model)的交互式三维医学图像分割神经网络中进行学习;所述分割神经网络包括基于视觉基模型的图像编码器和轻量解码器两个部分,其中,基于视觉基模型的图像编码器保持视觉基模型SAM的视觉Transformer特征提取结构,将低秩适应器和全连接适应器结合使用,插入于视觉基模型SAM的主干网络中,将三维图像的切片以二维形式进行编码;轻量解码器在解码部分,使用三维卷积提升不同切片间的信息传递,将提取的特征F输入到卷积神经网络解码器中,实现对输入图像的分割,并采用梯度下降法进行网络参数更新; [0011] 三、测试阶段:将待分割数据使用三维编码提取策略进行在线学习,进一步更新模型,具体如下: [0012] (1)基于已训练好的网络模型,对测试数据进行预分割和手动标注,并将此过程中得到的标注点击信息进行三维编码; [0013] (2)对三维球状编码Q,采用提示编码器 ,提升三维球状编码的特征提取能力;该提示编码器使用步幅分别为 4 和 2 的卷积层将点击编码进行两次降采样,每一次降采样之后,使用配对注意力模块进行特征提取,最后通过全连接层得到映射后的特征 ,将用户信息映射到三维图片特征空间; [0014] (3)将用户点击的三维编码特征 与图像的词符编码特征 相加融合,融合后特征 输入给图像特征提取模块,得到综合特征提取结果F; [0015] (4)将综合特征提取结果F输入到解码器中,实现对输入图像的分割; [0016] (5)基于用户点击所得分割结果和模型预测结果,使用交叉熵损失函数和 Dice损失函数的结合,以梯度反向传播的方式对模型进行在线更新,将用户经验通过点击反馈的形式有机地融入到模型的训练过程中,进一步提升模型的准确性。 [0017] 进一步的,所述步骤训练阶段中,基于视觉基模型的图像编码器具体方法如下: [0018] 首先,将每个二维切片图像I进行词符编码,得到编码后的特征 ,其中 为词符嵌入层;具体采用卷积核尺寸为16×16、步幅为16的二维卷积层对图像I进行降采样的词符编码,并用卷积核长度为16、步幅为16的一维卷积层在切片维度上进行降采样; [0019] 然后,对图像I上的每个像素点进行三维位置编码,包括可学习的二维空间位置编码和可学习的一维深度位置编码,将二者组合得到三维空间位置编码;其中,位置编码为每个像素位置生成一个固定维度的向量,该向量包含了该位置的正弦和余弦值,将二者沿通道维度堆叠,得到该点的位置编码特征; [0020] 最后,采用视觉基模型的图像编码器提取特征F;图像编码器包括2个降采样卷积层和12个注意力机制模块,注意力机制模块的参数采用视觉基模型的预训练参数,并且加入了2个低秩适应器和1个全连接适应器,以提升对新数据的适应能力。 [0021] 进一步的,所述采用视觉基模型的图像编码器提取特征F具体方法如下: [0022] (1)低秩适应器中,对于预训练的权重矩阵 ,通过低秩分解来限制其更新: [0023] [0024] 其中,h为低秩适应器的输出,x为低秩适应器的输入,在训练过程中, 被冻结且不接收梯度更新,低秩矩阵A和B代替原高阶权重矩阵且包含可训练的参数; [0025] (2)全连接适应器中,对于视觉基模型SAM中视觉 Transformer 模块线性层的输出 ,通过增加一个线性层,使得该模块输出 为: [0026] , [0027] 其中, 是线性层组成的网络,是可学习的向量,其维度与模型隐空间一致。 [0028] 进一步的,所述步骤训练阶段中,轻量解码器在解码部分的具体方法如下: [0029] 首先,将已提取特征F输入到两个不同步幅的卷积层,实现不同尺度特征的提取: [0030] , [0031] 其中, 、 和 分别是步幅为1、2和4的卷积层,该卷积层采用分组卷积,将输入通道分成三组,每组分别用共享的卷积核进行卷积; [0032] 其次,采用共享线性变换 将 和 两种多尺度特征做进一步映射: [0033] , [0034] 将映射后特征连同 ,使用插值算法调整到同样尺寸并进行堆叠得到 : [0035] , [0036] 然后,采用深度注意力机制进行三维图像深度方向的信息传递: [0037] 1)提取高度方向的全局特征: [0038] , [0039] 其中, 为二维的全局特征提取函数,即高效平均池化操作,将高和宽维度压缩,保留深度维度,将特征从三维变成一维; [0040] 2)采用自注意力机制,得到深度方向信息传递后的特征 : [0041] , [0042] 其中,SA为自注意力操作; [0043] 3)采用 对原始特征进行尺度缩放调整,实现对三维医学图像不同切片间信息的传递: [0044] ; [0045] 最后,采用全连接层构成的预测网络 ,实现对输入数据的分割: [0046] 。 [0047] 进一步的,所述步骤进行三维编码的具体方法如下: [0048] 首先,对三维空间中的每个体素 ,计算其位置 与用户点击位置 的距离 ,即 [0049] , [0050] 对每个体素求出其与所有用户点击最近距离 ,即 [0051] , [0052] 其中,N为用户点击数; [0053] 然后,对此距离进行二值化处理,得到三维球状编码Q,确保用户点击位置附近球状区域是1,其余区域为0,标记用户点击位置,取值描述当前体素与用户点击的距离; [0054] 最后,将用户的点击分为正向点击和负向点击两个点集,分别计算三维球状编码后的结果堆叠为两通道的三维体素,将点击信息编码为三维形式。 [0055] 与现有技术相比,本发明的有益效果是: [0056] (1)本发明提出了交互式三维医学图像分割模型框架,并设计了高效微调策略和网络结构,即将低秩适应器和全连接适应器相结合,将三维图像的切片以二维形式进行编码,在解码部分使用三维卷积提升不同切片间的信息传递,最后得到三维分割结果。本发明设计的框架减少了模型参数量以及训练的算力需求,同时保证了模型的高精度和实时性; [0057] (2)本发明提出了三维点击编码特征提取策略,可以更好地将用户的点击信息输入给网络,不断提高模型的在线学习性能。将用户的判读经验通过点击反馈的形式有机地融入到模型的训练过程中,进一步提升模型的准确性。附图说明 [0058] 图1为本发明交互式三维医学图像分割算法流程图。 具体实施方式[0059] 下面结合附图对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实施例。 [0060] 本研究运用了斯坦福大学医疗中心、明尼苏达大学医疗中心、斯隆凯特琳癌症中心等多个机构的肿瘤与器官分割数据集,在肺癌、胰腺癌、肾癌、肝癌四种病变及脾脏器官方面展开了一系列实验性验证。所有训练和测试数据进行了五次随机重复试验。肾脏肿瘤分割数据集源自2023年肾脏与肾脏肿瘤分割挑战赛(The 2023 Kidney and Kidney Tumor Segmentation Challenge, KiTS23),共包含489个肾脏肿瘤的CT扫描图像。肺癌分割数据集采用了非小细胞肺癌数据集,包含502个带有标注的CT数据和PET/CT图像。为增加数据量,肺癌分割数据集还整合了另外64个带有标注的CT数据,总共包括566个有标注数据。胰腺数据集(Pancreas)由421名接受胰腺肿块切除手术的患者在门静脉期CT扫描中获得。该数据集的重点是对胰腺实质和胰腺肿块(囊肿或肿瘤)进行分割,在大型结构(背景)、中型结构(胰腺)和小型结构(肿瘤)之间存在标签不平衡问题,是2018年MICCAI医学分割全能挑战赛中的胰腺肿瘤分割任务(MSD‑Pancreas)的一部分。肝脏血管和肿瘤数据集包括443例患有各种原发性和转移性肝肿瘤的门静脉期CT扫描。其目标感兴趣区域(ROI)是肝脏内的血管和肿瘤,对于研究肝脏肿瘤与周围血管的关系以及肝脏血管的形态和解剖结构具有重要意义。 [0061] 如图1所示,本发明交互式三维医学图像分割算法的实施例流程如下: [0062] 第一步,对每个CT样本数据进行裁剪、标准化等预处理。具体如下: [0063] 首先,对原始CT数据,采用确定窗口尺寸,将目标及其周围进行裁剪,所得数据看作一个样本; [0064] 然后,对每一个CT样本数据,根据其病灶的均值和方差进行标准化预处理。 [0065] 第二步,在训练阶段,将训练数据输入基于视觉基模型SAM,即Segment Anything Model(分割一切模型)的交互式三维图像分割神经网络中进行学习。具体如下: [0066] (1)基于视觉基模型的图像编码器保持视觉基模型SAM的视觉Transformer特征提取结构,将低秩适应器和全连接适应器结合使用,插入于视觉基模型SAM的主干网络中,将三维图像的切片以二维形式进行编码。 [0067] 首先,将每个二维切片图像I进行词符编码,得到编码后的特征 ,其中 为词符嵌入层。具体采用卷积核尺寸为16×16、步幅为16的二维卷积层对图像I进行降采样的词符编码,并用卷积核长度为16、步幅为16的一维卷积层在切片维度上进行降采样。 [0068] 然后,对图像I上的每个像素点进行三维位置编码,包括可学习的二维空间位置编码和可学习的一维深度位置编码,将二者组合得到三维空间位置编码。其中,位置编码为每个像素位置生成一个固定维度的向量,该向量包含了该位置的正弦和余弦值,将二者沿通道维度堆叠,得到该点的位置编码特征。 [0069] 最后,采用视觉基模型的图像编码器提取特征F。图像编码器包括2个降采样卷积层和12个注意力机制模块,注意力机制模块的参数采用视觉基模型的预训练参数,并且加入了2个低秩适应器和1个全连接适应器,以提升对新数据的适应能力。 具体如下: [0070] 1)低秩适应器中,对于预训练的权重矩阵 ,通过低秩分解来限制其更新: [0071] , [0072] 其中,h为低秩适应器的输出,x为低秩适应器的输入,在训练过程中, 被冻结且不接收梯度更新,低秩矩阵A和B代替原高阶权重矩阵且包含可训练的参数。 [0073] 2)全连接适应器中,对于视觉基模型SAM中视觉 Transformer 模块线性层的输出,通过增加一个线性层,使得该模块输出 为: [0074] , [0075] 其中, 是线性层组成的网络,是可学习的向量,其维度与模型隐空间一致。 [0076] (2)轻量解码器 [0077] 在解码部分,使用三维卷积提升不同切片间的信息传递,将提取的特征F输入到卷积神经网络解码器中,实现对输入图像的分割,并采用梯度下降法进行网络参数更新。 [0078] 首先,将已提取特征F输入到两个不同步幅的卷积层,实现不同尺度特征的提取: [0079] , [0080] 其中, 、 和 分别是步幅为1、2和4的卷积层,该卷积层采用分组卷积,将输入通道分成三组,每组分别用共享的卷积核进行卷积。 [0081] 其次,采用共享线性变换 将 和 两种多尺度特征做进一步映射: [0082] , [0083] 将映射后特征连同 ,使用插值算法调整到同样尺寸并进行堆叠得到 : [0084] , [0085] 然后,采用深度注意力机制进行三维图像深度方向的信息传递: [0086] 1)提取高度方向的全局特征: [0087] , [0088] 其中, 为二维的全局特征提取函数,即高效平均池化操作,将高和宽维度压缩,保留深度维度,将特征从三维变成一维。 [0089] 2)采用自注意力机制,得到深度方向信息传递后的特征 : [0090] , [0091] 其中,SA为自注意力操作。 [0092] 3)采用 对原始特征进行尺度缩放调整,实现对三维医学图像不同切片间信息的传递: [0093] ; [0094] 最后,采用全连接层构成的预测网络 ,实现对输入数据的分割: [0095] 。 [0096] 第三步,在测试阶段,将待分割数据使用三维编码提取策略进行在线学习,进一步更新模型。具体如下: [0097] (1)基于已训练好的网络模型,对测试数据进行预分割和手动标注,并将此过程中得到的标注点击信息进行三维编码。 [0098] 首先,对三维空间中的每个体素 ,计算其位置 与用户点击位置 的距离 ,即 [0099] , [0100] 对每个体素求出其与所有用户点击最近距离 ,即 [0101] , [0102] 其中,N为用户点击数。 [0103] 然后,对此距离进行二值化处理,得到三维球状编码Q,确保用户点击位置附近球状区域是1,其余区域为0,标记用户点击位置,取值描述当前体素与用户点击的距离。 [0104] 最后,将用户的点击分为正向点击和负向点击两个点集,分别计算三维球状编码后的结果堆叠为两通道的三维体素,将点击信息编码为三维形式。 [0105] (2)对三维球状编码Q,采用提示编码器 ,提升三维球状编码的特征提取能力。该提示编码器使用步幅分别为 4 和 2 的卷积层将点击编码进行两次降采样,每一次降采样之后,使用配对注意力模块进行特征提取,最后通过全连接层得到映射后的特征 ,将用户信息映射到三维图片特征空间。 [0106] (3)将用户点击的三维编码特征 与图像的词符编码特征 相加融合,融合后特征 输入给图像特征提取模块,得到综合特征提取结果F。 [0107] (4)将综合特征提取结果F输入到解码器中,实现对输入图像的分割。 [0108] (5)基于用户点击所得分割结果和模型预测结果,使用交叉熵损失函数和 Dice损失函数的结合,以梯度反向传播的方式对模型进行在线更新,将用户经验通过点击反馈的形式有机地融入到模型的训练过程中,进一步提升模型的准确性。 [0109] 本实施例中,所用系统为Ubuntu 22.04系统,GPU 配置为NVIDIA GeForce 3090 24G,开发软件环境为Python3.8的服务器。所有对比方法均选择Adam作为优化器,以批尺寸 2、学习率0.001训练100轮。 [0110] 为了证明本发明在分割精确性、鲁棒性、实时性上的效果,依次选择肾癌、肺癌、胰腺癌、肝癌数据集逐一作为测试集,在不同病灶CT数据上将本发明方法与其他现有方法进行对比分析。分割精度的评估指标使用分割任务中常用的 Dice 分数以及 95% 豪斯多夫距离(Hausdorff Distance 95th percentile, HD95%),具体计算方式如下: [0111] , [0112] 其中, 为预测分割结果, 为真实分割结果, 为预测分割结果的面积, 为真实分割结果的面积。 [0113] , [0114] 其中, 代表点集A和B的单边HD距离: [0115] , [0116] 其中, 代表欧式距离。HD95%被定义为HD距离的95%分位数。 [0117] 如表1、表2、表3、表4所示,本发明方法在分割准确性、鲁棒性方面具有较大优势,在取得较高分割精度同时具备较高的计算效率和训练参数量(参数量仅占对比方法的12.1%至51.4%)。这使得它在实际应用中更具可行性,特别是在资源受限的环境下。 [0118] 为了证明本发明在在线学习上的效果,使用模拟点击、用户交互式点击的方式得到标注数据,并用于模型的在线更新。表5展示了首先在模拟点击策略下获取标注数据并微调模型,然后比较更新后的模型与测试数据,评估分割精度。在肺癌CT数据实验中,对30个样本进行标注和微调,再分别用30个样本验证和测试。实验结果展示了方法在新标注数据下的适应能力和在不同数据集上的分割精度。未经更新的模型中,本发明方法分割精度更高,表明其泛化能力强。更新后,本发明方法Dice分数和HD95%进一步优化。 [0119] 为了检验方法在实际场景中的应用效果,本研究邀请了一位经验丰富的影像科医生参与交互式标注试验。试验采用了前述肺癌靶数据测试集,医生共标注了8个样本,随后利用这些标注数据进行模型更新,并在12个样本上进行了测试。在试验开始前,医生被要求认真阅读操作手册,以便熟悉软件操作,避免因不熟悉而产生的干扰。同时,医生在标注过程中每半小时休息一次,以减轻疲劳和精力对实验结果的潜在影响。经过交互式标注,该医生使用本发明模型得到的标注数据显示出较高的精度,同时所需要的时间、点击次数更少。 [0120] 为了进一步验证本发明基模型三维球状编码策略的有效性,在本发明模型框架和Medical SAM Adapter下分别应用了该策略,并邀请经验丰富医生使用两个模型分别进行标注。如表6所示,与仅使用分割标注更新相比,引入医生点击对本发明模型和Medical SAM Adapter的分割精度均有提升,说明模型能从医生点击中学习经验。此外,在相同的训练策略和点击编码模块下,本发明模型相较于Medical SAM Adapter取得了更好的效果,证明了本发明模型在编码方面的优势。 [0121] 表1 肾癌数据集分割性能对比 [0122] [0123] 表2 肺癌数据集分割性能对比 [0124] [0125] 表3 胰腺癌数据集分割性能对比 [0126] [0127] 表4 肝癌数据集分割性能对比 [0128] [0129] 表5 肺癌CT数据集在线更新能力对比 [0130] [0131] 表6 肺癌靶扫描数据集在线更新能力对比 [0132] [0133] 本发明中各算法模块的作用如表7模型消融实验结果所示,在该实验中,采用肺癌、胰腺癌、肾癌、肝癌作为训练数据,基于已训练好的网络模型,在四种病灶测试集上进行测试。与完整方法相比,不使用高效微调策略时,由于减少了额外适应器模块,训练参数量需求不高,但分割精度会下降:模型 Dice 分数下降了 0.039、HD95% 劣化了0.45,体现了引入低秩适应器和全连接适应器能提升模型对于新数据的适应能力,提升模型分割精度;与完整方法相比,不使用基模型三维球状编码策略时,模型的Dice分数下降了0.081,HD95%劣化了1.91,体现了对于三维交互式分割任务,将点击以三维球状编码方式与图片词符特征进行结合,再使用视觉基模型进行特征提取,能有效地提升分割精度。 [0134] 表7 模型消融实验结果 [0135] [0136] 综合来看,在多种不同病灶的CT数据分析中,本发明方法可以更有效的实现交互式图像分割,在提高分割精确性的同时降低模型复杂度,以较少的模型参数量来获得较好的分割效果;同时,本发明方法能有效将用户的判读经验通过标注反馈的形式有机地融入到模型的训练过程中,进一步提升模型的准确性。 [0137] 上述说明已经充分介绍了本发明的具体实施方式。需要指出的是,熟悉该领域的技术人员对本发明的具体实施方式所做的任何改动均不脱离本发明的权利要求书的范围。相应的,本发明的权利要求的范围也并不仅仅局限于前述具体实施方式。 |