首页 / 专利库 / 农用建筑及设备 / 挤奶厅 / 挤奶机 / 集乳器 / 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法

一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法

阅读:96发布:2020-05-11

专利汇可以提供一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种结合深度网络特征和 机器学习 模型的 乳腺癌 数据分类方法,属于 大数据 技术领域,包括建立影像采集 服务器 、客户端和数据分类服务器,勾画和处理 肿瘤 区域图片,得到分类图片的数据集合,提取带有肿瘤的MRI图层的图像特征,模型构建模 块 采用Tensorflow和Keras提供的网络模型作为基准模型,建立训练模型,采用SVM径向基核进行分类模型训练,解决了对肿瘤图片进行数据分类的技术问题,本发明结合了迁移学习、 深度学习 特征提取、影像组学、 包装 法特征选择、机器学习模型训练等方法,实现了乳腺癌数据的实时分类,提高了分类准确度,本发明利用了深度学习提取的高维度抽象特征,也避免了小数据集在深度学习上的过拟合问题。,下面是一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法专利的具体信息内容。

1.一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法,其特征在于:包括如下步骤:
步骤1:建立影像采集服务器、客户端和数据分类服务器,影像图片采集服务器、客户端和数据分类服务器均通过互联网相互通信;
在数据分类服务器中建立图片处理模、特征提取模块和模型构建模块;
步骤2:影像采集服务器采集肿瘤图片,并将肿瘤图片发送给客户端;
步骤3:医疗人员通过客户端编辑肿瘤图片,在肿瘤图片上勾画出肿瘤区域,生成肿瘤区域图片;
客户端将肿瘤图片和肿瘤区域图片一起发送给数据分类服务器;
步骤4:数据分类服务器接收到肿瘤图片和肿瘤区域图片后,图片处理模块设定一个虚拟矩形,找出肿瘤区域图片的中心点,以该中心点作为虚拟矩形的中心,根据虚拟矩形的边界对肿瘤区域图片进行截取,得到分类图片;
步骤5:按照步骤2到步骤4的方法,对多个肿瘤图片进行处理,得到分类图片的数据集合;
按照训练集70%、测试集30%的规则,利用分层抽样的方法将分类图片的数据集合划分为分类训练集和分类测试集;
对训练组数据进行数据集增广操作,得到扩大版训练集;
步骤6:特征提取模块调取扩大版训练集,从扩大版训练集中的分类图片中提取带有肿瘤的MRI图层的图像特征;
步骤7:模型构建模块采用Tensorflow和Keras提供的网络模型作为基准模型,建立训练模型,其步骤如下:
步骤A1:载入基准模型的初始参数,去掉基准模型最后一层全连接层,加入初始化参数为0的新的全连接层,全连接层使用Sigmoid激活函数,输出维度为2,输出值作为预测概率;
步骤A2:将扩大版训练集作为模型训练数据,将其中的分类图片复制为三通道图像,采用5折交叉验证进行模型训练,建立训练模型;
步骤A4:将分类测试集放入训练模型中进行测试,得到模型评价,模型评价的标准为准确率和AUC;
步骤8:选择基础模型中的隐藏层最后一层输出的特征图作为深度学习特征,将二维矩阵展平成一维向量,向量维度统一使用64维,大于64维的采用PCA算法进行降维,得到39维影像组学特征与64维深度学习特征;
步骤9:将39维影像组学特征与64维深度学习特征组合成103维特征,特征选择使用开源的sklearn包进行,先通过p值检验,筛选出p值<0.05的特征;
步骤10:使用pearson相关性分析对每两个特征之间的相关性进行计算,相关性大于
0.85或者小于-0.85的两组特征认为是冗余特征,随机抛弃其中一个特征;
步骤11:使用SVM-RFE进行包装法特征筛选,在初始特征集上训练评估器,并且通过feature_importances_属性获得每个特征的重要性,然后从当前的一组特征中丢弃最不重要的特征;
步骤12:在修剪的集合上递归地重复步骤10到步骤11的过程,直到最终到达所需数量的要选择的特征,选择AUC作为特征选择的评价标准;
步骤13:采用SVM径向基核进行分类模型训练,采用五折交叉验证和网格搜索进行超参数的选择,采用测试数据进行模型评价,评价指标为AUC,AUC值最高的模型作为最终的分类模型;
步骤14:当影像采集服务器采集到新的肿瘤图片时,首选根据步骤3到步骤4的方法对肿瘤图片进行处理,然后提取带有肿瘤的MRI图层的图像特征,最后采用步骤13中得出的最终的分类模型对新的肿瘤图片进行分类;
步骤15:数据分类服务器将步骤14得出的分类结果发送给客户端进行展示。
2.如权利要求1所述的一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法,其特征在于:在执行步骤6时,所述图像特征包括一阶统计特征19个,2D形状特征10个,纹理特征10个,每层分类图片一共可提取39个影像组学特征。
3.如权利要求1所述的一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法,其特征在于:在执行步骤A2时,所述三通道图像即为RGB图片。
4.如权利要求1所述的一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法,其特征在于:在执行步骤A1时,所使用的预训练网络模型包括ResNet50、InceptionV4、VGG16、VGG19、DenseNet、GoogleNet和AlexNet。

说明书全文

一种结合深度网络特征和机器学习模型的乳腺癌数据分类

方法

技术领域

背景技术

[0002] 目前医疗影像技术已经被广泛的应用在肿瘤的临床中,医疗影像技术是以图片数据的方式展示肿瘤,医生在分析肿瘤数据时往往带有很强的经验性和主观性,不能准确的分析出癌症的相关数据。
[0003] 目前对肿瘤的影像数据的分析均采用小数据集进行分析,在深度学习上会出现过拟合问题。

发明内容

[0004] 本发明的目的是提供一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法,解决了对肿瘤图片进行数据分类的技术问题。
[0005] 为实现上述目的,本发明采用如下技术方案:
[0006] 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法,包括如下步骤:
[0007] 步骤1:建立影像采集服务器、客户端和数据分类服务器,影像图片采集服务器、客户端和数据分类服务器均通过互联网相互通信;
[0008] 在数据分类服务器中建立图片处理模、特征提取模块和模型构建模块;
[0009] 步骤2:影像采集服务器采集肿瘤图片,并将肿瘤图片发送给客户端;
[0010] 步骤3:医疗人员通过客户端编辑肿瘤图片,在肿瘤图片上勾画出肿瘤区域,生成肿瘤区域图片;
[0011] 客户端将肿瘤图片和肿瘤区域图片一起发送给数据分类服务器;
[0012] 步骤4:数据分类服务器接收到肿瘤图片和肿瘤区域图片后,图片处理模块设定一个虚拟矩形,找出肿瘤区域图片的中心点,以该中心点作为虚拟矩形的中心,根据虚拟矩形的边界对肿瘤区域图片进行截取,得到分类图片;
[0013] 步骤5:按照步骤2到步骤4的方法,对多个肿瘤图片进行处理,得到分类图片的数据集合;
[0014] 按照训练集70%、测试集30%的规则,利用分层抽样的方法将分类图片的数据集合划分为分类训练集和分类测试集;
[0015] 对训练组数据进行数据集增广操作,得到扩大版训练集;
[0016] 步骤6:特征提取模块调取扩大版训练集,从扩大版训练集中的分类图片中提取带有肿瘤的MRI图层的图像特征;
[0017] 步骤7:模型构建模块采用Tensorflow和Keras提供的网络模型作为基准模型,建立训练模型,其步骤如下:
[0018] 步骤A1:载入基准模型的初始参数,去掉基准模型最后一层全连接层,加入初始化参数为0的新的全连接层,全连接层使用Sigmoid 激活函数,输出维度为2,输出值作为预测概率;
[0019] 步骤A2:将扩大版训练集作为模型训练数据,将其中的分类图片复制为三通道图像,采用5折交叉验证进行模型训练,建立训练模型;
[0020] 步骤A4:将分类测试集放入训练模型中进行测试,得到模型评价,模型评价的标准为准确率和AUC;
[0021] 步骤8:选择基础模型中的隐藏层最后一层输出的特征图作为深度学习特征,将二维矩阵展平成一维向量,向量维度统一使用64维,大于64维的采用PCA算法进行降维,得到39维影像组学特征与64 维深度学习特征;
[0022] 步骤9:将39维影像组学特征与64维深度学习特征组合成103 维特征,特征选择使用开源的sklearn包进行,先通过p值检验,筛选出p值<0.05的特征;
[0023] 步骤10:使用pearson相关性分析对每两个特征之间的相关性进行计算,相关性大于0.85或者小于-0.85的两组特征认为是冗余特征,随机抛弃其中一个特征;
[0024] 步骤11:使用SVM-RFE进行包装法特征筛选,在初始特征集上训练评估器,并且通过feature_importances_属性获得每个特征的重要性,然后从当前的一组特征中丢弃最不重要的特征;
[0025] 步骤12:在修剪的集合上递归地重复步骤10到步骤11的过程,直到最终到达所需数量的要选择的特征,选择AUC作为特征选择的评价标准;
[0026] 步骤13:采用SVM径向基核进行分类模型训练,采用五折交叉验证和网格搜索进行超参数的选择,采用测试数据进行模型评价,评价指标为AUC,AUC值最高的模型作为最终的分类模型;
[0027] 步骤14:当影像采集服务器采集到新的肿瘤图片时,首选根据步骤3到步骤4的方法对肿瘤图片进行处理,然后提取带有肿瘤的MRI 图层的图像特征,最后采用步骤13中得出的最终的分类模型对新的肿瘤图片进行分类;
[0028] 步骤15:数据分类服务器将步骤14得出的分类结果发送给客户端进行展示。
[0029] 优选的,在执行步骤6时,所述图像特征包括一阶统计特征19个, 2D形状特征10个,纹理特征10个,每层分类图片一共可提取39个影像组学特征。
[0030] 优选的,在执行步骤A2时,所述三通道图像即为RGB图片。
[0031] 优选的,在执行步骤A1时,所使用的预训练网络模型包括  ResNet50、InceptionV4、VGG16、VGG19、DenseNet、GoogleNet和 AlexNet。
[0032] 本发明所述的一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法,解决了对肿瘤图片进行数据分类的技术问题,本发明结合了迁移学习、深度学习特征提取、影像组学、包装法特征选择、机器学习模型训练等方法,实现了乳腺癌数据的实时分类,提高了分类准确度,本发明利用了深度学习提取的高维度抽象特征,也避免了小数据集在深度学习上的过拟合问题。附图说明
[0033] 图1是本发明的步骤2到步骤6的流程图
[0034] 图2是本发明的步骤7到步骤8的流程图;
[0035] 图3是本发明的步骤9到步骤13的流程图;
[0036] 图4是SVM-RFE特征选择图。

具体实施方式

[0037] 如图1-图4所示的一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法,包括如下步骤:
[0038] 步骤1:建立影像采集服务器、客户端和数据分类服务器,影像图片采集服务器、客户端和数据分类服务器均通过互联网相互通信;
[0039] 在数据分类服务器中建立图片处理模块、特征提取模块和模型构建模块;
[0040] 步骤2:影像采集服务器采集肿瘤图片,并将肿瘤图片发送给客户端;
[0041] 步骤3:医疗人员通过客户端编辑肿瘤图片,在肿瘤图片上勾画出肿瘤区域,生成肿瘤区域图片;
[0042] 本实施例中,原始肿瘤图片大小为512×512,虚拟矩形的大小为 224×224。
[0043] 客户端将肿瘤图片和肿瘤区域图片一起发送给数据分类服务器;
[0044] 步骤4:数据分类服务器接收到肿瘤图片和肿瘤区域图片后,图片处理模块设定一个虚拟矩形,找出肿瘤区域图片的中心点,以该中心点作为虚拟矩形的中心,根据虚拟矩形的边界对肿瘤区域图片进行截取,得到分类图片;
[0045] 步骤5:按照步骤2到步骤4的方法,对多个肿瘤图片进行处理,得到分类图片的数据集合;
[0046] 按照训练集70%、测试集30%的规则,利用分层抽样的方法将分类图片的数据集合划分为分类训练集和分类测试集;
[0047] 对训练组数据进行数据集增广操作,得到扩大版训练集;
[0048] 增广操作使用keras框架中的指定函数完成,包括0-20像素随机左右平移,0-20像素随机上下平移,图片-30度到30度随机旋转,图像180度旋转,图像镜面翻转,对图片对应的肿瘤勾画文件进行相同的操作,保证肿瘤区域与对应图像肿瘤区域吻合。数据增广后,训练集图片大小变为原来的5倍。
[0049] 步骤6:特征提取模块调取扩大版训练集,从扩大版训练集中的分类图片中提取带有肿瘤的MRI图层的图像特征;
[0050] 本实施例中,提取工具采用pyradiomics开源包,分别提取一阶统计特征19个,2D形状特征10个,纹理特征10个,每层图片一共可提取39个影像组学特征。
[0051] 图像特征如表1所示:
[0052]
[0053] 表1 39维特征是采用pyradiomics开源包进行计算得到,也就是表1 中的39个特征,本发明把表1中的特征个数当作维。
[0054] 深度学习每经过卷积和池化操作,就会得到一个特征图,可以把它理解成是一张图像,比如图像大小是28×28,28指的是像素点的个数。
[0055] 那么将这个图像展平成向量就是784维,可以理解为784个(维) 特征,将所有每张图像提取出来的特征放在一起,使用PCA方法(成熟的方法)进行降维,降维后的特征个数可以指定,这里本实施例指定为64。
[0056] 步骤7:模型构建模块采用Tensorflow和Keras提供的网络模型作为基准模型,建立训练模型,其步骤如下:
[0057] Tensorflow和Keras提供的网络模型都是在ImageNet数据集上的预训练模型,医学图像数据集较小,适合采用迁移学习的方法进行模型训练。
[0058] 步骤A1:载入基准模型的初始参数,去掉基准模型最后一层全连接层,加入初始化参数为0的新的全连接层,全连接层使用Sigmoid 激活函数,输出维度为2,输出值作为预测概率;
[0059] 预测概率是深度模型使用的,因为深度学习模型需要预测概率值和真实值进行比较,所以需要计算损失函数从而进行梯度优化和参数优化。
[0060] 步骤A2:将扩大版训练集作为模型训练数据,将其中的分类图片复制为三通道图像,采用5折交叉验证进行模型训练,建立训练模型;
[0061] 步骤A4:将分类测试集放入训练模型中进行测试,得到模型评价,模型评价的标准为准确率和AUC;
[0062] 步骤8:选择基础模型中的隐藏层最后一层输出的特征图作为深度学习特征,将二维矩阵展平成一维向量,向量维度统一使用64维,大于64维的采用PCA算法进行降维,得到39维影像组学特征与64 维深度学习特征;
[0063] 步骤9:将39维影像组学特征与64维深度学习特征组合成103 维特征,特征选择使用开源的sklearn包进行,先通过p值检验,筛选出p值<0.05的特征;
[0064] 103维特征具有统计学意义。
[0065] 步骤10:使用pearson相关性分析对每两个特征之间的相关性进行计算,相关性大于0.85或者小于-0.85的两组特征认为是冗余特征,随机抛弃其中一个特征;
[0066] 步骤11:使用SVM-RFE进行包装法特征筛选,在初始特征集上训练评估器,并且通过feature_importances_属性获得每个特征的重要性,然后从当前的一组特征中丢弃最不重要的特征;
[0067] 步骤12:在修剪的集合上递归地重复步骤10到步骤11的过程,直到最终到达所需数量的要选择的特征,选择AUC作为特征选择的评价标准;
[0068] 本实施例中,修剪的集合指的是修剪的特征集合,是采用SVM-RFE 进行特征选择。
[0069] SVM-RFE中的RFE指的是递归特征消除,比如特征初始个数为 39+64=103个,采用这种方法进行SVM分类器的训练,每训练一轮,就得到一个AUC值(AUC为评价模型好坏的指标)并给特征重要程度进行排序,丢弃一个最不重要的特征,特征个数可以任意指定,本实施例中指定为1,这时候对剩下的102个特征进行训练,即修剪的特征集合,得到AUC并丢弃最不重要的特征,重复进行,直到剩下一个特征,选择AUC值最大时的特征组合为最终选择的特征组合。
[0070] 步骤13:采用SVM径向基核进行分类模型训练,采用五折交叉验证和网格搜索进行超参数的选择,采用测试数据进行模型评价,评价指标为AUC,AUC值最高的模型作为最终的分类模型;
[0071] 步骤14:当影像采集服务器采集到新的肿瘤图片时,首选根据步骤3到步骤4的方法对肿瘤图片进行处理,然后提取带有肿瘤的MRI 图层的图像特征,最后采用步骤13中得出的最终的分类模型对新的肿瘤图片进行分类;
[0072] 步骤15:数据分类服务器将步骤14得出的分类结果发送给客户端进行展示。
[0073] 优选的,在执行步骤6时,所述图像特征包括一阶统计特征19个, 2D形状特征10个,纹理特征10个,每层分类图片一共可提取39个影像组学特征。
[0074] 优选的,在执行步骤A2时,所述三通道图像即为RGB图片。
[0075] 优选的,在执行步骤A1时,所使用的预训练网络模型包括ResNet50、InceptionV4、VGG16、VGG19、DenseNet、GoogleNet和 AlexNet。
[0076] 本发明所述的一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法,解决了对肿瘤图片进行数据分类的技术问题,本发明结合了迁移学习、深度学习特征提取、影像组学、包装法特征选择、机器学习模型训练等方法,实现了乳腺癌数据的实时分类,提高了分类准确度,本发明利用了深度学习提取的高维度抽象特征,也避免了小数据集在深度学习上的过拟合问题。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈