首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 模式识别 / 一种基于数据融合的分类预测方法、装置及存储介质

一种基于数据融合的分类预测方法、装置及存储介质

阅读:189发布:2020-05-08

专利汇可以提供一种基于数据融合的分类预测方法、装置及存储介质专利检索,专利查询,专利分析的服务。并且本 发明 涉及 模式识别 技术领域,具体涉及一种基于数据融合的分类预测方法、装置及存储介质,所述方法为:首先将采集的样本数据标记为恶性样本或良性样本,将标记后的样本数据构建为样本数据集,所述样本数据为乳腺肿 块 细胞核数据;接着对样本数据集进行预处理和归一化,得到归一化数据集,将所述归一化数据集分为训练集和测试集;通过采用多个神经网络对归一化数据集进行训练,并通过AdaBoost 算法 集成三网生成集成分类器;最后实时获取测试数据,将所述测试数据输入集成分类器得到诊断结果,本发明还相应的提供了分类预测装置和存储介质,本发明可以对乳腺 肿瘤 获得 稳定性 和准确率更优的分类预测效果。,下面是一种基于数据融合的分类预测方法、装置及存储介质专利的具体信息内容。

1.一种基于数据融合的分类预测方法,其特征在于,包括:
将采集的样本数据标记为恶性样本或良性样本,将标记后的样本数据构建为样本数据集,所述样本数据为乳腺肿细胞核数据;
对样本数据集进行预处理和归一化,得到归一化数据集,将所述归一化数据集分为训练集和测试集;
采用多个神经网络对归一化数据集进行训练,并通过AdaBoost算法集成三网生成集成分类器;
实时获取测试数据,将所述测试数据输入集成分类器得到诊断结果。
2.根据权利要求1所述的一种基于数据融合的分类预测方法,其特征在于,所述恶性样本的观测标签为1,良性样本的观测标签为-1。
3.根据权利要求2所述的一种基于数据融合的分类预测方法,其特征在于,所述对样本数据集进行预处理和归一化,得到归一化数据集,具体为:
根据标记将样本数据集划分为恶性样本集和良性样本集;
利用逐步回归法对样本数据集进行预处理,得到降维后的数据集;
分别对恶性样本集和良性样本集进行数据归一化,得到归一化数据集,其中,恶性样本集的特征值取值范围在0到1之间,良性样本集的特征值在-1到0之间。
4.根据权利要求3所述的一种基于数据融合的分类预测方法,其特征在于,所述采用多个神经网络对归一化数据集进行训练,并通过AdaBoost算法集成三网生成集成分类器,具体包括:
将归一化数据集输入多个神经网络进行训练,每个神经网络得到一组弱分类器,每组弱分类器包含多个弱分类器,每个弱分类器具有各自的权重;
将测试集输入每组弱分类器,得到测试结果,测试结果包括判断错误和判断正确;
根据测试结果将训练集划分为测试错误集和测试正确集;
获取全部的弱分类器,以及每个弱分类器的权重;
根据每个神经网络的弱分类器得到该神经网络的强分类器;
根据各个强分类器得到集成分类器。
5.根据权利要求4所述的一种基于数据融合的分类预测方法,其特征在于,所述多个神经网络包括BP神经网络、RBF神经网络和Naive Bayes神经网络,每个所述神经网络均得到各自的多个弱分类器。
6.一种基于数据融合的分类预测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5任一项所述一种基于数据融合的分类预测方法。
7.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-5任一项所述一种基于数据融合的分类预测方法。

说明书全文

一种基于数据融合的分类预测方法、装置及存储介质

技术领域

[0001] 本发明涉及模式识别技术领域,具体涉及一种基于数据融合的分类预测方法、装置及存储介质。

背景技术

[0002] 乳腺癌是全世界女性死亡的主要原因之一。据统计,早期准确的乳腺癌诊断,可使超过30%的乳腺癌患者活的更久。传统的乳腺癌诊断检查为细针穿刺细胞学(FNAC)和乳房X光检查,均存在一定的缺陷:FNAC分析取决于病理学、放射学和肿瘤学专家的联合诊断,诊断结果可能因人而异,诊断过程耗时耗;基于X光技术的诊断也存在对X光图像理解因人而异的缺陷。
[0003] 因此,如何在早期阶段提供一种辅助专业医护人员对乳腺进行分析的方法,可以稳定、准确的对乳腺肿瘤进行分类预测具有重大的社会和医学价值。

发明内容

[0004] 为解决上述问题,本发明提供一种基于数据融合的分类预测方法、装置及存储介质,可以对乳腺肿瘤获得稳定性和准确率更优的分类预测效果。
[0005] 为了实现上述目的,本发明提供以下技术方案:
[0006] 根据本发明第一方面实施例的一种基于数据融合的分类预测方法,包括:
[0007] 将采集的样本数据标记为恶性样本或良性样本,将标记后的样本数据构建为样本数据集,所述样本数据为乳腺肿细胞核数据;
[0008] 对样本数据集进行预处理和归一化,得到归一化数据集,将所述归一化数据集分为训练集和测试集;
[0009] 采用多个神经网络对归一化数据集进行训练,并通过AdaBoost算法集成三网生成集成分类器;
[0010] 实时获取测试数据,将所述测试数据输入集成分类器得到诊断结果。
[0011] 进一步,所述恶性样本的观测标签为1,良性样本的观测标签为-1。
[0012] 进一步,所述对样本数据集进行预处理和归一化,得到归一化数据集,具体为:
[0013] 根据标记将样本数据集划分为恶性样本集和良性样本集;
[0014] 利用逐步回归法对样本数据集进行预处理,得到降维后的数据集;
[0015] 分别对恶性样本集和良性样本集进行数据归一化,得到归一化数据集,其中,恶性样本集的特征值取值范围在0到1之间,良性样本集的特征值在-1到0之间。
[0016] 进一步,所述采用多个神经网络对归一化数据集进行训练,并通过AdaBoost算法集成三网生成集成分类器,具体包括:
[0017] 将归一化数据集输入多个神经网络进行训练,每个神经网络得到一组弱分类器,每组弱分类器包含多个弱分类器,每个弱分类器具有各自的权重;
[0018] 将测试集输入每组弱分类器,得到测试结果,测试结果包括判断错误和判断正确;
[0019] 根据测试结果将训练集划分为测试错误集和测试正确集;
[0020] 获取全部的弱分类器,以及每个弱分类器的权重;
[0021] 根据每个神经网络的弱分类器得到该神经网络的强分类器;
[0022] 根据各个强分类器得到集成分类器。
[0023] 进一步,所述多个神经网络包括BP神经网络、RBF神经网络和Naive Bayes神经网络,每个所述神经网络均得到各自的多个弱分类器。
[0024] 根据本发明第二方面实施例的一种基于数据融合的分类预测装置,包括:
[0025] 至少一个处理器;
[0026] 至少一个存储器,用于存储至少一个程序;
[0027] 当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第一方面所述的一种基于数据融合的分类预测方法。
[0028] 根据本发明第三方面实施例的一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如第一方面所述的一种基于数据融合的分类预测方法。
[0029] 本发明的有益效果是:本发明公开一种基于数据融合的分类预测方法、装置及存储介质,所述方法为:首先将采集的样本数据标记为恶性样本或良性样本,将标记后的样本数据构建为样本数据集,所述样本数据为乳腺肿块细胞核数据;其次对样本数据集进行预处理和归一化,得到归一化数据集,将所述归一化数据集分为训练集和测试集;通过采用多个神经网络对归一化数据集进行训练,并通过AdaBoost算法集成三网生成集成分类器;最后实时获取测试数据,将所述测试数据输入集成分类器得到诊断结果。本发明可以对乳腺肿瘤获得稳定性和准确率更优的分类预测效果。附图说明
[0030] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0031] 图1是本发明实施例一种基于数据融合的分类预测方法的流程示意图;
[0032] 图2是图1中实施例步骤S300的流程示意图;
[0033] 图3是本发明实施例中集成分类器的准确率图;
[0034] 图4是本发明实施例中BP神经网络的准确率图;
[0035] 图5是本发明实施例中RBF神经网络的准确率图;
[0036] 图6是本发明实施例中Naive Bayes神经网络的准确率图。

具体实施方式

[0037] 以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0038] 参考图1,如图1所示为一种基于数据融合的分类预测方法,包括以下步骤:
[0039] 步骤S100、将采集的样本数据标记为恶性样本或良性样本,将标记后的样本数据构建为样本数据集。
[0040] 其中,所述样本数据为乳腺肿块细胞核数据;所述乳腺肿块细胞核数据用于描述乳腺肿块细胞核的物理特征,例如,半径大小、质地、周长、面积、紧密度、凹陷度、凹陷点数、对称度、光滑性和断裂度。
[0041] 步骤S200、对样本数据集进行预处理和归一化,得到归一化数据集,将所述归一化数据集划分为训练集和测试集。
[0042] 步骤S300、采用多个神经网络对归一化数据集进行训练,并通过AdaBoost算法集成三网生成集成分类器。
[0043] 步骤S400、实时获取测试数据,将所述测试数据输入集成分类器得到诊断结果。
[0044] 本实施例中,首先将采集的样本数据标记为恶性样本或良性样本,将标记后的样本数据构建为样本数据集,所述样本数据为乳腺肿块细胞核数据,初步形成可供训练的样本集合;接着对样本数据集进行预处理和归一化,得到归一化数据集,将所述归一化数据集分为训练集和测试集,从而剔除冗余信息,便于对样本数据进行训练,也便于提高后续分类预测的准确率;通过采用多个神经网络对归一化数据集进行训练,并通过AdaBoost算法集成三网生成集成分类器,可以使分类器更加接近实际的分类预测结果;最后实时获取测试数据,将所述测试数据输入集成分类器得到诊断结果,本发明可以获得稳定性和准确率更优的分类预测效果。
[0045] 在一个优选的实施例中,所述恶性样本对应的观测标签为1,良性样本对应的观测标签为-1。
[0046] 作为上述实施例的优选,所述步骤S200中对样本数据集进行预处理和归一化,得到归一化数据集,具体为:
[0047] 根据标记将样本数据集划分为恶性样本集和良性样本集;
[0048] 利用逐步回归法对样本数据集进行预处理,得到降维后的数据集;
[0049] 分别对恶性样本集和良性样本集进行数据归一化,得到归一化数据集,其中,恶性样本集的特征值取值范围在0到1之间,良性样本集的特征值在-1到0之间。
[0050] 本实施例中,由于样本数据集包含的信息特征十分庞杂,通过将样本数据集进行降维,从而降低了医疗数据冗余,避免后续分类预测时,冗余的医疗数据可能导致的分类误差、降低分类准确率的影响。
[0051] 参考图2,在一个优选的实施例中,所述步骤S300具体包括:
[0052] 步骤S310、将归一化数据集输入多个神经网络进行训练,每个神经网络得到一组弱分类器,每组弱分类器包含多个弱分类器,每个弱分类器具有各自的权重。
[0053] 显然的,作为原始训练样本,归一化数据集中的每个归一化数据在训练前具有相等的权重,每组弱分类器的权重也相等。
[0054] 步骤S320、将测试集输入每组弱分类器,得到测试结果,测试结果包括判断错误和判断正确;
[0055] 步骤S330、根据测试结果将训练集划分为测试错误集和测试正确集;
[0056] 步骤S340、获取全部的弱分类器,以及每个弱分类器的权重。
[0057] 其中,弱分类器表示为gki,弱分类器gki的权重αki,k表示神经网络的编号,i表示编号为k的神经网络中弱分类器的编号。
[0058] 步骤S350、根据每个神经网络的弱分类器得到该神经网络的强分类器。
[0059] 本步骤中,通过以下公式计算每组神经网络的强分类器Hk:
[0060] 其中,Hk表示编号为k的神经网络的强分类器,Tk表示每个神经网络中弱分类器的总数量;
[0061] 步骤S360、根据各个强分类器得到集成分类器。
[0062] 其中,集成分类器S即为分类结果的判定规则,计算公式如下:
[0063] 在一个优选的实施例中,所述神经网络包括BP神经网络(稳定)、RBF神经网络(快速)和Naive Bayes神经网络,每个所述神经网络均得到各自的多个弱分类器。
[0064] 本实施例中,每个所述神经网络得到的弱分类器数量相等。每个所述神经网络中相同分类结果的弱分类器划分为一组,利用BP神经网络可以提升分类预测的结果稳定性;利用RBF神经网络可以提升分类预测速度,利用RBF神经网络全局逼近的能力弥补BP神经网络局部最优问题;采用Naive Bayes神经网络便于区分样本分布特征,考虑Naive Bayes神经网络对小规模数据分类良好的性能,可以解决数据规模较小的问题;通过AdaBoost算法将前述三种神经网络进行融合,从而建立集成分类器,将该集成分类器作为乳腺癌分类模型,可以获得稳定性和准确率更优的分类预测效果。
[0065] 参考图3至图6,通过十折交叉验证四种神经网络的分类预测结果,其中,图3是本发明实施例中集成分类器的准确率图,图4是本发明实施例中BP神经网络的准确率图,图5是本发明实施例中RBF神经网络的准确率图,图6是本发明实施例中Naive Bayes神经网络的准确率图,横坐标代表实验次数,纵坐标代表准确率。
[0066] 本实施例采用UCI数据库中乳腺癌数据作为示例,该数据集由乳腺细针抽吸采样得到。数据集中共569个实例,其中良性357例,恶性212例。每个实例包括:各个细胞核10个实值因子的平均值、标准差、最坏值,以及诊断结果(恶性为1,良性为-1),共31个属性值。通过对本发明的集成分类器,以及传统的BP神经网络、RBF神经网络、Naive Bayes神经网络这四种分类预测模型进行100次十折交叉进行验证,得到各自的准确率,来判断本发明的稳定性,图3、图4、图5、图6分别展示了集成分类器、BP神经网络、RBF神经网络、Naive Bayes神经网络100次试验的准确率,对比可发现本发明是稳定的,并且在准确率上也优于现有的分类预测方法。
[0067] 本发明实施例还提供一种基于数据融合的分类预测装置,包括:
[0068] 至少一个处理器;
[0069] 至少一个存储器,用于存储至少一个程序;
[0070] 当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述一种基于数据融合的分类预测方法。
[0071] 上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0072] 所称处理器可以是中央处理单元(Central-Processing-Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital-Signal-Processor,DSP)、专用集成电路(Application-Specific-Integrated-Circuit,ASIC)、现场可编程阵列(Field-Programmable-Gate-Arr ay,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于数据融合的分类预测装置的控制中心,利用各种接口和线路连接整个一种基于数据融合的分类预测装置可运行装置的各个部分。
[0073] 所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于数据融合的分类预测装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart-Media-Card,SMC),安全数字(Secure-Digital,SD)卡,闪存卡(Flash-Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0074] 本发明实施例还提供一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行上述一种基于数据融合的分类预测方法。
[0075] 上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0076] 以上所述仅为本发明的优选实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈