首页 / 专利库 / 诊断设备和程序 / 红细胞压积 / 基于非平衡学习的异常细胞远处转移分类方法及系统

基于非平衡学习的异常细胞远处转移分类方法及系统

阅读:231发布:2020-05-21

专利汇可以提供基于非平衡学习的异常细胞远处转移分类方法及系统专利检索,专利查询,专利分析的服务。并且本公开提出了基于非平衡学习的异常细胞远处转移分类方法及系统,获得存在某细胞远处转移的若干条数据序列及某细胞没有远处转移的若干条数据序列,将此数据集分为训练集和测试集,训练集用来训练模型,测试集用来测试模型;首先将训练集输入到特征选择 算法 与原始情况数据集分类的结果作对比,选出得到结果最好的p个特征;再用过 采样 算法得到正负类样本比例为1:1的训练集,将此训练集分别输入到分类算法,再用测试集的数据序列进行测试,选择得到评价结果最优的训练集Pi的 过采样 算法i;通过调整正负类样本的比例,将训练集输入到得到训练集Pi的过采样算法,逐渐增大正负类样本比例至设定比例,分类评价最优的正负类样本比例。本公开技术方案用过采样算法尝试增大正类样本比例,获得更好的模型评价指标和少数正类样本的召回率。,下面是基于非平衡学习的异常细胞远处转移分类方法及系统专利的具体信息内容。

1.基于非平衡学习的异常细胞远处转移分类方法,其特征是,包括:
获得存在某细胞远处转移的若干条数据序列及某细胞没有远处转移的若干条数据序列,并构成训练集;
将训练集分别输入k个特征选择算法,分别选择排序靠前的p个属性作为训练集的特征,输入分类器进行训练,对分类结果进行对比,选出得到结果最好的p个特征;
基于过采样算法使训练集在数据层面上达到数据均衡,将经过特征选择算法处理的训练集输入到n个过采样算法中,得到正负类样本比例为1:1的训练集;
将正负类样本比例为1:1的训练集分别输入到分类算法,再用测试集的数据序列进行测试,选择得到评价结果最优的训练集Pi的过采样算法i;
通过调整正负类样本的比例,将训练集输入到得到训练集Pi的过采样算法,逐渐增大正负类样本比例至设定比例,分类评价最优的正负类样本比例。
2.如权利要求1所述的基于非平衡学习的异常细胞远处转移分类方法,其特征是,数据序列包括:白细胞计数、淋巴细胞绝对值、淋巴细胞百分比、中性粒细胞绝对值、中性粒细胞百分比、单核细胞绝对值、单核细胞百分比、嗜酸性粒细胞绝对值、嗜酸性粒细胞百分比、嗜性粒细胞绝对值、嗜碱性粒细胞百分比、红细胞计数、血红蛋白、红细胞平均体积、红细胞平均血红蛋白含量、红细胞平均血红蛋白浓度、红细胞分布宽度、血小板计数、血小板分布宽度、血小板分布压积及血小板平均体积。
3.如权利要求1所述的基于非平衡学习的异常细胞远处转移分类方法,其特征是,选出得到结果最好的p个特征包括:血小板分布宽度、淋巴细胞百分比、淋巴细胞绝对值、中性粒细胞百分比、血小板平均体积、红细胞计数、血红蛋白和红细胞压积
4.如权利要求1所述的基于非平衡学习的异常细胞远处转移分类方法,其特征是,训练集的数据在进行特征选择之前先进行数据的筛选,针对数据的完整性进行判断,将含有缺失数据的样本删除。
5.基于非平衡学习的细胞远处转移分类系统,其特征是,包括:
训练集采集单元,被配置为:获得存在某细胞远处转移的若干条数据序列及某细胞没有远处转移的若干条数据序列,并构成训练集;
特征选择单元,被配置为:将训练集分别输入k个特征选择算法,分别选择排序靠前的p个属性作为训练集的特征,输入分类器进行训练,对分类结果进行对比,选出得到结果最好的p个特征;
过采样单元,被配置为:基于过采样算法使训练集在数据层面上达到数据均衡,将经过特征选择算法处理的训练集输入到n个过采样算法中,得到正负类样本比例为1:1的训练集;
最优过采样算法获得单元,被配置为:将正负类样本比例为1:1的训练集分别输入到分类算法,再用测试集的数据序列进行测试,选择得到评价结果最优的训练集Pi的过采样算法i;
最优正负类样本比例获取单元,被配置为:通过调整正负类样本的比例,将训练集输入到得到训练集Pi的过采样算法,逐渐增大正负类样本比例至设定比例,分类评价最优的正负类样本比例。
6.如权利要求5所述的基于非平衡学习的细胞远处转移分类系统,其特征是,选出得到结果最好的p个特征包括:血小板分布宽度、淋巴细胞百分比、淋巴细胞绝对值、中性粒细胞百分比、血小板平均体积、红细胞计数、血红蛋白和红细胞压积。
7.如权利要求1所述的基于非平衡学习的异常细胞远处转移分类方法,其特征是,训练集的数据在进行特征选择之前先进行数据的筛选,针对数据的完整性进行判断,将含有缺失数据的样本删除。
8.基于非平衡学习的细胞远处转移分类系统,其特征是,所述系统包括服务器、数据输入设备及数据显示器,利用数据输入设备将血细胞的分析数据输入至服务器或者通过调用的方式将存储在存储器的血细胞数据进行调用,利用显示器将具体的结果及数据处理过程中的相关数据进行显示;
所述服务器被配置为包括:
训练集采集单元,被配置为:获得存在某细胞远处转移的若干条数据序列及某细胞没有远处转移的若干条数据序列,并构成训练集;
特征选择单元,被配置为:将训练集分别输入k个特征选择算法,分别选择排序靠前的p个属性作为训练集的特征,输入分类器进行训练,对分类结果进行对比,选出得到结果最好的p个特征;
过采样单元,被配置为:基于过采样算法使训练集在数据层面上达到数据均衡,将经过特征选择算法处理的训练集输入到n个过采样算法中,得到正负类样本比例为1:1的训练集;
最优过采样算法获得单元,被配置为:将正负类样本比例为1:1的训练集分别输入到分类算法,再用测试集的数据序列进行测试,选择得到评价结果最优的训练集Pi的过采样算法i;
最优正负类样本比例获取单元,被配置为:通过调整正负类样本的比例,将训练集输入到得到训练集Pi的过采样算法,逐渐增大正负类样本比例至设定比例,分类评价最优的正负类样本比例。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现基于非平衡学习的细胞远处转移分类步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现基于非平衡学习的细胞远处转移分类步骤。

说明书全文

基于非平衡学习的异常细胞远处转移分类方法及系统

技术领域

[0001] 本公开涉及机器学习数据挖掘技术领域,特别是涉及基于非平衡学习的异常细胞远处转移分类方法及系统。

背景技术

[0002] 食管鳞癌是世界范围内最常见的恶性肿瘤之一,但其前期症状并不明显,身体的变化容易被忽略,一旦身体承受不住才去医院检查,一般就已经是中晚期。在临床,医生是通过影像,甚至是穿刺和手术诊断食管鳞癌患者癌细胞是否有远处转移。这三种方式不仅加大了患者的治疗成本,并且耗时较长。随着大数据时代的到来,为了解决这个问题,提出用血细胞分析预测出患者癌细胞是否有转移。查阅相关文献了解到,在医学领域专业有发表过对淋巴结转移做过分类预测,特异度和敏感度不足50%,而没有对远处转移做过相关研究,临床相关研究者惯用统计分析软件(SPSS、SAS)做P检验统计分析,而本公开是使用机器学习做分析预测。
[0003] 由于所收集到的食管鳞癌患者数据并不多,且癌细胞远处转移的患者更是占很小的比例,即存在类别不平衡问题。
[0004] 发明人在研究中发现,在这种不平衡数据集中,用标准分类器往往会倾向于获得最大的准确率,而忽略少数类样本,这少数类样本又是关注的重点,即使得到很高的准确率,这个分析结果也毫无意义,难以有效地预测出患者癌细胞是否有转移。在实际生活中,尤其是医学领域,类别不平衡问题经常见,这种情形主要由于发病率导致的。在这种情形下,如果没有将不平衡数据进行处理,标准分类器的性能将会受到严重影响。

发明内容

[0005] 本说明书实施方式的目的是提供基于非平衡学习的异常细胞远处转移分类方法,用过采样算法尝试增大正类样本比例,获得更好的模型评价指标和少数正类样本的召回率。
[0006] 本说明书实施方式提供基于非平衡学习的异常细胞远处转移分类方法,包括:
[0007] 获得存在某细胞远处转移的若干条数据序列及某细胞没有远处转移的若干条数据序列,并构成训练集;
[0008] 将训练集分别输入k个特征选择算法,分别选择排序靠前的p个属性作为训练集的特征,输入分类器进行训练,对分类结果进行对比,选出得到结果最好的p个特征;
[0009] 基于过采样算法使训练集在数据层面上达到数据均衡,将经过特征选择算法处理的训练集输入到n个过采样算法中,得到正负类样本比例为1:1的训练集;
[0010] 将正负类样本比例为1:1的训练集分别输入到分类算法,再用测试集的数据序列进行测试,选择得到评价结果最优的训练集Pi的过采样算法i;
[0011] 通过调整正负类样本的比例,将训练集输入到得到训练集Pi的过采样算法,逐渐增大正负类样本比例至设定比例,分类评价最优的正负类样本比例。
[0012] 本说明书实施方式提供基于非平衡学习的细胞远处转移分类系统,包括:
[0013] 训练集采集单元,被配置为:获得存在某细胞远处转移的若干条数据序列及某细胞没有远处转移的若干条数据序列,并构成训练集;
[0014] 特征选择单元,被配置为:将训练集分别输入k个特征选择算法,分别选择排序靠前的p个属性作为训练集的特征,输入分类器进行训练,对分类结果进行对比,选出得到结果最好的p个特征;
[0015] 过采样单元,被配置为:基于过采样算法使训练集在数据层面上达到数据均衡,将经过特征选择算法处理的训练集输入到n个过采样算法中,得到正负类样本比例为1:1的训练集;
[0016] 最优过采样算法获得单元,被配置为:将正负类样本比例为1:1的训练集分别输入到分类算法,再用测试集的数据序列进行测试,选择得到评价结果最优的训练集Pi的过采样算法i;
[0017] 最优正负类样本比例获取单元,被配置为:通过调整正负类样本的比例,将训练集输入到得到训练集Pi的过采样算法,逐渐增大正负类样本比例至设定比例,分类评价最优的正负类样本比例。
[0018] 与现有技术相比,本公开的有益效果是:
[0019] 1、本公开技术方案中数据序列可为医院常规检查血细胞分析数据,数据的获取从技术的实现上比较容易,便于进行后续的数据特征的选择及过采样处理。
[0020] 2、本公开技术方案用过采样算法尝试增大正类样本比例,获得更好的模型评价指标和少数正类样本的召回率。附图说明
[0021] 构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0022] 图1为本公开实施例子的基于非平衡学习的异常细胞远处转移分类方法流程图
[0023] 图2为本公开实施例子的基于非平衡学习的异常细胞远处转移分类方法特征选择策略示意图;
[0024] 图3为本公开实施例子的基于非平衡学习的异常细胞远处转移分类方法过采样算法选择策略示意图;
[0025] 图4为本公开实施例子的基于非平衡学习的异常细胞远处转移分类方法调整正负类样本比例策略示意图。

具体实施方式

[0026] 应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
[0027] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0028] 目前对于处理非平衡数据分类的问题,主要有两种解决方案:第一,均衡数据。在数据层面上,利用适当的方法重构训练样本,可采用过采样或者欠采样算法达到数据均衡;第二,改进或者提出新的算法。在算法层面上,利用现有的分类算法进行改进或者提出新的分类算法,使少数类的样本得到更多的重视,提高少数类样本的准确率。本申请的实施例子的技术方案为第一种,在数据层面上平衡数据样本。
[0029] 实施例子一
[0030] 该实施例子公开了基于非平衡学习的异常细胞远处转移分类方法,本公开首先筛选可用数据集,此处以食管鳞癌的细胞远处转移分类为例进行说明,根据食管鳞癌患者已有的诊断信息,从诊断表里筛选出首次检验出临床M分期的患者,临床M分期为0表示该患者未出现癌细胞往其他脏器转移,设置标签为0,临床M分期为非0表示该患者出现癌细胞往其他脏器转移,设置标签为1,再根据这些患者记录在手术表里的手术时间,选取在有手术治疗前一次的血细胞分析检验数据,若没有进行手术治疗,则选择诊断分期当天或者诊断时间前一次血细胞分析数据。本申请所基于的数据均为患者的数据,因此,与诊疗无关,只是基于相关数据对相关细胞的转移进行预测。
[0031] 在一实施例子中,将筛选完的可用样本分为75%训练集和25%测试集,将训练集输入多种特征选择方法,选择排名前8的属性作为该数据集的特征,再输入分类器,输出的模型评价指标AUC和召回率recall同原始情况输出的结果相对比,选出得到结果最好的特征。
[0032] 在该实施例子中,将两种类型的数据通过分类器训练,能够学习到这两种类型数据的分类特点,进而输入新的数据,该分类器可以自动识别归属于哪一类。
[0033] 输出的模型评价指标AUC和召回率recall解释说明如下:
[0034] AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多情况下ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
[0035] 召回率(Recall),又称为查全率(TPR),是一种对不平衡数据分类结果的完整性度量,表示实际少数类样本个数占实际应该为少数类样本个数的比例。
[0036] 然后,用选出的特征,再输入不同的过采样算法,使正负类的样本比例为1:1,输入分类器,将输出的模型评价指标和召回率相对比,选出得到结果最好的过采样算法。
[0037] 接着,用选出的过采样算法,尝试增大正类样本的比例,从1.1:1,1.2:1一直到2:1,再给出两个比例相差较大的比例5:1,10:1,对比结果,选出合适的正负类样本比例。
[0038] 在具体实施时,参见附图1所示,基于非平衡学习的异常细胞远处转移分类方法,包括:
[0039] 步骤(1):对数据集进行筛选,筛选完之后清洗脏数据,含有缺失数据的样本直接删除,同时红细胞分布宽度(CV)这一属性确实严重,在特征选择之前将此列属性数据删除,留下完整的数据集。
[0040] 具体的,数据集中包括训练集及测试集,训练集中的数据包括若干条癌细胞有远处转移的血细胞分析数据序列,及若干条癌细胞没有远处转移的血细胞分析数据序列。
[0041] 测试集存储有待测的血细胞分析数据序列。
[0042] 数据序列即血细胞分析数据序列包括:白细胞计数、淋巴细胞绝对值、淋巴细胞百分比、中性粒细胞绝对值、中性粒细胞百分比、单核细胞绝对值、单核细胞百分比、嗜酸性粒细胞绝对值、嗜酸性粒细胞百分比、嗜性粒细胞绝对值、嗜碱性粒细胞百分比、红细胞计数、血红蛋白、红细胞平均体积、红细胞平均血红蛋白含量、红细胞平均血红蛋白浓度、红细胞分布宽度(CV)、血小板计数、血小板分布宽度、血小板分布压积、血小板平均体积。
[0043] 步骤(2):参加附图2所示,对血细胞分析进行特征选择,将数据集分别输入k个特征选择算法,分别选择排序靠前的p个属性作为数据集A的特征,输入分类器进行训练,输出模型评价指标(G-Mean,AUC)和召回率(Recall)。
[0044] 在该实施例子中,此处的模型即为前述的分类器。
[0045] 因少数类样本是关注重点,根据具体问题具体分析,重新给定计算模型评价指标G-Mean和AUC的阈值,提出加权G-Mean和加权AUC,记为WG-Mean和WAUC;通过重新给定的计算方式计算出WG-Mean和WAUC,与原始情况相对比,选出得到结果最好的p个特征,此处计算出的WG-Mean和WAUC越大代表结果越好,以下输入都将使用这p个特征。
[0046] 因为在本案例中,少数类样本是关注的重点,这个阈值的重新给定就是提高了在计算时召回率的比率。
[0047] 在该实施例子中,G-Mean和AUC是两个综合评价分类器的指标。
[0048]
[0049]
[0050] 重新给定阈值后的计算公式:
[0051] WAUC=Sensitivity×0.7+Specificity×0.3;
[0052]
[0053] 在该实施例子中,原始情况的数据就是没有进行正负类样本平衡过的数据。
[0054] 在具体实施时,通过算法得出的结果,分别选取排名前8名的属性作为基础特征。通过分析,选取特征包括:血小板分布宽度、淋巴细胞百分比、淋巴细胞绝对值、中性粒细胞百分比、血小板平均体积、红细胞计数、血红蛋白和红细胞压积
[0055] 参见附图3所示,选取得到结果更好的过采样算法。步骤(3)和步骤(4):基于过采样算法使数据集在数据层面上达到数据均衡,将选取出的8个特征,输入到不同的过采样算法,获得使正负类样本比例为1:1的训练集P1,P2……Pn,将训练集P1,P2……Pn分别输入到分类算法,再用测试集N进行测试,输出模型评价指标(G-Mean,AUC)和召回率(Recall);计算出WG-Mean和WAUC,选择结果最好的所对应的得到训练集Pi的过采样算法i。
[0056] 在该实施例子中,将此数据集分为训练集和测试集,训练集用来训练模型,测试集用来测试模型;首先将训练集输入到特征选择算法与原始情况数据集分类的结果作对比,选出得到结果最好的p个特征;再用过采样算法得到正负类样本比例为1:1的训练集。
[0057] 步骤(5):参见附图4,通过调整正负类样本的比例,以期获得更高的召回率和更好的模型评价指标,将训练集M输入到得到训练集Pi的过采样算法,逐渐增大正负类样本比例为1.1:1,1.2:1,一直到2:1,甚至给出5:1,10:1输出的Recall,WG-Mean和WAUC,选出得到结果最优的正负类样本比例。
[0058] 选取出得到结果最优的正负类样本比例可以使模型评价指标达到最好即可。
[0059] 本公开实施例子选用医院常规检查血细胞分析做分析预测,以期取代价格昂贵且耗时较长的其他诊断途径。在应用上具有一定的创新性。
[0060] 本公开实施例子所用技术突破了临床医学研究人员不懂得机器学习的弱点,打破传统惯用P检验分析方法。
[0061] 本公开实施例子结合具体的实际意义,重新给定计算模型评价指标的阈值。
[0062] 本公开实施例子用过采样算法尝试增大正类样本比例,获得更好的模型评价指标和少数正类样本的召回率。
[0063] 实施例子二
[0064] 本说明书实施方式提供基于非平衡学习的细胞远处转移分类系统,包括:
[0065] 训练集采集单元,被配置为:获得存在某细胞远处转移的若干条数据序列及某细胞没有远处转移的若干条数据序列,并构成训练集;
[0066] 特征选择单元,被配置为:将训练集分别输入k个特征选择算法,分别选择排序靠前的p个属性作为训练集的特征,输入分类器进行训练,对分类结果进行对比,选出得到结果最好的p个特征;
[0067] 过采样单元,被配置为:基于过采样算法使训练集在数据层面上达到数据均衡,将经过特征选择算法处理的训练集输入到n个过采样算法中,得到正负类样本比例为1:1的训练集;
[0068] 最优过采样算法获得单元,被配置为:将正负类样本比例为1:1的训练集分别输入到分类算法,再用测试集的数据序列进行测试,选择得到评价结果最优的训练集Pi的过采样算法i;
[0069] 最优正负类样本比例获取单元,被配置为:通过调整正负类样本的比例,将训练集输入到得到训练集Pi的过采样算法,逐渐增大正负类样本比例至设定比例,分类评价最优的正负类样本比例。
[0070] 在另一实施例中,上述系统在具体实施时,可采用服务器、数据输入设备及数据显示器,利用数据输入设备将血细胞的分析数据输入至服务器或者通过调用的方式将存储在存储器的血细胞数据进行调用,服务器对数据进行上述处理后,利用显示器将具体的结果及数据处理过程中的相关数据进行显示。
[0071] 服务器包括训练集采集单元、特征选择单元、过采样单元、最优过采样算法获得单元及最优正负类样本比例获取单元。
[0072] 上述单元的具体实现过程可参见实施例子一中的具体过程,此处不再详细说明。
[0073] 实施例子三
[0074] 本公开实施例子公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现基于非平衡学习的细胞远处转移分类步骤。
[0075] 在该实施例中,具体的步骤参见实施例一的详细过程,此处不再进行详细说明。
[0076] 应当注意,尽管在上文的详细描述中提及了设备的若干模或子模块,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
[0077] 实施例子四
[0078] 本公开实施例子公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现基于非平衡学习的细胞远处转移分类步骤。
[0079] 在该实施例中,具体的步骤参见实施例一的详细过程,此处不再进行详细说明。
[0080] 在本实施例中,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。
[0081] 可以理解的是,在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0082] 以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈