首页 / 专利库 / 诊断设备和程序 / 血细胞计数 / 白细胞计数 / 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法

基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法

阅读:503发布:2020-11-08

专利汇可以提供基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于 随机森林 算法 的乙肝代偿期肝硬化筛查模型建立方法,包括: 数据采集 ;数据预处理;建立基于随机森林算法的乙肝代偿期肝硬化筛查分类模型;测试并评价分类模型。本发明提供的技术方案将近三年来收集的乙肝患者和代偿期肝硬化患者的血清指标和B超的影像学特征等样本数据,建立一个无创性乙肝代偿期肝硬化的预警模型。通过该模型,不但能够有效地预测乙肝患者(待测样本)是否处于代偿期肝硬化,而且还能够评估乙肝患者的病情进展和 预后 情况。通过该模型的评估,可以减少不必要的肝脏组织活检病理学检查。,下面是基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法专利的具体信息内容。

1.一种基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述方法包括下述步骤:
(1)数据采集
(2)数据预处理;
(3)建立基于随机森林算法的乙肝代偿期肝硬化筛查分类模型;
(4)测试并评价分类模型。
2.如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(1)中,分别采集乙肝、乙肝代偿期肝硬化患者信息,其包括血清指标和B超的影像;对重复住院患者只取其第一次入院数据,并排除以下病例:重叠其他肝炎病毒感染、合并甲状腺疾病自身免疫性疾病
采集的血清指标包括:白蛋白、高密度脂蛋白、低密度脂蛋白、总胆红素、直接胆红素、谷丙转酶、谷草转氨酶、血清Ⅳ型胶原测定、血清Ⅲ型胶原测定、层黏蛋白、血清透明质酸酶测定、红细胞压积、红细胞计数、白细胞计数、血小板、血红蛋白、中性粒细胞绝对值、淋巴细胞绝对值、单核细胞绝对值、嗜酸性粒细胞绝对值、嗜性粒细胞绝对值、均红细胞体积、平均血红蛋白量、平均血红蛋白浓度、红细胞分布宽度、平均血小板体积、血小板分布宽度、凝血酶原时间、白球比、凝血酶原活动度、血小板比积;
B超的影像学特征,包括:肝静脉特征:1):正常、2):模糊、3):狭窄;肝实质回声特征:
1):分布均匀、2):分布不均匀、3):斑状、网状、索状或结节状强回声光团;肝脏表面形态特征:1):正常、2):不规则、3):锯齿状、波状或结节状;肝脏边缘特征:1):正常、2):尖端变钝,但肝左叶形态正常、3):极度钝化,肝左叶失去正常形态;胆囊壁特征:1):正常、2):毛糙、
3):增厚或双边征;脾脏面积特征:1):22cm以下、2):22cm—28cm、3):28cm以上。
3.如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(2)中,对所收集的病例样本数据进行过滤和清洗工作,对于缺失的连续型数据,则采用均值法补全;对于缺失的离散型数据则赋予同类样本中出现频率最高的离散值。
4.如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(3)中,依据Hellinger距离计算,编制基于Hellinger距离的随机森林算法模型;运用5×2折交叉验证方法训练模型并验证之;在交叉验证过程中,每个数据集被分成数量相等的两个子集,两个实验分别在每个子集上运行,其中一个子集用于训练,另一个子集用于测试;
整个过程迭代5次,最后取10个实验的平均结果作为最终结果;所述步骤(3)包括下述步骤:
①采用Bootstrap方法从原始数据集中有放回地抽取数量相同的样本作为副本集;
②在副本集上创建决策树
③最终待测样本的分类结果通过集成每个子树的分类结果采用投票表决方式给出。
5.如权利要求4所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤①中,所述Bootstrap方法指的是从原始数据集中有放回地抽取数量相同的样本作为副本集,也称为自助法。
6.如权利要求4所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤②中,在创建决策树过程中,根据Hellinger距离从一个随机选择的特征子集中选择具有最大值的特征用于分裂;随机选择的特征子集所包含的特征数量作为随机森林的入口参数由用户提供;当使用Hellinger距离作为决策树算法中分裂属性评价指标时,其计算如下所示:

其中,X表示对应属性;|X+|和|X-|分别表示数据集中代偿期肝硬化患者和慢性乙肝患者的例数;|X+j|和|X-j|表示属性X的值为j且分别属于代偿期肝硬化患者和慢性乙肝患者的病例数;p表示属性X具有不同值的个数;所得之值表示属性X对代偿期肝硬化患者和慢性乙肝患者的区分能,该值越大表明区分能力越强。
7.如权利要求4所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤③中,增加随机森林算法的输出方式,即在原有通过投票表决法来决定输出值的基础上增加概率连续值的输出方式,以评估乙肝患者的病情进展和预后情况;
设建立的模型中包含N棵子树,其中预测值为是,即预测为代偿期肝硬化的子树有K棵,K≤N,则概率P=K/N;当P值大于0.5时,说明患者患肝硬化的几率较大,考虑行肝脏组织活检病理学检查;另一方面,通过P值来评估乙肝患者的病情进展和预后情况。
8.如权利要求1所述的乙肝代偿期肝硬化筛查模型建立方法,其特征在于,所述步骤(4)中,分别应用受试者工作特征曲线和精度召回率曲线下面积AUroc和AUprc作为所建立模型的评价指标;
受试者工作特征曲线即ROC曲线是以真正率即灵敏度TPrate为纵坐标,假正率即特异度FPrate为横坐标绘制的曲线;ROC曲线以可视化的方式反映出收益和代价,即真正率和假正率之间的平衡关系;在ROC曲线空间,对线代表一个随机分类器,点(0,1)表示一个理想的最佳分类器;
精度召回率曲线即PR曲线以精度Precision为纵坐标,召回率Recall为横坐标绘制的曲线;在PR空间,精度=0.5的直线代表一个随机分类器,点(1,1)表示一个理想的最佳分类器。

说明书全文

基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法

技术领域

[0001] 本发明涉及一种代偿期肝硬化的评估和筛查模型的建立方法,具体涉及一种基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法。

背景技术

[0002] 肝硬化是临床常见的一种消耗系统疾病,其发病原因主要与病毒性肝炎、长期饮酒、长期服用药物、长期腹泻以及家族史有关。对于晚期肝硬化患者而言,其临床特征较为典型,因此诊断较为容易。但是,晚期肝硬化患者多为失代偿阶段,有些患者甚至已发展为肝功能衰竭,因此是否能在代偿期筛查出来显得尤为重要。如果肝硬化尚处于代偿期就能得到明确诊断和及时治疗,肝组织的纤维化可望逆转;与此相反,如果肝硬化已经发展到失代偿期,其纤维化将不可逆转。所以,代偿期肝硬化的评估和筛查是临床关注和研究的重点。
[0003] 国外对于代偿期肝硬化的评估和筛查研究要早于国内,但研究对象主要是针对酒精性肝硬化和丙型肝炎所引起的肝硬化,对乙型肝炎引起的肝硬化研究则相对较少,这和国外肝硬化的主要病因有关。对于我国而言,世卫组织2015年在媒体通报中表示,中国约有9000万乙肝病毒慢性感染者,几乎占全国人口的7%,占到了世界总数的1/3左右。大多数感染者没有症状,因而不知道自己已被感染,但每10名慢性感染者中,就可能有3人出现危及生命的严重并发症,如肝硬化和肝癌等。慢性乙肝在中国每年导致33万多例癌症相关死亡,是我国一个重要的公共卫生问题。因此,作为乙肝大国,研究如何建立无创性乙肝代偿期肝硬化筛查模型对我国的公共卫生事业有着深远的意义。
[0004] 目前,国内外一致认为肝脏组织活检病理学检查是精确诊断肝硬化的“金标准”。然而,该项检查属于有创检查,存在取材误差和并发症,难于被患者接受;特别是无法反复多次进行,不利于动态观察患者的病情进展。为了克服肝脏组织活检病理学检查的缺陷,国外研究出了一整套关于肝硬化无创性筛查的方法,这些无创性方法在评价肝硬化程度、辅助制定治疗策略以及选择治疗时机上都起到了重要作用。根据诊断指标的类型,可将这些方法分为血清学筛查法和影像学筛查法。
[0005] 血清学筛查包括直接标志物、间接标志物。直接标志物反映了肝脏细胞外基质的沉积和清除情况;间接标志物反应肝功能的改变。目前基于血清学的筛查模型是基于多种血清学标志物的综合模型。具体的方法有:Fibrotest、Forns、APRI、FIB-4、Hepascore、Fibrometer、ELF、Fibroindex、Hui模型、zeng模型。在这些方法中仅有Fibrotest、Fibroindex、Hui模型和zeng模型被用于乙肝肝硬化的无创性筛查,其他方法则只用于丙肝肝硬化的无创性筛查。
[0006] 作为上述方法中典型代表的Fibrotest方法选取的指标有:血中载脂蛋白A1、a2巨球蛋白、结合珠蛋白、γ-谷酰转肽酶(γ-glutamyl transpeptidase,γ-GT)和总胆红素5项指标,再结合年龄、性别和体质指数进行调整。Myers等对61例纤维化分期为F2~F4的乙肝感染者进行研究,证实了Fibrotest可以筛查出显著肝纤维化,减少了46%的肝穿刺率并保证了92%的准确率。Fibrotest可以很好的区分轻度和重度肝硬化,但是对纤维化的逐级评估较为困难。张文胜等提出的Fibroindex方法以270例慢性乙肝患者血清学指标与肝穿病理对照,建立了一个由年龄、血小板计数、γ-GT和透明质酸4项指标构成的判别肝纤维化程度的指数模型,模型中的HA是进行CLC诊断的最佳标志物,但是由于血清透明质酸检验存在漏诊问题,也降低了Fibroindex模型的准确性。而Hui模型与Zeng模型的准确度还有待进一步验证。
[0007] 血清学检测在临床上有95%的高应用率、良好的重复使用性以及低费用的特点。但是有些指标并不仅是肝脏特异性指标,一些合并症会造成相近的指标值,这时则需要结合多种辅助方法进行测定,保证检测结果的准确性。例如Gilbert综合征或溶血症患者在做Fibrotest和Hepascore时会有假阳性结果,因为这部分患者有高血胆红素症。类似的还有急性肝炎患者的天冬氨酸-血小板比值指数(APRI)也会产生假阳性结果,有时还要利用Forns指数、FIB-4、或纤维蛋白检测(Fibrometertest)测试,检测转氨酶平。总之,血清学检测在临床上虽然具有高可用度,但是其血清指标的复杂度导致需要结合多种辅助方法配合使用。
[0008] 影像学筛查法根据检查手段主要分为超声筛查法和核磁共振筛查法。
[0009] 在超声筛查方面,瞬时弹图像(Transient Elastography,TE)以及最近被引入临床使用的声脉冲辐射力成像(ARFI)都取得了较好的效果。在过去的十年里,瞬时弹力图像(TE)在肝硬化的各个阶段都被证明是较为有效的方法。其优点是高精确性、高可用性和良好预后判断能力。但是,其最大的局限性表现为:只有80%的病人可以使用TE方法,并且当病人有肥胖、腹水情况下不可使用。此外,该方法需要借助特定的仪并要求操作人员具有一定的实际使用经验。特别地,对于中度肝纤维化,这种方法很难描述。另一方面,ARFI方法具有与TE相似的性能且检测范围更小、具有更高的可用性。ARFI在普通超声机器上就可以实现,比TE的使用限制条件更少,可以用于有腹水或者肥胖的病人。但是,ARFI这种方法的准确度有待验证,与TE一样,对于肝纤维各阶段化无法描述,也无法评估预后情况。
[0010] 核磁共振(Magnetic Resonance,MR)成像技术在筛查代偿期肝硬化方面,甚至比TE要有更好的效果和更好的适用性。但是所取得的效果还有待进一步验证。由于需要利用造影剂来提高其准确性,使得用MR来辅助筛查需要支付高额的检查费用。此外,MR方法的等待时间很长,很少有病人愿意使用此方法。对于体内有金属植入物的患者,MR方法的效果会受到影响,因此在临床应用上有较大的局限性。
[0011] 一些国际研究中心研究表明,就TE、ARFI以及肝脏组织活检病理学检查在肝纤维化各个阶段的效果而言,TE的效果最好。但是当肝纤维化程度较重甚至出现硬化时,各种方法的效果则差不多。
[0012] 总之,肝硬化无创性筛查方法在实际临床上有着高应用率、可重复性以及易于推广等优点。近些年来,通过临床研究的不断深入和各项新技术的开展,肝硬化无创性筛查方法将会越来越准确地预测、分析肝纤维化程度,为临床诊断以及治疗方案的制定起到了重要的辅助作用。
[0013] 随着乙肝随访与临床科研平台的建立,未来我国对于相关研究的重点将是通过对临床大样本的研究,建立肝硬化无创筛查模型并动态评估病情进展,在电子数据平台建立的基础上,利用大数据分析技术,为乙肝肝硬化治疗提出更为科学合理的方案。
[0014] 如今,计算机技术已广泛深入领域,特别是医疗行业。在大数据时代,如何运用计算机技术对现有医疗大数据进行分析,从中获取知识模型辅助临床诊断是现阶段医疗信息化的热点方向。决策树算法以其简单、有效和便于理解等特点已广泛应用于医疗领域。但决策树并不是稳定的算法,因此常常被用于集成学习框架中的基分类器。其典型代表随机森林(Random Forest)就是一种基于决策树的集成分类算法。随机森林由多棵决策树构成,其中每一棵决策树都是在数据集的一个抽样副本集上训练得到的。这些抽样副本集又称为袋子(Bag),每一袋的样本数量与原始数据集的样本数量相同。在创建子树的每个结点过程中,根据Gini指数从一个随机选择的特征子集中选择最优特征用于分裂。随机选择的特征子集所包含的特征数量作为随机森林的入口参数由用户提供。最终的分类结果通过集成每个子树的分类结果给出。
[0015] 在随机森林中,随机化的方法主要有以下两种方式:(1)采用Bootstrap自助采样方法从原始数据集中进行有放回地抽样。(2)随机化的特征选择方式。通过使用随机化的方法,可以降低森林中每个子树的相关性,提升随机森林的整体泛化能力。
[0016] 在医疗领域,随机森林被广泛应用。使用随机森林对脑肿瘤患者进行了预测,提高了预测精度。对比了分别用罗杰斯特回归和随机森林估计关于肠炎沙氏菌感染的病例人群病因分值的有效性,结果显示随机森林比罗杰斯特回归产生了更好的效果。利用随机森林通过心率变异性来评估胎儿成熟年龄。综上所述,随机森林已在医疗领域得到了广泛的应用,是一种较为成熟的分类模型。
[0017] 然而,就现有的随机森林算法而言,由于采用Gini指数来选择分裂节点构建决策树,使得构建的决策树对非均衡类分布敏感,从而导致随机森林分类性能整体下降。主要原因在于:当数据集中类分布不均衡时,数据集中所含样本的混杂程度就会降低,特别当类分布高度倾斜时,混杂程度还会进一步降低。这时利用Gini指数选择分裂属性时,可能会出现混杂度减少量(增益)很小甚至负增长,从而无法有效选择分裂属性,最终导致决策树过早地停止生长,进而无法有效划分出少数类样本。
[0018] 另一方面,目前国内外在肝硬化无创性筛查方法方面已经取得了长足的进步,并且随着新的医疗技术的开展,这一进步还将进一步扩大;但是这些无创性筛查模型多为单类别指标且模型多为所选取指标的线性组合,忽略了实际中往往还存在非线性关系这一事实。

发明内容

[0019] 为解决上述现有技术中的不足,本发明的目的是提供一种基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法,该方法采集南京江北人民医院近三年来的乙肝患者和代偿期肝硬化患者的血清指标和B超的影像学特征等数据建立样本数据库,借助基于Hellinger距离的随机森林算法建立一个无创性乙肝代偿期肝硬化的预警模型。
[0020] 本发明的目的是采用下述技术方案实现的:
[0021] 本发明提供一种基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法,其改进之处在于,所述方法包括下述步骤:
[0022] (1)数据采集
[0023] (2)数据预处理;
[0024] (3)建立基于随机森林算法的乙肝代偿期肝硬化筛查分类模型;
[0025] (4)测试并评价分类模型。
[0026] 进一步地,所述步骤(1)中,分别采集乙肝、乙肝代偿期肝硬化患者信息,其包括血清指标和B超的影像;对重复住院患者只取其第一次入院数据,并排除以下病例:重叠其他肝炎病毒感染、合并甲状腺疾病或自身免疫性疾病以及其它任何不适合此项研究情况的患者;
[0027] 采集的血清指标包括:白蛋白、高密度脂蛋白、低密度脂蛋白、总胆红素、直接胆红素、谷丙转氨酶、谷草转氨酶、血清Ⅳ型胶原测定、血清Ⅲ型胶原测定、层黏蛋白、血清透明质酸酶测定、红细胞压积、红细胞计数、白细胞计数、血小板、血红蛋白、中性粒细胞绝对值、淋巴细胞绝对值、单核细胞绝对值、嗜酸性粒细胞绝对值、嗜性粒细胞绝对值、均红细胞体积、平均血红蛋白量、平均血红蛋白浓度、红细胞分布宽度、平均血小板体积、血小板分布宽度、凝血酶原时间、白球比、凝血酶原活动度、血小板比积;
[0028] B超的影像学特征,包括:肝静脉特征:1):正常、2):模糊、3):狭窄;肝实质回声特征;1):分布均匀、2):分布不均匀、3):斑状、网状、索状或结节状强回声光团;肝脏表面形态特征:1):正常、2):不规则、3):锯齿状、波状或结节状;、肝脏边缘特征:1):正常、2):尖端变钝,但肝左叶形态正常、3):极度钝化,肝左叶失去正常形态;胆囊壁特征:1):正常、2):毛糙、3):增厚或双边征;脾脏面积特征:1):22cm以下、2):22cm—28cm、3):28cm以上。
[0029] 数据集的特征:在初步收集了南京江北人民医院近三年的乙肝患者和代偿期肝硬化患者的血清指标和B超的影像学特征等样本数据后,发现慢性乙肝患者数为425例,代偿期肝硬化患者仅为36例。由此可以看出总体类分布应该是一个高度非均衡类分布。在这里用多数类表示慢性乙肝患者,用少数类表示代偿期肝硬化患者。对于现有的随机森林算法而言,由于采用Gini指数来选择分裂节点构建决策树,使得构建的决策树对非均衡类分布敏感,从而导致随机森林分类性能整体下降。主要原因在于:当数据集中类分布不均衡时,数据集中所含样本的混杂程度就会降低,特别当类分布高度倾斜时,混杂程度还会进一步降低。这时利用Gini指数选择分裂属性时,可能会出现混杂度减少量(增益)很小甚至负增长,从而无法有效选择分裂属性,最终导致决策树过早地停止生长,进而无法有效划分出少数类样本即代偿期肝硬化患者。因此,根据所采集的数据集特征,使用基于Hellinger距离的随机森林算法模型建立一个无创性乙肝代偿期肝硬化的预警模型。
[0030] 进一步地,所述步骤(2)中,对所收集的病例样本数据进行过滤和清洗工作,对于缺失的连续型数据,则采用均值法补全;对于缺失的离散型数据则赋予同类样本中出现频率最高的离散值。
[0031] 进一步地,所述步骤(3)中,依据Hellinger距离计算,编制基于Hellinger距离的随机森林算法模型;运用5×2折交叉验证方法训练模型并验证之;在交叉验证过程中,每个数据集被分成数量相等的两个子集,两个实验分别在每个子集上运行,其中一个子集用于训练,另一个子集用于测试;整个过程迭代5次,最后取10个实验的平均结果作为最终结果;所述步骤(3)包括下述步骤:
[0032] ①采用Bootstrap方法从原始数据集中有放回地抽取数量相同的样本作为副本集;
[0033] ②在副本集上创建决策树;
[0034] ③最终待测样本的分类结果通过集成每个子树的分类结果采用投票表决方式给出。
[0035] 进一步地,所述步骤①中,所述Bootstrap方法指的是从原始数据集中有放回地抽取数量相同的样本作为副本集,也称为自助法。
[0036] 进一步地,所述步骤②中,在创建决策树过程中,根据Hellinger距离从一个随机选择的特征子集中选择具有最大值的特征用于分裂;随机选择的特征子集所包含的特征数量作为随机森林的入口参数由用户提供;
[0037] 进一步地,当使用Hellinger距离作为决策树算法中分裂属性评价指标时,其计算如下所示:
[0038]
[0039] 其中,X表示对应属性;|X+|和|X-|分别表示数据集中代偿期肝硬化患者(少数类)和慢性乙肝患者(多数类)的例数;|X+j|和|X-j|表示属性X的值为j且分别属于代偿期肝硬化患者(少数类)和慢性乙肝患者的病例数(多数类);p表示属性X具有不同值的个数;所得之值表示属性X对代偿期肝硬化患者(少数类)和慢性乙肝患者(多数类)的区分能力,该值越大表明区分能力越强。
[0040] 进一步地,所述步骤③中,增加随机森林算法的输出方式即在原有通过投票表决法来决定输出值(其输出值为是或者否)的基础上增加概率连续值的输出方式,以评估乙肝患者的病情进展和预后情况;
[0041] 假设建立的模型中包含N棵子树,其中预测值为是,即预测为代偿期肝硬化的子树有K棵,K≤N,则概率P=K/N;当P值较大时,说明患者患肝硬化的可能性较大,考虑行肝脏组织活检病理学检查;另一方面,通过P值来评估乙肝患者的病情进展和预后情况。
[0042] 进一步地,所述步骤(4)中,分别应用受试者工作特征曲线和精度召回率曲线下面积AUroc和AUprc作为所建立模型的评价指标;
[0043] 受试者工作特征曲线即ROC曲线是以真正率即灵敏度TPrate为纵坐标,假正率即特异度FPrate为横坐标绘制的曲线;ROC曲线以可视化的方式反映出收益和代价,即真正率和假正率之间的平衡关系。在ROC空间,对线代表一个随机分类器,点(0,1)表示一个理想的最佳分类器。
[0044] 精度召回率曲线即PR曲线以精度Precision为纵坐标,召回率Recall为横坐标绘制的曲线。在PR空间,精度=0.5的直线代表一个随机分类器,点(1,1)表示一个理想的最佳分类器。PRC与ROC曲线存在很强的联系,即如果一个分类算法在PR空间上具有优势,那么该算法在ROC空间同样具有优势,反之不一定成立。特别在面对高度非均衡问题时,PR曲线给出更加合理的结果,而ROC曲线则会给出过于乐观的结果。这主要是由于高度非均衡问题中,多数类样本个数要远远大于少数类样本个数,而多数类样本被错分个数的增加并不会显著改变FPrate即ROC曲线并不能准确反应这一现象。而PR曲线对应的精度指标可以准确扑捉这一现象。因此,PR曲线更加适合在高度非均衡分类应用场景下评价分类算法的性能。
[0045] 为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0046] 与最接近的现有技术相比,本发明提供的技术方案具有的优异效果是:
[0047] 本发明提供的方法采集南京江北人民医院近三年来的乙肝患者和代偿期肝硬化患者的血清指标和B超的影像学特征等数据建立样本数据库,借助随机森林算法建立一个无创性乙肝代偿期肝硬化的预警模型。该模型应具有以下意义:
[0048] (1)模型能够有效地预测出乙肝患者(待测样本)是否处于代偿期肝硬化。
[0049] (2)模型能够有效地给出出乙肝患者(待测样本)处于代偿期肝硬化的概率值,该值也可以用于评估乙肝患者的病情进展和预后情况。
[0050] (3)传统无创评估模型仅限于各种指标间线性组合。通常情况下,各种指标之间并不一定符合线性关系,因此建立的模型能够表达不同指标之间的非线性关系。
[0051] (4)传统的无创评估模型都无法根据新增样本进行修正,特别是一些通过线性回归建立的模型。本模型支持通过新增样本进行重新学习,不断优化模型结构,提高模型的泛化能力。
[0052] (5)通过该模型的评估,可以减少不必要的肝脏组织活检病理学检查;但对于预测为代偿期肝硬化的乙肝患者,可以考虑通过肝脏组织活检病理学检查来确诊。
[0053] (6)将血清指标与B超的影像学特征结合起来建立混合指标模型,提高了模型的泛化能力。
[0054] 带来了经济效益和社会效益:
[0055] (1)经济效益:
[0056] ①由于减少了不必要的肝脏组织活检病理学检查,降低了检查成本,吸引更多的乙肝患者前来就诊。
[0057] ②在模型达到一定预测精度的基础上,可以联合其他项目开展相关检查,增加收入。
[0058] (2)社会效益:
[0059] ①由于减少了不必要的肝脏组织活检病理学检查,减少了医生工作量。
[0060] ②降低看病成本,减轻了部分患者的痛苦,减少了医患矛盾。
[0061] ③利用模型的辅助功能,使得医生可以完成初步诊断。
[0062] ④模型的筛查功能可以辅助于临床教学。
[0063] 应用趋向和推广应用单位:本实施例在南京江北人民医院实现建模并系统化,待系统稳定和成熟后可推广到其他医院。
[0064] 在初步收集了南京江北人民医院近三年的乙肝患者和代偿期肝硬化患者的血清指标和B超的影像学特征等样本数据后,发现慢性乙肝患者数为425例,代偿期肝硬化患者仅为36例。由此可以看出总体类分布应该是一个高度非均衡类分布。在这里用多数类表示慢性乙肝患者,用少数类表示代偿期肝硬化患者。对于现有的随机森林算法而言,由于采用Gini指数来选择分裂节点构建决策树,使得构建的决策树对非均衡类分布敏感,从而导致随机森林分类性能整体下降。主要原因在于:当数据集中类分布不均衡时,数据集中所含样本的混杂程度就会降低,特别当类分布高度倾斜时,混杂程度还会进一步降低。这时利用Gini指数选择分裂属性时,可能会出现混杂度减少量(增益)很小甚至负增长,从而无法有效选择分裂属性,最终导致决策树过早地停止生长,进而无法有效划分出少数类样本即代偿期肝硬化患者。
[0065] 为了上述以及相关的目的,一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面,并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显,所公开的实施例是要包括所有这些方面以及它们的等同。

附图说明

[0066] 图1是本发明提供的基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法的流程图
[0067] 图2是本发明提供的基于随机森林算法实验数据显示图。

具体实施方式

[0068] 下面结合附图对本发明的具体实施方式作进一步的详细说明。
[0069] 以下描述和附图充分地显示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的组件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,本发明的这些实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。
[0070] 本发明拟采用基于Hellinger距离的随机森林算法通过南京江北人民医院近三年来收集的乙肝患者和代偿期肝硬化患者的血清指标和B超的影像学特征等样本数据建立一个无创性乙肝代偿期肝硬化的预警模型。通过该模型,不但能够有效地预测乙肝患者(待测样本)是否处于代偿期肝硬化,而且还能够评估乙肝患者的病情进展和预后情况。通过该模型的评估,可以减少不必要的肝脏组织活检病理学检查。
[0071] (1)数据采集:
[0072] 本实施例以南京江北人民医院感染科自2013年以来的住院电子病历数据为来源,分别采集乙肝、乙肝代偿期肝硬化患者信息,其包括血清指标和B超的影像。对重复住院患者只取其第一次入院数据。排除以下病例:重叠其他肝炎病毒感染、合并甲状腺疾病或自身免疫性疾病以及其它任何不适合此项研究情况的患者。采集的血清指标包括:白蛋白、高密度脂蛋白、低密度脂蛋白、总胆红素、直接胆红素、谷丙转氨酶、谷草转氨酶、血清Ⅳ型胶原测定、血清Ⅲ型胶原测定、层黏蛋白、血清透明质酸酶测定、红细胞压积、红细胞计数、白细胞计数、血小板、血红蛋白、中性粒细胞绝对值、淋巴细胞绝对值、单核细胞绝对值、嗜酸性粒细胞绝对值、嗜碱性粒细胞绝对值、均红细胞体积、平均血红蛋白量、平均血红蛋白浓度、红细胞分布宽度、平均血小板体积、血小板分布宽度、凝血酶原时间、白球比、凝血酶原活动度、血小板比积;
[0073] B超的影像学特征包括:肝静脉(1:正常、2:模糊、3:狭窄),肝实质回声(1:分布均匀、2:分布不均匀、3:斑状、网状、索状或结节状强回声光团)、肝脏表面形态(1:正常、2:不规则、3:锯齿状、波状或结节状)、肝脏边缘(1:正常、2:尖端变钝,但肝左叶形态正常、3:极度钝化,肝左叶失去正常形态)、胆囊壁(1-正常、2-毛糙、3-增厚或双边征)、脾脏面积(1:22cm以下、2:22cm—28cm、3:28cm以上)。
[0074] 数据集的特征:在初步收集了南京江北人民医院近三年的乙肝患者和代偿期肝硬化患者的血清指标和B超的影像学特征等样本数据后,发现慢性乙肝患者数为425例,代偿期肝硬化患者仅为36例。由此可以看出总体类分布应该是一个高度非均衡类分布。在这里用多数类表示慢性乙肝患者,用少数类表示代偿期肝硬化患者。对于现有的随机森林算法而言,由于采用Gini指数来选择分裂节点构建决策树,使得构建的决策树对非均衡类分布敏感,从而导致随机森林分类性能整体下降。主要原因在于:当数据集中类分布不均衡时,数据集中所含样本的混杂程度就会降低,特别当类分布高度倾斜时,混杂程度还会进一步降低。这时利用Gini指数选择分裂属性时,可能会出现混杂度减少量(增益)很小甚至负增长,从而无法有效选择分裂属性,最终导致决策树过早地停止生长,进而无法有效划分出少数类样本即代偿期肝硬化患者。因此,根据所采集的数据集特征,使用基于Hellinger距离的随机森林算法模型建立一个无创性乙肝代偿期肝硬化的预警模型。
[0075] (2)数据预处理:
[0076] 对所收集的病例样本进行过滤、清洗工作,对于缺失的连续型数据,则采用均值法补全。对于缺失的离散型数据则赋予同类样本中出现频率最高的离散值。
[0077] (3)编制程序并建立分类模型:
[0078] 依据Hellinger距离计算公式,编制基于Hellinger距离的随机森林算法模型。在此基础上,运用5×2折交叉验证方法训练模型并验证之。在交叉验证过程中,每个数据集被分成数量相等的两个子集,两个实验分别在每个子集上运行,其中一个子集用于训练,另一个子集用于测试。整个过程迭代5次,最后取10个实验的平均结果作为最终结果。
[0079] 采用基于Hellinger距离的随机森林算法来建立一个无创性乙肝代偿期肝硬化的预警模型。该森林由多棵决策树构成,其中每一棵决策树都是在数据集的一个抽样副本集上训练得到的。具体步骤如下:
[0080] ①采用Bootstrap方法从原始数据集中有放回地抽取数量相同的样本作为副本集:
[0081] ②在副本集上创建决策树。在建树过程中,根据Hellinger距离从一个随机选择的特征子集中选择具有最大值的特征用于分裂;随机选择的特征子集所包含的特征数量作为随机森林的入口参数由用户提供;当使用Hellinger距离作为决策树算法中分裂属性评价指标时,其计算如下所示:
[0082]
[0083] 其中,X表示对应属性;|X+|和|X-|分别表示数据集中代偿期肝硬化患者(少数类)和慢性乙肝患者(多数类)的例数;|X+j|和|X-j|表示属性X的值为j且分别属于代偿期肝硬化患者(少数类)和慢性乙肝患者的病例数(多数类);p表示属性X具有不同值的个数。所得之值表示属性X对代偿期肝硬化患者(少数类)和慢性乙肝患者(多数类)的区分能力,该值越大表明区分能力也越强。由于式中没有子式与类别的先验概率相关,因此上式具有对非均衡类分布不敏感的特点。
[0084] ③最终待测样本的分类结果通过集成每个子树的分类结果采用投票表决方法给出。
[0085] 增加原有随机森林算法的输出方式。原有随机森林算法通过投票表决法来决定输出值,其输出值为‘是’或者‘否’。为了评估乙肝患者的病情进展和预后情况,需要增加概率连续值的输出方式。假设建立的模型中包含N棵子树,其中预测值为‘是’即预测为代偿期肝硬化的子树有K棵(K≤N),则概率P=K/N。当P值较大时,说明患者患肝硬化的可能性较大,可考虑行肝脏组织活检病理学检查。另一方面,也可以通过P值来评估乙肝患者的病情进展和预后情况。
[0086] (4)测试、评价模型:
[0087] 采用受试者工作特征曲线(Receiver Operating Characteristic Curve,简称ROC曲线)和精度召回率曲线(PR曲线)(Precision-Recall Curves)的曲线下面积AUroc和AUprc作为所建立模型的评价指标。从而从多各方面来评判所建立模型的分类性能和可靠性。
[0088] 受试者工作特征曲线(ROC曲线)是以真正率(灵敏度,TPrate)为纵坐标,假正率(特异度,FPrate)为横坐标绘制的曲线。ROC曲线以可视化的方式反映出收益(真正率)和代价(假正率)之间的平衡关系。在ROC空间,对角线代表一个随机分类器,点(0,1)表示一个理想的最佳分类器。空间中的每个点表示一个使用某个决策值的分类器的性能,通过改变不同的决策阀值就可以得到一个关于某个分类器的ROC曲线。然而,仅凭借ROC曲线并不容易比较出分类算法的性能除非曲线上的每个点都位于另一条曲线之上。因此,通常使用ROC曲线下面积(the Area under the ROC Curve,AUC)度量分类器的性能。该值范围为[0,1],0.5表示一个随机分类器,该值越大表示分类器的分类性能越好。
[0089] 精度召回率曲线(PR曲线)(Precision-Recall Curves)以精度(Precision)为纵坐标,召回率(Recall)为横坐标绘制的曲线。在PR空间,点(1,1)表示一个理想的最佳分类器。精度=0.5的直线代表一个随机分类器,PRC与ROC曲线存在很强的联系,即如果一个分类算法在PR空间上具有优势,那么该算法在ROC空间同样具有优势,反之不一定成立;特别在面对高度非均衡问题时,PR曲线给出更加合理的结果,而ROC曲线则会给出过于乐观的结果。这主要是由于高度非均衡问题中,多数类样本个数要远远大于少数类样本个数,而多数类样本被错分个数的增加并不会显著改变FPrate即ROC曲线并不能准确反应这一现象。而PR曲线对应的精度指标可以准确扑捉这一现象。因此,PR曲线更加适合在高度非均衡分类应用场景下评价分类算法的性能。
[0090] 在最后模型的验证中,AUroc和AUprc分别达到0.83和0.984。具体实验结果如表1所示。
[0091] 表1参与实验的各种方法在两种度量指标下的实验结果
[0092]
[0093] 通过计算ROC曲线和PRC曲线下面积的方法来综合评价该分类模型的有效性。实验中将所提出的基于Hellinger距离的随机森林与随机森林、平衡的随机森林分别以ROC曲线和PR曲线下面积为评价指标相比较。整个实验参数设置如下:(1)根据Breiman的推荐,参与实验的所有集成分类器都设置为100次迭代即有100棵子树。(2)对于三种随机森林算法,在建树的每个结点,随机选择的特征子集中所包含特征的个数被设置为2,因为这一设置获得了最好的排名结果。整体实验框架如图1所示。此外,从图2中可以看出,基于Hellinger距离的随机森林算法在所收集的乙肝患者数据集上比随机森林、平衡的随机森林算法取得了更好的分类性能。
[0094] 本实施例建立的模型能够表达不同指标之间的非线性关系,从而可以克服传统无创评估模型中各项指标只有线性关系表示的不足。
[0095] 本实施例建立的模型支持通过新增样本进行重新学习,从而不断优化模型结构,提高模型的泛化能力,克服了传统的无创评估模型都无法根据新增样本进行修正的缺点。
[0096] 本实施例将血清指标与B超的影像学特征结合起来建立混合指标模型,提高了模型的泛化能力。
[0097] 本实施例选择已在医疗领域广泛应用的随机森林算法为基本框架,通过改进其对非均衡类分布敏感的特性,生成符合总体类分布的分类模型。在类分布非均衡的情况下,结合国内外的最新研究成果和实际存在的医学分类问题,提出一种基于Hellinger距离的随机森林算法,以填补数据挖掘技术在肝硬化无创性筛查方面的研究空白。
[0098] 应用本发明提供的方法,可以根据乙肝患者和代偿期肝硬化患者的血清指标和B超的影像学特征等样本数据建立一个无创性乙肝代偿期肝硬化的预警模型。通过该模型,不但能够有效地预测乙肝患者(待测样本)是否处于代偿期肝硬化,而且还能够评估乙肝患者的病情进展和预后情况。通过该模型的评估,可以减少不必要的肝脏组织活检病理学检查。
[0099] 应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
[0100] 在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
[0101] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈