首页 / 专利库 / 病理 / 结直肠癌 / 一种结直肠癌微生物标志物及其应用

一种结直肠癌生物标志物及其应用

阅读:213发布:2020-05-13

专利汇可以提供一种结直肠癌生物标志物及其应用专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种 结直肠癌 微 生物 标志物及其应用,所述微生物标志物包括粪杆菌属(Faecalibacterium)、链球菌属(Streptococcus)和梭菌属(Fusobacterium)。本发明的结直肠癌微生物标志物预测结直肠癌 风 险精确度高,灵敏性好,只需要获取肠道微生物标志物的丰度,通过模型计算给出风险预警,评估患结直肠癌的可能性,可以用于 预防 警示受试者和提示其是否有必要进一步诊断确诊,还有利于个体通过调整饮食或医疗界入改善肠道菌微环境,从而减少个体患结直肠癌的风险。,下面是一种结直肠癌生物标志物及其应用专利的具体信息内容。

1.一种结直肠癌生物标志物,其特征在于,所述微生物标志物包括粪杆菌属(Faecalibacterium)、链球菌属(Streptococcus)和梭菌属(Fusobacterium)。
2.根据权利要求1所述的结直肠癌微生物标志物,其特征在于,所述微生物标志物还包括普雷沃菌属(Prevotella)、副拟杆菌属(Parabacteroides)、爱格士氏菌属(Eggerthella)、放线菌属(Actinomyces)、别样杆菌属(Alistipes)、乳杆菌属(Lactobacillus)、小类杆菌属(Dialister)或小单胞菌属(Parvimonas)中的任意一种或至少两种的组合,优选为至少两种的组合,进一步优选为普雷沃菌属(Prevotella)和副拟杆菌属(Parabacteroides)的组合;
优选地,所述微生物标志物包括粪杆菌属(Faecalibacterium)、链球菌属(Streptococcus)、梭菌属(Fusobacterium)、普雷沃菌属(Prevotella)、副拟杆菌属(Parabacteroides)、爱格士氏菌属(Eggerthella)、放线菌属(Actinomyces)、别样杆菌属(Alistipes)、乳杆菌属(Lactobacillus)、小类杆菌属(Dialister)和小单胞菌属(Parvimonas)。
3.一种检测如权利要求1或2所述的结直肠癌微生物标志物的试剂
4.一种如权利要求1或2所述的结直肠癌微生物标志物或权利要求3所述的试剂的用途,其特征在于,所述用途包括用于构建预测结直肠癌险的模型,制备结直肠癌的肿瘤诊断的试剂,或制备结直肠癌诊断试剂盒
5.一种预测结直肠癌风险的模型,其特征在于,所述模型的输入变量为权利要求1或2所述的结直肠癌微生物标志物的丰度;
优选地,所述结直肠癌微生物标志物丰度的测定方法包括宏基因组测序、16S测序或qPCR定量检测中的任意一种或至少两种的组合。
6.一种如权利要求4或5所述的模型构建方法,其特征在于,包括如下步骤:
(1)分别检测健康个体和结直肠癌患者粪便样本中的如权利要求1或2所述微生物标志物的细菌丰度;
(2)将步骤(1)所得数据分为训练集和测试集,输入机器学习模型,优化参数,用训练集训练,用测试集测试,存储模型。
7.根据权利要求6所述的模型构建方法,其特征在于,步骤(2)所述机器学习模型包括Logistic回归、支持向量机随机森林或Xgboost中的任意一种,优选为Xgboost。
8.根据权利要求6所述的模型构建方法,其特征在于,步骤(2)所述优化参数为根据交叉验证进行参数优化。
9.根据权利要求6所述的模型构建方法,其特征在于,所述方法包括如下步骤:
(1)分别检测健康个体和肠癌患者粪便样本中的如权利要求2所述微生物标志物的细菌丰度;
(2)将步骤(1)所得数据分为训练集和测试集,输入Xgboost模型,根据交叉验证进行参数优化,用训练集训练,用测试集测试,存储模型。
10.一种试剂盒,其特征在于,所述试剂盒包括如权利要求3所述的试剂。

说明书全文

一种结直肠癌生物标志物及其应用

技术领域

[0001] 本发明属于微生物领域,涉及一种结直肠癌微生物标志物及其应用。

背景技术

[0002] 结直肠癌为常见的恶性肿瘤,由于人的生活环境与生活习惯的改变,近年来结直肠癌发病率不断攀升。该肿瘤可能发生在结肠或直肠的任何部位,可以通过淋巴、血液循环及直接蔓延等途径,扩散到其他组织和脏器。肠癌早期没有明显症状,等到发现问题时,基本已是晚期,治愈率仅有5%—40%。早期筛查可有效降低肠癌发病率和死亡率。医生建议40岁以上的人群应每年筛查一次;40岁以下人群也应每3—5年筛查一次。
[0003] 结直肠癌目前的筛查方法包括:创木脂化学法粪隐血试验、免疫化学粪隐血试验,粪便DNA检测,血清癌胚抗原检测,弯曲乙状结肠镜检查、CT仿真内镜、气钡双重造影、结肠镜检查等。创木脂化学法粪隐血试验、免疫化学粪隐血试验筛查方法虽然无创,廉价,但是准确性低,传统的愈创木脂法大便隐血试验(gFOBT)仅能检测到30~50%的大肠癌和10~30%的癌前腺瘤,新式的免疫化学法大便隐血试验(iFOBT)也只能检测到50~60%的大肠癌和30%左右的癌前腺瘤,需要多次筛查综合比较,操作繁琐,受试者承受较大的心里负担;粪便DNA检测虽然经过不断优化,灵敏度和精度上升,但是只适用于大便潜血检测阳性者,且样品处理复杂,因为粪便样本中99.99%的DNA都来源于细菌和食物,只有0.01%来源于大肠上皮和肿瘤细胞。血清癌胚抗原检测无法准确定位到结直肠癌;CT仿真内镜与气钡双重造影只适用于大的病变,无法检出小肿瘤。结肠镜检查为创伤性侵入性检查,比较痛苦,侵入性强,受试者检查意愿低。以上癌症早筛旨在早期筛查出结直肠癌,并不能给出个体患结直肠癌的险,以起到提前预防干预协助治疗的作用。
[0004] CN108064273A公开了一种用于预测与微生物相关的疾病的生物标志物,但该发明的生物标志物组合存在随机性,且对疾病的预测需要宏基因组测序分析读段的丰度,只限定于特定片段,对数据要求较高,实验过程和操作成本高,不利于技术的应用。
[0005] CN107904286A公开了一种结直肠癌微生物标志物及其应用,所述标志物包括微生物,所述微生物包括链球菌(Treptococcus bovis)、腐败梭菌(Clostridium septicum)、微单胞菌属(Parvimonas micra)或幽螺杆菌(Helicobacter pylori)中的任意一种或至少两种的组合。该发明的结直肠癌微生物标志物具有作为结直肠癌标志物的潜能,所述标志物在结直肠癌患者的粪便样本中的含量显著高于在健康个体的粪便样本中的含量,具有非侵入性辅助诊断结直肠癌的作用。但该标志物组合仅能用于预测肠癌,且灵敏度不高。
[0006] WO2018/170396A1公开了通过16S测序并聚类为OTU(operational taxonomic unit最小操作分类单位),并将这些OTU输入随机森林预测结直肠癌,其筛选出了部分OTU的相对值作为标志物,并将OTU注释到菌种甚至是品种级别,事实上菌种级别的16S片段的序列是非常接近的,会存在区分不清的情况,其专利中的标志物OTU到达种和品种时是未分类状态的。属及以上的区分则较为准确。不精确的注释使大多数专利中的标志物适用于16S测序上,在宏基因组或者其他定量菌类丰度的方法上的通用性不强。
[0007] 因此,提供一种特异性好、灵敏度高、能指示肠道细菌含量平衡状态、指导肠道菌群调节的结直肠癌微生物标志物具有重要意义。

发明内容

[0008] 针对现有技术的不足及实际的需求,本发明提供一种结直肠癌微生物标志物及其应用,本发明的结直肠癌微生物标志物预测结直肠癌风险精确度高,灵敏性好,只需要获取肠道微生物标志物的丰度,通过模型计算给出风险预警,可作为协助诊断,指导肠道微生物环境的调整。
[0009] 为达此目的,本发明采用以下技术方案:
[0010] 第一方面,本发明提供一种结直肠癌微生物标志物,所述微生物标志物包括所述微生物标志物包括粪杆菌属(Faecalibacterium)、链球菌属(Streptococcus)和梭菌属(Fusobacterium)。
[0011] 本发明的结直肠癌微生物标志物灵敏度高,特异性好,三种菌属的配合即可有助于协助诊断或预警结直肠癌的患病风险,可用于肠癌早期筛查,后期应用广泛。
[0012] 优选地,所述微生物标志物还包括普雷沃菌属(Prevotella)、副拟杆菌属(Parabacteroides)、爱格士氏菌属(Eggerthella)、放线菌属(Actinomyces)、别样杆菌属(Alistipes)、乳杆菌属(Lactobacillus)、小类杆菌属(Dialister)或小单胞菌属(Parvimonas)中的任意一种或至少两种的组合,例如可以是普雷沃菌属(Prevotella)和副拟杆菌属(Parabacteroides)的组合,爱格士氏菌属(Eggerthella)、放线菌属(Actinomyces)和别样杆菌属(Alistipes)的组合,爱格士氏菌属(Eggerthella)、放线菌属(Actinomyces)、别样杆菌属(Alistipes)和小单胞菌属(Parvimonas)的组合,乳杆菌属(Lactobacillus)和小类杆菌属(Dialister)的组合,优选为至少两种的组合,进一步优选为普雷沃菌属(Prevotella)和副拟杆菌属(Parabacteroides)的组合。
[0013] 优选地,所述微生物标志物包括粪杆菌属(Faecalibacterium)、链球菌属(Streptococcus)、梭菌属(Fusobacterium)、普雷沃菌属(Prevotella)、副拟杆菌属(Parabacteroides)、爱格士氏菌属(Eggerthella)、放线菌属(Actinomyces)、别样杆菌属(Alistipes)、乳杆菌属(Lactobacillus)、小类杆菌属(Dialister)和小单胞菌属(Parvimonas)组合。
[0014] 本发明中,发明人发现,在包含粪杆菌属(Faecalibacterium)、链球菌属(Streptococcus)和梭菌属(Fusobacterium)的情况下,细菌变量数为5种及5种以上时,微生物标志物的灵敏度较高,11种时达到最高。通过细菌种类和数量的配合,所述11个属的特定细菌组合可以进一步提高标志物的特异性和检测灵敏度,可用于早期肠癌筛查,指导肠道菌群调整,预防肠癌发生和发展。
[0015] 第二方面,本发明提供一种检测如第一方面所述的结直肠癌微生物标志物的试剂
[0016] 本发明中,所述试剂可以是针对所述结直肠癌微生物标志物的引物探针组合或其他检测试剂,用以判断所述微生物标志物的丰度。
[0017] 第三方面,本发明提供一种如第一方面所述的结直肠癌微生物标志物或第二方面所述试剂的用途,所述用途包括用于构建预测结直肠癌风险的模型,制备结直肠癌的肿瘤诊断的试剂,或制备结直肠癌诊断试剂盒
[0018] 第四方面,本发明提供一种预测结直肠癌风险的模型,所述模型的输入变量为第一方面所述的结直肠癌微生物标志物的丰度。
[0019] 优选地,所述结直肠癌微生物标志物丰度的测定方法包括宏基因组测序、16S测序或qPCR定量检测中的任意一种或至少两种的组合。
[0020] 本发明将某一类细菌丰度作为预测指标,因此,不管是用宏基因组测序定量,还是16S测序定量,甚至是qPCR定量,皆可作为测量手段,多样化了定量手段,打破了特定实验设备和实验技能的限制,使某些不具备特定实验设备的实验室也可实验本发明的数据测量和预测。
[0021] 第五方面,本发明提供一种如第四方面所述的模型构建方法,包括如下步骤:
[0022] (1)分别检测健康个体和肠癌患者粪便样本中的如第一方面所述微生物标志物的细菌丰度;
[0023] (2)将步骤(1)所得数据分为训练集和测试集,输入机器学习模型,优化参数,用训练集训练,用测试集测试,存储模型。
[0024] 优选地,步骤(2)所述机器学习模型包括Logistic回归、支持向量机、随机森林或Xgboost中的任意一种,优选为Xgboost。
[0025] 优选地,步骤(2)所述优化参数交叉验证进行参数优化。
[0026] 本发明中交叉验证是在机器学习建立模型和验证模型参数时常用的办法。重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某个样本再下次可能成为测试集中的样本,即所谓“交叉验证”。
[0027] 优选地,所述模型的输出值判定结果如下:
[0028] (A)风险值<0.4判定为健康人,无需调整肠道菌群;
[0029] (B)0.4≤风险值≤0.5判定为健康人,需要调整肠道菌群;
[0030] (C)风险值>0.5判定为结直肠癌高风险人群,建议进行临床诊断。
[0031] 本发明不仅提供了高灵敏性和高特异性的结直肠癌预测模型,以协助早期诊断结直肠癌,而且可展示个体与结直肠癌相关的肠道细菌情况,临床医生可根据个体肠道菌的实际情况给出临床指导意见,例如某些风险值范围的人群,特定肠道菌丰度已接近或超过特定值,可建议通过粪群移植,服用益生菌,改善饮食等方式改善肠道环境以做到提前预防,以减少发生结直肠癌的风险,此外对某些高风险且已确诊患有结直肠癌的患者,也可根据肠道菌情况进行某些必要的肠道微环境治疗。本发明可辅助临床进行结直肠癌的提前预测,早期诊断,对降低结直肠癌发病率,提高其疾病治疗率具有重大的临床意义。
[0032] 优选地,所述方法包括如下步骤:
[0033] (1)分别检测健康个体和肠癌患者粪便样本中的如第一方面所述微生物标志物的细菌丰度;
[0034] (2)将步骤(1)所得数据分为训练集和测试集,输入Xgboost模型,根据交叉验证进行参数优化,用训练集训练,用测试集测试,存储模型。
[0035] 本发明中,采用交叉验证进行参数优化,典型但非限定地可以是scikit-learn(https://scikit-learn.org/stable/index.html)里的GridsearchCV。
[0036] 所述模型的输出值判定结果如下:
[0037] (A)风险值<0.4判定为健康人,无需调整肠道菌群;
[0038] (B)0.4≤风险值≤0.5判定为健康人,需要调整肠道菌群;
[0039] (C)风险值>0.5判定为结直肠癌高风险人群,建议进行临床诊断。
[0040] 本发明中,粪杆菌属(Faecalibacterium)、链球菌属(Streptococcus)、梭菌属(Fusobacterium)、普雷沃菌属(Prevotella)、副拟杆菌属(Parabacteroides)、爱格士氏菌属(Eggerthella)、放线菌属(Actinomyces)、别样杆菌属(Alistipes)、乳杆菌属(Lactobacillus)、小类杆菌属(Dialister)和小单胞菌属(Parvimonas)的组合作为标志物,将所述标志物丰度输入Xgboost模型,训练测试后得到相应的预测结直肠癌风险的模型。本发明的结直肠癌微生物标志物预测结直肠癌风险精确度高,灵敏性好,只需要获取肠道微生物标志物的丰度,通过模型计算给出风险预警,评估患直肠癌的可能性,可以用于预防警示受试者和提示其是否有必要进一步诊断确诊,还有利于个体通过调整饮食或医疗界入改善肠道菌微环境,从而减少个体患结直肠癌的风险。
[0041] 第六方面,本发明提供一种试剂盒,所述试剂盒包括如第二方面所述的试剂。
[0042] 与现有技术相比,本发明具有如下有益效果:
[0043] (1)本发明提供一种结直肠癌微生物标志物,可用于结直肠癌的预测与辅助诊断,检测特异性好,灵敏度高,指示肠道微生物菌群的状况,指导肠道微生态的调整,降低大肠癌的患病率;
[0044] (2)本发明的通过大量筛选得到包含11个特定菌属的微生物标志物,通过构建模型指示肠道特定菌属的含量,协助结直肠癌早期筛查,指导肠道菌微环境的调整;
[0045] (3)本发明的预测结直肠癌风险模型灵敏度好,精确度高,只用特定的种属细菌丰度作为输入指标,不局限于测量手段,只要能获取细菌丰度值的实验手段均支持本模型方法,有利于本发明的模型实现和推广。附图说明
[0046] 图1为本发明研究逻辑框图
[0047] 图2为实施例1中不同模型重复200次随机拆分训练集和测试集,测试集平均结果的ROC曲线;
[0048] 图3为实施例2中针对Xgboost模型进行特征工程筛选得到的ROC分数与特征变量个数的关系图;
[0049] 图4为实施例2中11个特定细菌的重要性图。

具体实施方式

[0050] 为更进一步阐述本发明所采取的技术手段及其效果,以下通过具体实施方式来进一步说明本发明的技术方案,但本发明并非局限在实施例范围内。
[0051] 本发明通过前期筛选运算找到最适模型与特定种属的细菌作为微生物标志物,根据带类标的数据进行模型优化调参,提高模型的精确度和灵敏度,通过输出的风险值进行肠癌早期筛查预测,并可以指示肠道微生物平衡状态,指导个体化肠道菌群调整,降低肠癌患病风险,本发明的具体实施思路见图1。
[0052] 实施例1模型算法的挑选
[0053] 本发明通过大量信息的筛选与匹配,挑选Xgboost为最优模型基础,具体方法如下:
[0054] (1)从欧洲生物信息研究所(European Bioinformatics Institute:EBI)下载结直肠癌和对照健康人的肠道菌群的宏基因组测序数据;
[0055] (2)根据宏基因组数据匹配出不同的肠道菌的丰度数据。为了尽可能的寻找标志物,并考虑宏基因组数据库和16S数据库的匹配性,同时考虑qPCR无法测量含量特别微小的种等原因,本次匹配到达属级别,共有206个属级别的细菌;
[0056] (3)运用机器学习挑选模型算法。监督学习为通过一部分输入数据和输出数据之间的相应关系,生成函数,将输入映射到合适的输出,比如分类。本发明的样本数据都已在临床确诊,带有已分类好的标签,因此将在有监督的机器学习分类模型中进行探索选择。分别将所有样本的细菌丰度值作为输入数据,样本的诊断结果作为输出分类标签。根据以下步骤进行算法构建:
[0057] (1’)将所有数据随机分成75%的训练集和25%的测试集;
[0058] (2’)构建机器学习分类器。用所有细菌(206个种属)的丰度值作为输入数据,先后尝试Logistic回归,支持向量机,随机森林以及Xgboost;
[0059] (3’)交叉验证调参,选取ROC-AUC得分最好的参数;
[0060] (4’)用测试集进行结果验证;
[0061] (5’)模型评价。上述步骤重复200次,得到灵敏性(TPR)集合,和特异性(FPR)序列集合,将平均的TPR和FPR做ROC曲线,计算测试集的平均受试者曲线的曲线下方面积(ROC-AUC)和标准差。选取最高ROC-AUC得分的Xgboost为最佳模型(见图2)。
[0062] 实施例2特定种属的细菌挑选
[0063] (1)Xgboost模型得到变量特征的重要性(Feature-importance)分数(见图4),根据该分数的高低排序,逐步增加细菌变量个数,得到ROC-AUC最优所需要的变量(见图3),结果显示,输入特征变量11个特定种属的细菌丰度时ROC-AUC值最大;
[0064] (2)测试模型,将数据拆分为训练集和测试集,输入样本的11个特定种属的细菌丰度,输入Xgboost模型,模型根据GridsearchCV进行参数优化,用训练集训练,用测试集测试;
[0065] (3)存储模型,用于后续测量数据的结直肠癌风险预测。
[0066] 由图3可知,输入变量个数和组合会产生不同的ROC-AUC,发明人优选出最适的输入变量与模型搭配,即采用本发明所述11种菌属作为输入对象可以在较高预测准确度的条件下降低对微生物标志物检测方法的要求,采用宏基因组、16S或qPCR均可以实现相同的功能,具有良好的通用性。
[0067] 实施例3临床验证
[0068] (1)肠道微生物标志物相对丰度检测:将4例肠癌和32例健康人的大便的细菌16S进行测序,找到11个特定种属的细菌的丰度含量,将测试数据输入模型;
[0069] (2)风险值输出:学习训练完的算法模型输入实验得到的测试数据,得到在0(对照)和1(患结直肠癌)之间的概率,最终将1(患疾病)概率值确认为风险值,小于0.5的判定为健康人,但风险值介于0.4到0.5的建议进行一定的肠道菌调整以降低后续患上肠癌的风险,超过0.5的判定为结直肠癌的高风险人群,建议进行肠镜检查确诊,如无肠癌人群建议调整肠道菌,如患有肠癌,也可给临床医生一个肠道菌情况,供其参考。36个受试者的真实患病情况和风险值见表1。
[0070] 表1 36个受试者的真实患病情况和风险值
[0071]
[0072]
[0073] 由表1可知,本发明的结直肠癌微生物标志物可有效用于构建结直肠癌风险预测模型,且预测灵敏度高、特异性好,能在多样本中有效区分阳性结果(健康人)和阴性结果(结直肠癌患者),为早期筛查、中晚期治疗提供有效数据。实际情况中,多数预测模型的准确度很难达到100%,而本发明通过选择合适的菌属以及相应的输入变量数,配合优化的模型可以实现准确度97.2%,为疾病研究奠定基础。
[0074] 综上所述,本发明以特定种属细菌的丰度为输入指标,扩展实验测量手段,构建相应的预测直肠癌风险模型,除了协助诊断,还可以用于预防警示,有利于个体通过调整饮食或医疗界入改善肠道菌微环境,从而减少个体患肠癌的风险。
[0075] 申请声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈