一种肿瘤个体化临床实验文本挖掘的方法和系统专利检索-亚单位疫苗疫苗疗法专利检索查询-专利查询网

一种肿瘤个体化临床实验文本挖掘的方法和系统

阅读：365发布：2021-05-20

专利汇可以提供一种肿瘤个体化临床实验文本挖掘的方法和系统专利检索，专利查询，专利分析的服务。并且本申请公开了一种肿瘤个体化临床实验文本挖掘的方法和系统。本申请的肿瘤个体化临床实验文本挖掘方法包括，(1)根据待测对象个体化信息数据在预设的临床实验数据库中进行查询，筛选与个体化信息数据相匹配的临床实验文本；筛选获取优先等级为，疾病类型＞性别＞年龄＞国家＞生物标记物变异信息；(2)对步骤(1)筛选获取的实验文本进行排序，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配；(3)输出排序实验文本，即个体化临床实验文本。本申请的方法，不仅能为广大患者和医生提供更多、更精准的个体化治疗方案；而且，可以获得更全面、准确、有效的参考数据，提高了个体化治疗方案的准确度和效率，节约时间成本。，下面是一种肿瘤个体化临床实验文本挖掘的方法和系统专利的具体信息内容。

权利要求

1.一种肿瘤个体化临床实验文本挖掘的方法，其特征在于：包括以下步骤，(1)根据待测对象的个体化信息数据在预设的临床实验数据库中进行查询，筛选与所述个体化信息数据相匹配的临床实验文本；
所述个体化信息数据包括待测对象的性别、年龄、国家、疾病类型和生物标记物变异信息；
所述临床实验数据库中包含若干个临床实验文本，每个临床实验文本至少包含研究识别号、临床期、招募状态信息、研究终止时间、标题、疾病类型、干预措施、招募人数信息、招募者信息、结果检测标准和受试者信息等临床实验数据；所述受试者信息至少包括受试者的性别、年龄和国家；
所述生物标记物变异信息包括单基因多态性、单核苷酸变异、插入缺失变异、拷贝数变异、基因融合、表达量变异；
临床实验文本筛选获取的优先等级依序为，疾病类型＞性别＞年龄＞国家＞生物标记物变异信息；其中，生物标记物变异信息按照匹配的层次优先等级依序分为，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配；
(2)对步骤(1)筛选获取的临床实验文本进行排序，排序的优先顺序为，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配，每个等级按分数由高到低排序；
其中，基因变异位点完全匹配按照变异位点匹配个数进行打分，变异位点匹配个数越多分数越高；基因的其它变异匹配、基因匹配和相关基因匹配，按匹配程度进行打分，匹配程度越高分数越高；
(3)按照步骤(2)的排序输出临床实验文本的表格信息，获得待测对象的个体化临床实验文本；所述表格信息包括，临床实验文本的研究识别号、临床期、招募状态信息、研究终止时间、标题、疾病类型、干预措施、招募人数信息、招募者信息和结果检测标准；
步骤(1)和步骤(3)中，干预措施包括治疗采用的靶向药物、化疗药物、疫苗、激素或其它已研究的生物制剂产品，或其它非侵入性方法；招募者信息包括招募的研究单位及其地理位置信息和联系方式；
步骤(1)和步骤(2)中，所述相关基因包括基因家族的基因、相关通路的基因和蛋白相互作用位点的基因。
2.根据权利要求1所述的方法，其特征在于：所述临床实验数据库采用以下方法构建，(a)从开源数据库下载临床实验数据，所述临床实验数据包括研究识别号、研究类型、临床期、招募状态信息、赞助者或合作者信息、监督模式、研究开始时间、研究终止时间、标题、条件和关键字、分组情况、疾病类型、干预措施、招募人数信息、结果检测标准、入选合格条件、招募者信息、实验文本参考文献；
(b)根据数据库既定的字段从下载的临床实验数据中进行信息检索，确定数据库相关字段信息，抽提各字段的信息文本；所述数据库既定的字段包括招募状态信息、研究类型、疾病类型、干预措施、结果检测标准、研究识别号、招募者信息、入选合格条件、临床期、招募人数信息、研究开始时间、研究终止时间、标题；
(c)将步骤(b)提取的信息结构化处理，并进行分类和关联等文本挖掘处理，然后将获得的字段信息存储至数据库中，即获得所述临床实验数据库；
所述结构化处理包括将提取的内容按设定的组成部分进行整理，包含数据库设定的字段类型、长度、内容等；具体的，所述临床实验数据库中设定的字段类型、长度、内容包括招募状态信息、研究类型、疾病类型、干预措施、结果检测标准、研究识别号、招募者信息、入选合格条件、临床期、标题等文本格式，以及招募人数信息、年龄等数字格式，以及研究开始时间、研究终止时间等时间格式，字段的长度默认为1000；
所述分类和关联包括，通过结构化处理，将提取的内容与临床实验文本进行关联，整理成程序语言可识别的并带有此类信息特征的标准格式，并根据临床实验数据库中设定的字段类型、长度、内容对临床实验文本进行分类。
3.根据权利要求2所述的方法，其特征在于：所述临床实验数据库的构建方法还包括，(d)查询步骤(b)中所述疾病类型的相关信息，通过NCCN癌症分类信息补充癌症的种类，补充癌症种类包括常见癌症、罕见癌症及其亚型，将补充癌症种类的实验文本及其临床实验数据补充至所述临床实验数据库中。
4.根据权利要求2所述的方法，其特征在于：所述临床实验数据库的构建方法还包括，(e)通过Drugbank、Drugdictionary、FDA批准药物标签和NCCN治疗指南中披露的数据信息收集治疗靶标基因或靶标位点的基因信息，并通过NCBI数据库，收集所述基因信息的基因全称、别名及其通路相关基因信息、肿瘤相关基因信息、家族基因信息，存储至所述临床实验数据库中。
5.一种肿瘤个体化临床实验文本挖掘的系统，其特征在于：所述系统包括，临床实验数据库，用于存储临床实验文本的各部分信息以及其关联信息，包含文本资料获得、信息检索、信息抽提、文本挖掘处理过程等信息；
信息查询模块，用于根据输入的个体化信息数据，从所述临床实验数据库中筛选符合条件的临床实验信息；
数据分析模块，用于预设数据挖掘方向，并根据数据挖掘方向对信息匹配获得的实验文本进行打分、排序；所述数据挖掘方向包括，根据个体化信息数据与实验文本的匹配程度进行排序，优先顺序为，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配，每个等级中按分数由高到低排序；其中，基因变异位点完全匹配按照变异位点匹配个数进行打分，变异位点匹配个数越多分数越高；基因的其它变异匹配、基因匹配和相关基因匹配，按匹配程度进行打分，匹配程度越高分数越高；
个体化临床实验文本输出模块，用于将数据挖掘模块排序的实验文本按顺序生成并输出表格信息。
6.根据权利要求1-4任一项所述的方法或权利要求5所述的系统在制备肿瘤个体化临床实验文本挖掘的设备或装置中的应用。
7.一种肿瘤个体化临床实验文本挖掘的装置，其特征在于：所述装置中包含有权利要求5所述的系统。

说明书全文

一种肿瘤个体化临床实验文本挖掘的方法和系统

技术领域

[0001] 本申请涉及肿瘤检测领域，特别是涉及一种肿瘤个体化临床实验文本挖掘的方法和系统。

背景技术

[0002] 自2015年“精确医学”计划被提出，精准医疗的序幕便由此拉开。精准医学计划主要增加医学研究经费，推动个体化基因组学研究，依据个人基因信息为癌症及其它疾病患者制定个体医疗方案。由于利用个体基因信息能有效找到患者病因，因此可省下目前花在无效药物上的数百亿美元。

[0003] 随着人类基因组的完成及基因检测技术的发展，基于测序平台数据的肿瘤个体化治疗检测已在全球各个平台应用开展。测序和基因检测成本的降低，这些检测技术不仅应用在科研系统，而以更快的速度走向人群，为广大患者/高风险人群提供疾病检测和健康监测。

[0004] 目前随着多个检测平台的发展，个体化检测涉及的信息也越来越全面，判断患者健康或疾病的状况不再是单一标记物或者基因筛查结果，而是依靠更全面的基因组，蛋白组，表达谱等变异信息。面对这些庞大交错且相关联的数据，需要有一个综合分析系统去挖掘相关信息，提供合理解释。因此建立在大量研究数据上的个体化治疗使药物在临床治疗中更好的发挥作用，能给患者提供最佳的治疗方案，使更多的患者进入临床实验，配合医院医生做出更合适的治疗。

[0005] 在肿瘤的精准医疗中，循证医学的文本挖掘占据了很大一部分，但还有很多未知信息未被利用，其中包括患者一些较为稀少的变异与治疗相关信息，还未批准的药物治疗的前沿的临床实验中，对常规治疗无效的情况下其它的治疗方案等。这些需求在明确结果的文献或信息发布的结果中很难匹配相关信息，只能在临床实验数据库中进行发掘。目前针对肿瘤的治疗有很多问题，其中一方面是面对患者庞大的检测信息需要深入解读和挖掘，另一方面对各种数据库信息收集等待开发使用，如何结合两种需求将病人信息匹配最适合的个体化治疗资源是目前需要迫切解决的问题。

[0006] 随着数据挖掘和文本挖掘技术的进步，生物医学相关的信息挖掘的应用越来越广泛。目前国内外也有一些文本挖掘技术产品包括：IBM Watson的文本智能挖掘、Autonomy Concept、N-of-One等。但是，现有的文本挖掘工具大多围绕两个方面：蛋白相互作用和生物医学发表文献。围绕蛋白功能相互作用开发的文本挖掘；从识别蛋白实体、形成实体列表、统计出现频率、形成候选实体，最后实体关联完成蛋白质之间的关系搜索；蛋白相互作用关系主要在科研文本挖掘上有一定的实用价值，但在肿瘤基因检测的解读的上还是有一定的欠缺，不能很好的解决干预治疗的问题。围绕生物医学文献的文本挖掘，在循证医学的证据收集中很重要，但相关的生物文献信息都是对已有明确实验结论和结果的，对于前沿发展中的治疗方案则涵盖较少；特别是，生物医学文献文本挖掘对于新药或研制中的生物制剂的进展缺少信息来源。

[0007] 另外，如一些计算机公司开发的文本挖掘工具大多依赖数据和算法，与生物医学知识和背景结合不多，且挖掘的数据大多冗余，准确度低，为病人的实际治疗提供方案的意义不大，与实际应用结合还有很长一段距离。目前，针对临床实验文本挖掘的研究还比较少，无法对大规模基因测序并结合其他检测数据和病人信息的综合文本进行临床实验文本挖掘，不能满足目前肿瘤个体化精准治疗的使用需求。

[0008] 因此，开发一个结合病人全部的检测数据和背景信息的临床实验文本挖掘工具对于循证医学治疗方案是一个很好的补充，能更好的为病人提供更多实时的治疗信息，节约治疗的成本，为病人提供更多更好的策略。发明内容

[0009] 本申请的目的是提供一种新的肿瘤个体化临床实验文本挖掘的方法和系统。

[0010] 本申请采用了以下技术方案：

[0011] 本申请的一方面公开了一种肿瘤个体化临床实验文本挖掘的方法，包括以下步骤，

[0012] (1)根据待测对象的个体化信息数据在预设的临床实验数据库中进行查询，，筛选与个体化信息数据相匹配的临床实验文本；个体化信息数据包括待测对象的性别、年龄、国家、疾病类型和生物标记物变异信息；临床实验数据库中包含若干个实验文本，每个实验文本至少包含研究识别号、临床期、招募状态信息、研究终止时间、标题、疾病类型、干预措施、招募人数信息、招募者信息、结果检测标准和受试者信息等临床实验数据；受试者信息至少包括受试者的性别、年龄和国家；生物标记物变异信息包括单基因多态性、单核苷酸变异、插入缺失变异、拷贝数变异、基因融合、表达量变异；临床实验文本筛选获取的优先等级依序为，疾病类型＞性别＞年龄＞国家＞生物标记物变异信息；其中，生物标记物变异信息按照匹配的层次优先等级依序分为，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配；

[0013] (2)对步骤(1)筛选获取的临床实验文本进行排序，排序的优先顺序为，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配，每个等级按分数由高到低排序；其中，基因变异位点完全匹配按照变异位点匹配个数进行打分，变异位点匹配个数越多分数越高；基因的其它变异匹配、基因匹配和相关基因匹配，按匹配程度进行打分，匹配程度越高分数越高；

[0014] (3)按照步骤(2)的排序输出临床实验文本的表格信息，获得待测对象的个体化临床实验文本；表格信息包括，临床实验文本的研究识别号、临床期、招募状态信息、研究终止时间、标题、疾病类型、干预措施、招募人数信息、招募者信息和结果检测标准；

[0015] 步骤(1)和步骤(3)中，干预措施包括治疗采用的靶向药物、化疗药物、疫苗、激素或其它已研究的生物制剂产品，或其它非侵入性方法；招募者信息包括招募的研究单位及其地理位置信息和联系方式；

[0016] 步骤(1)和步骤(2)中，相关基因包括基因家族的基因、相关通路的基因和蛋白相互作用位点的基因。

[0017] 需要说明的是，本申请的临床实验文本挖掘方法，在现有的临床实验数据基础上，对海量的临床数据按照本申请设计的条件和挖掘方向进行筛选和挖掘，最终获得与待测对象患病情况最吻合、最相关的临床数据，即个体化的临床实验文本，为循证医学或个人精准化医疗提供了全面、准确、有效的参考数据，同时，也为病患和医生提供了更多、更精准的医疗选择方案。

[0018] 优选的，本申请的方法中，临床实验数据库采用以下方法构建，

[0019] (a)从开源数据库下载临床实验数据，临床实验数据包括研究识别号、研究类型、临床期、招募状态信息、赞助者或合作者信息、监督模式、研究开始时间、研究终止时间、标题、条件和关键字、分组情况、疾病类型、干预措施、招募人数信息、结果检测标准、入选合格条件、招募者信息、实验文本参考文献；

[0020] (b)根据数据库既定的字段从下载的临床实验数据中进行信息检索，确定数据库相关字段信息，抽提各字段的信息文本；其中，数据库既定的字段包括招募状态信息、研究类型、疾病类型、干预措施、结果检测标准、研究识别号、招募者信息、入选合格条件、临床期、招募人数信息、研究开始时间、研究终止时间、标题；

[0021] (c)将步骤(b)提取的信息结构化处理，并进行分类和关联等文本挖掘处理，然后将获得的字段信息存储至数据库中，即获得本申请的用于后续的个体化临床实验文本挖掘的临床实验数据库；

[0022] 其中，结构化处理包括将提取的内容按设定的组成部分进行整理，包含数据库设定的字段类型、长度、内容等；具体的，所述临床实验数据库中设定的字段类型、长度、内容包括招募状态信息、研究类型、疾病类型、干预措施、结果检测标准、研究识别号、招募者信息、入选合格条件、临床期、标题等文本格式，以及招募人数信息、年龄等数字格式，以及研究开始时间、研究终止时间等时间格式，字段的长度默认为1000；

[0023] 分类和关联包括，通过结构化处理，将提取的内容与临床实验文本进行关联，整理成程序语言可识别的并带有此类信息特征的标准格式，并根据临床实验数据库中设定的字段类型、长度、内容对临床实验文本进行分类。

[0024] 需要说明的是，结构化处理、分类和关联，实际上就是对开源数据库下载的临床实验数据进行初步的整理，例如按照疾病类型、干预措施等信息进行简单的分类和关联，形成一个结构有序的数据库，以方便后续的个体化临床实验文本挖掘。

[0025] 优选的，本申请的方法中，临床实验数据库的构建方法还包括，(d)查询步骤(b)中疾病类型的相关信息，通过NCCN癌症分类信息补充癌症的种类，补充癌症种类包括常见癌症、罕见癌症及其亚型，将补充癌症种类的实验文本及其临床实验数据补充至临床实验数据库中，使临床实验数据库进一步完善。

[0026] 优选的，本申请的方法中，临床实验数据库的构建方法还包括，(e)通过Drugbank、Drugdictionary、FDA批准药物标签和NCCN治疗指南中披露的数据信息收集治疗靶标基因或靶标位点的基因信息，并通过NCBI数据库，收集基因信息的基因全称、别名及其通路相关基因信息、肿瘤相关基因信息、家族基因信息，存储至临床实验数据库中。

[0027] 需要说明的是，本申请的肿瘤个体化临床实验文本挖掘方法，其中临床实验数据库可以是事先构建好的，只要定期对数据库中的内容进行更新即可，不用每次临床实验文本挖掘都进行一次临床实验数据库构建；原则上，针对某个疾病或某个癌症的临床实验数据库，一旦构建好了，后面就可以一直使用，只要能够保障数据库中的内容足够全面即可；并且，后续治疗的临床实验数据也可以进一步的填充到临床实验数据库中，不断充实。

[0028] 本申请的另一面公开了一种肿瘤个体化临床实验文本挖掘的系统，该系统包括，临床实验数据库，用于存储临床实验文本的各部分信息以及其关联信息，包含文本资料获得、信息检索、信息抽提、文本挖掘处理过程等信息；信息查询模块，用于根据输入的个体化信息数据，从所述临床实验数据库中筛选符合条件的临床实验信息；数据分析模块，用于预设数据挖掘方向，并根据数据挖掘方向对信息匹配获得的实验文本进行打分、排序；所述数据挖掘方向包括，根据个体化信息数据与实验文本的匹配程度进行排序，优先顺序为，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配，每个等级中按分数由高到低排序；其中，基因变异位点完全匹配按照变异位点匹配个数进行打分，变异位点匹配个数越多分数越高；基因的其它变异匹配、基因匹配和相关基因匹配，按匹配程度进行打分，匹配程度越高分数越高；个体化临床实验文本输出模块，用于将数据挖掘模块排序的实验文本按顺序生成并输出表格信息。

[0029] 需要说明的是，本申请的肿瘤个体化临床实验文本挖掘的系统，其关键在于各个模块的设置和配合，能够有效的执行本申请的肿瘤个体化临床实验文本挖掘方法；至于各个模块，例如数据库、信息查询、数据分析比较和挖掘、数据输出，只要按照本申请的条件和要求，采用常规的编程语言和元器件即可实现，在此不做具体限定。

[0030] 本申请的另一面公开了本申请的肿瘤个体化临床实验文本挖掘方法或系统在制备肿瘤个体化临床实验文本挖掘的设备或装置中的应用。

[0031] 本申请的另一面公开了一种肿瘤个体化临床实验文本挖掘的装置，该装置中包含有本申请的肿瘤个体化临床实验文本挖掘系统。

[0032] 可以理解，本申请的肿瘤个体化临床实验文本挖掘方法或系统能够对临床实验文本进行挖掘，从而获得针对具体待测对象的个体化的检测、治疗、预后等临床实验信息，使个体化精准治疗方案更全面、科学、准确；因此，根据本申请的方法或系统，完全可以将其整合到一个专门用于肿瘤个体化临床实验文本挖掘的设备或装置中，以方便使用。

[0033] 本申请的有益效果在于：

[0034] 本申请的肿瘤个体化临床实验文本挖掘方法，不仅能够为广大患者和医生提供更多、更精准的个体化治疗方案；而且，通过临床实验文本挖掘，可以获得更全面、准确、有效的参考数据，提高了个体化治疗方案的准确度和效率，节约了时间成本。

具体实施方式

[0035] 在生物医学领域，已有多个开放数据库可供使用，如Medline、Pubmed、DrugBank、Drug dictionary、Clinical trials等。但是，目前循证医学在临床进展信息利用和挖掘的研究方面还是空白，这不利于个体化精准医疗方案的定制和实施。本申请正是利用了现有开放数据库中已经存在的大量临床试验数据，对其进行深入的文本挖掘，从而得到肿瘤个体化临床实验文本，弥补了循证医学关于临床进展信息的空白，为个体化精准医疗方案提供更为全面、准确和有效的临床试验数据。

[0036] 现有开放的生物医学数据库是本申请肿瘤个体化临床实验文本挖掘方法的文本来源，其中收集临床实验信息最完整的是Clinical trials数据库。2000年，美国国立卫生研究院通过其国立医学图书馆建立ClinicalTrials.gov。在此网站正式推出后，由美国食品药品管理局(FDA)多次进行试验登记情况的调研和总结，登记的临床试验不再局限于严重或危及生命的临床实验，要求所有临床实验都需在此登记，并增加对试验结果的登记要求，同时增加强制条款及处罚措施。此数据库不断升级，凭借其强大的用户分类群，及其信息的丰富性和使用便利性，使其成为目前最规范和最丰富的临床实验来源。而Drug Bank，Drug Dictionary等药物数据库则含有丰富的药物相关信息。另外还有很多词库也在生物医疗领域广泛使用，如生物医学主题词表(Medical Subject Headings，简称MeSH)，是美国国立医学图书馆编制的权威性主题词表。其它如NCCN、FDA、NCBI等也有各自专门的数据库，存储相关的治疗指南、药物标签以及人类基因的相关信息。这些开源数据库为临床实验文本挖掘提供了丰富的信息来源。

[0037] 本申请中没有给出定义的专业用语按照本领域的常规含义进行理解和解释，部分专业用语定义如下：

[0038] 临床实验数据库：是指根据预设条件，从下载的临床实验文本中筛选出来的特定类型或疾病的实验文本及其临床实验数据的集合；该集合用于后续个体化临床实验文本的挖掘。

[0039] 临床实验文本：是指包含临床试验数据的文本信息，其中明确记载了临床实验的研究识别号、研究类型、临床期、招募状态信息、赞助者或合作者信息、监督模式、研究开始时间、研究终止时间、标题、条件和关键字、分组情况、疾病类型、干预措施、招募人数信息、结果检测标准、入选合格条件、招募者信息、实验文本参考文献等信息。本申请的挖掘方法就是从大量的临床实验文本中，挖掘出与待测对象患病情况最吻合、最匹配的实验文本，并按匹配程度输出，以供参考。

[0040] 疾病类型：本申请的疾病类型主要是指癌症，即按NCCN分类标准的癌症，例如，Anal Carcinoma(肛门癌)、Bladder Cancer(膀胱癌)、Bone cancer(骨癌)、Osteosarcoma(骨肉瘤)、Chondrosarcoma(软骨肉瘤)、Ewing's sarcoma(尤文氏肉瘤)、Fibrosarcoma(纤维肉瘤)、Brain tumor(脑肿瘤)、Glioblastoma Multiforme(多形性成胶质细胞瘤)、Meningioma(脑膜瘤)、Oligodendroglioma(少突胶质瘤)、Pilocytic Astrocytoma(细胞星形细胞瘤)、Ependymoma(室管膜瘤)、Medulloblastoma(成神经管细胞瘤)、Breast cancer(乳腺癌)、Cervical Cancer(宫颈癌)、Colorectal Cancer(结肠直肠癌)、Colon Cancer(结肠癌)、Rectal Cancer(直肠癌)、Bowel Cancer(肠癌)、Endocrine Tumor(内分泌肿瘤)、Esophageal and Esophagogastric Junction Cancers(食管和食道胃结肠癌)、Gastric Cancer(胃癌)、Gastrointestinal stromal tumor(胃肠道间质瘤)、Head and Neck Cancer(头颈癌)、Hepatobiliary Cancers(肝胆癌)、Hepatocellular Carcinoma(肝细胞癌)、Gallbladder Cancer(胆囊癌)、Cholangiocarcinoma(胆管癌)、Kidney Cancer(肾癌)、Leukemia(白血病)、Acute Lymphoblastic Leukemia(急性淋巴细胞性白血病)、Acute Myeloid Leukemia(急性骨髓性白血病)、Chronic Myelogenous Leukemia(慢性骨髓性白血病)、Chronic Lymphocytic Leukemia(慢性淋巴细胞性白血病)、Chronic Myeloid Leukemia(慢性骨髓性白血病)、Chronic Myelomonocytic Leukemia(慢性骨髓单核细胞白血病)、Lung Cancer(肺癌)、Non-Small Cell Lung Cancer(非小细胞肺癌)、Small Cell Lung Cancer(小细胞肺癌)、Skin Cancer(皮肤癌)、Melanoma(黑色素瘤)、Basal Cell Skin Cancer(基底细胞皮肤癌)、Dermatofibrosarcoma Protuberans(皮肤纤维肉瘤)、Merkel Cell Carcinoma(默克尔细胞癌)、Squamous Cell Skin Cancer(鳞状细胞性皮肤癌)、Non-Hodgkin Lymphoma(非霍奇金淋巴瘤)、Hodgkin Lymphoma(霍奇金淋巴瘤)、Malignant Pleural Mesothelioma(恶性胸膜间皮瘤)、Multiple Myeloma(多发性骨髓瘤)、Systemic Light Chain Amyloidosis(全身轻链淀粉样变性癌)、Macroglobulinemia/Lymphoplasmacytic Lymphoma(巨球蛋白血症/淋巴浆细胞淋巴瘤)、Myelodysplastic Syndromes(骨髓增生异常综合征)、Neuroendocrine Tumors(神经内分泌肿瘤)、Ovarian Cancer(卵巢癌)、Pancreatic Cancer(胰腺癌)、Penile Cancer(阴茎癌)、Prostate Cancer(前列腺癌)、Soft Tissue Sarcoma(软组织肉瘤)、Testicular Cancer(睾丸癌)、Thymomas and Thymic Carcinomas(胸腺癌)、Thyroid Cancer(甲状腺癌)、Uterine Cancer(子宫癌)等。其中，括号内的中文为相应癌症的中文名称。

[0041] 生物标记物变异信息：包括但不限于单基因多态性(SNP)、单核苷酸变异(SNV)、插入缺失变异(INDEL)、拷贝数变异(CNV)、基因融合(Fusion)、表达量变异(Expression)等。

[0042] 研究识别号：即Study IDs，用于按标识号搜索临床研究；此ID为ClinicalTrials.gov分配一个标识符，以NCT为开始编号，后跟8位数字，例如，NCT00000419，此标示符为clinicalTrials.gov上注册的每个临床研究提供唯一的识别码。

[0043] 研究类型：即临床实验采用的研究类型，分为介入型(Interventional)和观测型(Observational)；本申请的挖掘方法中筛选介入型研究的临床实验文本进行深入挖掘。

[0044] 临床期：是食品和药物管理局(FDA)设定用于描述基于研究的特征的分期类别，目前有五个阶段，分别是phase0-phase4。

[0045] 招募状态信息：即招募信息的状态，包括开放(Open)和关闭(Closed)两个类型；匹配的开放(Open)状态信息包括：招募中(Recruiting)、还未开始招募(Not yet recruiting)和适用于扩展研究(Available for expanded access)等。

[0046] 标题：即临床研究的标题，对应于方案的标题。

[0047] 条件和关键字：是指进行临床实验的条件，以及所涉及的技术或措施的关键词。

[0048] 分组情况：是指受试者按照特定的条件进行分组的情况。

[0049] 入选合格条件：是指进入临床实验的受试者的筛选条件，包括受试者的性别、年龄、疾病治疗史、检测的生物学变异信息等。

[0050] 实验文本参考文献：是指进行临床实验所参考的文献资料。

[0051] 干预措施：包括治疗采用的靶向药物、化疗药物、疫苗、激素或其它已研究的生物制剂产品，或其它非侵入性方法。

[0052] 招募人数信息：包括评估要登记的参与者总数，即目标数量，和参与临床研究的参与者的实际总数。

[0053] 招募者信息：即研究单位及其地理位置信息和联系方式。

[0054] 结果检测标准：即实验文本中记载的干预措施的结果判断标准，用于确定干预措施对临床试验参与者的预先设计的结果的评估。

[0055] 本申请的肿瘤个体化临床实验文本挖掘方法，专门针对临床实验文本进行挖掘，更具有临床针对性和适用性，弥补了目前循证医学关于临床进展信息的空白，使个体化精准治疗方案更全面。并且，本申请的方法，其挖掘的数据来源于目前相对规范且最全面的临床实验数据库clinicaltrials.gov和其它多个数据库信息，可定期下载最新数据，使数据处于实时更新状态，使得个体化精准治疗方案更具实时性和实用性，本方法也适合其他临床实验数据库。本申请的肿瘤个体化临床实验文本挖掘方法，不仅为患者和医生提供了更为全面、准确、有效的临床实验参考数据；而且采用本申请的实验文本挖掘方法，准确性高、效率高，能减少冗余数据，节约时间成本，为治疗争取时间，更为重要的是，采用本申请的实验文本挖掘方法，能够有效提高个体化治疗方案的准确度和效率，真正实现个体化精准治疗。

[0056] 本申请的肿瘤个体化临床实验文本挖掘方法，同样适用于除药物以外的治疗方法的临床实验文本挖掘，药物以外的治疗方法包括生物制剂、药物组合、手术、放疗、激光、干细胞移植等；也适用于其他并发症及预后观测的临床实验文本挖掘。此外，本申请的个体化临床实验文本挖掘方法，还适用于生物检测的实验文本挖掘，这些生物检测除了目前的基因单核苷酸变异、基因单核苷酸多态性、基因拷贝数变异、插入缺失变异、基因融合/重排、基因表达量变异等检测以外，还包括基因甲基化、磷酸化、蛋白质检测、microRNA、染色体变异检测等目前使用的生物变异检测手段。

[0057] 可以理解，本申请的个体化实验文本挖掘方法是针对现有的实验文本数据进行的，因此，只要提供相应的开源数据库即可进行相应的个体化实验文本挖掘，包括中文临床数据库或者其他临床实验数据库。本申请的一种实现方式中选择的数据库为FDA的clinicaltrials.gov.，待其它数据库开放时也适用于本申请。

[0058] 下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

[0059] 实施例

[0060] 本例对25例样本分别进行了个体化临床实验文本挖掘，25例样本覆盖了单基因多态性、单核苷酸变异、插入缺失变异、拷贝数变异、基因融合和表达量变异六种变异信息。个体化临床实验文本挖掘的具体方法如下。

[0061] 本例首先根据开源数据库构建了临床实验数据库，用于后续的临床实验文本挖掘，临床实验数据库构建方法如下：

[0062] (a)从开源数据库下载临床实验数据，临床实验数据包括研究识别号、研究类型、临床期、招募状态信息、赞助者或合作者信息、监督模式、研究开始时间、研究终止时间、标题、条件和关键字、分组情况、疾病类型、干预措施、招募人数信息、结果检测标准、入选合格条件、招募者信息、受试者信息、实验文本参考文献；受试者信息中包括受试者的性别、年龄和国家，本例具体从Clinical trials数据库下载临床实验数据，用于录入临床实验数据库；

[0063] (b)根据数据库既定字段从下载的临床实验数据中提取临床实验信息相关文本；搭建的数据库字段包括招募状态信息、研究类型、疾病类型、干预措施、结果检测标准、研究识别号、招募者信息、入选合格条件、临床期、招募人数信息、研究开始时间、研究终止时间、标题；

[0064] (c)将步骤(b)提取的临床实验相关文本信息数据存储至已搭建好的数据库中[0065] (d)通过Drugbank、Drugdictionary、FDA批准药物标签和NCCN治疗指南中披露的数据信息收集治疗靶标基因或靶标位点的基因信息，并通过NCBI数据库，收集基因信息的基因全称、别名及其通路相关基因信息、肿瘤相关基因信息、家族基因信息，存储至临床实验数据库中。

[0066] 本例最终构建的临床实验数据库包含招募状态、研究基本信息，实验信息，入选条件、疾病信息、药物信息、基因信息等实体。其中招募状态子库中包含招募状态、研究开始时间、研究结束时间和招募人数字段。研究基本信息包含研究信息、研究ID、标题、位置信息、研究类型和临床期字段。实验信息包含实验信息、疾病类型、干预措施和结果检测标准字段。入选条件包括入选条件、性别、年龄和入组标准字段。疾病信息包含癌症名称、癌症下级分类名、其他名称、缩写名称字段。药物信息包含药物名、商品名、药物靶点和代谢基因字段、基因信息包含基因名、基因名称、通路、基因家族和相关基因字段。

[0067] 本例的临床实验数据库中，最终收集了56978个实验文本。收集的基因包含人类的34026个基因其中有与63种癌症相关1558个基因，涉及12条肿瘤通路125个基因，128个肿瘤相关基因家族的665个基因。收集的药物或生物制剂信息2867种在以上构建的临床实验数据库的基础上，分别对25例样本进行个体化临床实验文本挖掘，详细如下：

[0068] (1)分别将25例样本的个体化信息数据导入本例构建的临床实验数据库中，对临床实验数据库进行筛选，以获得个体化实验文本；

[0069] 25例样本的个体化信息数据如表1所示，详细的生物标记物变异信息如表2所示。

[0070] 表1 25例样本的个体化信息数据

[0071]

[0072]

[0073] 表2 25例样本的生物标记物变异信息

[0074]

[0075]

[0076] 表2中，“基因”是指测定的该病例样本涉及变异的基因数量，“变异”是指测定的该病例样本涉及的变异数量。

[0077] (2)根据个体化信息数据对临床实验数据库进行实验文本筛选，实验文本筛选获取的优先等级依序为，疾病类型＞性别＞年龄＞国家＞生物标记物变异信息；其中，生物标记物变异信息按照匹配的层次优先等级依序分为，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配；

[0078] 也就是说，在临床实验数据库中，优先考虑筛选疾病类型相同的实验文本，然后根据需要，在疾病类型相同的实验文本中进一步筛选性别、年龄、国家或生物标记物变异信息相同的实验文本；疾病类型相同是最需要考虑的筛选条件，性别、年龄、国家和生物标记物变异信息可以根据需求选择性的作为筛选条件；例如某疾病的检测或治疗证实跟性别相关，则可以将性别作为筛选条件。

[0079] 生物标记物变异信息的筛选则是按照匹配程度，优先选择基因变异位点完全匹配的实验文本，在没有基因变异位点完全匹配的实验文本的情况下，或者，要进一步了解或扩充其它实验文本的情况下，可以进一步筛选基因的其它变异匹配、基因匹配或相关基因匹配的实验文本。本例为了更详细的分析25例样本的临床实验方案，对其相应疾病类型的基因变异位点完全匹配、基因的其它变异匹配、基因匹配、相关基因匹配的实验文本都进行了筛选。

[0080] (3)对步骤(2)筛选获取的实验文本进行排序，排序的优先顺序为，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配，每个等级按分数由高到低排序；其中，基因变异位点完全匹配按照变异位点匹配个数进行打分，变异位点匹配个数越多分数越高；基因的其它变异匹配、基因匹配和相关基因匹配，按匹配程度进行打分，匹配程度越高分数越高。

[0081] (4)按照步骤(3)的排序输出实验文本的表格信息，获得待测对象的个体化临床实验文本；表格信息包括，实验文本的研究识别号、临床期、招募状态信息、研究终止时间、标题、疾病类型、干预措施、招募人数信息、招募者信息和结果检测标准。

[0082] 步骤(1)和步骤(4)中，干预措施包括治疗采用的靶向药物、化疗药物、疫苗、激素或其它已研究的生物制剂产品，或其它非侵入性方法；招募者信息包括招募的研究单位及其地理位置信息和联系方式；步骤(2)和步骤(3)中，相关基因包括基因家族的基因、相关通路的基因和蛋白相互作用位点的基因。

[0083] 本例最终对25例样本进行个体化临床实验文本挖掘的统计结果如表3所示。

[0084] 表3 25例样本的个体化临床实验文本挖掘结果

[0085]

[0086]

[0087] 表3中，“基因或变异匹配”包括“基因匹配”的实验文本和“基因变异位点完全匹配”的实验文本，“基因”是指基因匹配的个数，“变异”是指基因变异位点匹配的个数，“临床实验”是指匹配上的临床实验个数。“临床实验文本总数”是指最终挖掘获得的复合匹配条件的临床实验文本数量。

[0088] 结果显示，25位疾病患者总共有905个临床实验筛选出，其中与生物标记物检测直接相关的临床有492个，生物标记物变异相关的临床实验有413个。在生物标记物检测直接相关的临床实验中符合病人入组条件的有451个，准确率为451/492＝91.9％。

[0089] 可见，本例的个体化临床实验文本挖掘方法，能够准确、全面、有效的挖掘获取病患的个体化临床实验文本，为病患和医生提供了更多、更精准的医疗选择方案。

[0090] 本例进一步提供了一种肿瘤个体化临床实验文本挖掘的系统，该系统包括临床实验数据库、文件提取模块、数据挖掘模块和个体化临床实验文本输出模块。

[0091] 其中临床实验数据库，用于存储实验文本及其临床实验数据；文件提取模块用于根据输入的个体化信息数据，从临床实验数据库中提取符合条件的实验文本。数据挖掘模块用于预设数据挖掘方向，并根据数据挖掘方向对提取获得的实验文本进行打分、排序。本例的数据挖掘方向包括，根据个体化信息数据与实验文本的匹配程度进行排序，优先顺序为，基因变异位点完全匹配＞基因的其它变异匹配＞基因匹配＞相关基因匹配，每个等级中按分数由高到低排序；其中，基因变异位点完全匹配按照变异位点匹配个数进行打分，变异位点匹配个数越多分数越高；基因的其它变异匹配、基因匹配和相关基因匹配，按匹配程度进行打分，匹配程度越高分数越高。个体化临床实验文本输出模块用于将数据挖掘模块排序的实验文本按顺序生成并输出表格信息。本例的个体化临床实验文本输出模块输出的部分信息如表4所示。

[0092] 表4输出表格信息

[0093]

[0094] 表4是临床实验文本挖掘后输出的结果，其中“KRAS G12D”表示检测出KRAS G12D的变异、“CCND1P241P“表示检测出的CCND1P241P变异，“Clinicaltrials ID”即研究识别号，“Title”即标题，“Cancer”表示疾病类型，“Phase”即临床期，“Locate”表示国籍，“Contacts”表示招募者的联系方式。

[0095] 以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

标题	发布/更新时间	阅读量
一种猪圆环病毒亚单位灭活疫苗	2020-05-13	332
一种猪轮状病毒VP6亚单位疫苗	2020-05-13	143
一种猪圆环病毒亚单位灭活疫苗	2020-05-13	655
猪链球菌2型亚单位疫苗及应用	2020-05-14	400
阿米巴病亚单位疫苗	2020-05-12	211
支原体亚单位疫苗	2020-05-12	171
一种RHDV的亚单位疫苗	2020-05-11	916
鱼用亚单位浸泡疫苗	2020-05-11	709
一种番鸭细小病毒亚单位疫苗	2020-05-15	510
一种亚单位疫苗及其制备方法和应用	2020-05-16	40

一种肿瘤个体化临床实验文本挖掘的方法和系统

一种肿瘤个体化临床实验文本挖掘的方法和系统

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：