首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 一种获取临床数据预测模型的方法、装置、可读介质及电子设备

一种获取临床数据预测模型的方法、装置、可读介质及电子设备

阅读:546发布:2020-05-15

专利汇可以提供一种获取临床数据预测模型的方法、装置、可读介质及电子设备专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种获取临床数据 预测模型 的方法、装置、可读介质及 电子 设备,包括:对样本数据进行格式处理,得到样本集合;通过所述样本集合进行数据训练,以建立多个预测模型;利用特定类型的测试数据对所述预测模型进行测试,得到各所述预测模型针对所述特定类型的测试指标;将所述测试指标最高的预测模型,确定为所述特定类型对应的目标预测模型;由此确定在特定的场景当中哪种预测模型相对更加准确;进而实现在特定的场景下下选择目标预测模型完成预测,保证预测结果的准确性。,下面是一种获取临床数据预测模型的方法、装置、可读介质及电子设备专利的具体信息内容。

1.一种获取临床数据预测模型的方法,其特征在于,包括:
对样本数据进行格式处理,得到样本集合;
通过所述样本集合进行数据训练,以建立多个预测模型;
利用特定类型的测试数据对所述预测模型进行测试,得到各所述预测模型针对所述特定类型的测试指标;
将所述测试指标最高的预测模型,确定为所述特定类型对应的目标预测模型。
2.根据权利要求1所述方法,其特征在于,所述通过所述样本集合进行数据训练,以建立多个预测模型包括:
基于多个机器学习算法,分别通过所述样本集合进行数据训练,以建立各所述机器学习算法对应的预测模型。
3.根据权利要求1所述方法,其特征在于,所述样本数据包括已知特征数据,则所述通过所述样本集合进行数据训练,以建立多个预测模型包括:
通过所述已知特征数据进行监督学习训练,以获得所述已知特征数据与数据特征的函数关系;
通过所述函数关系建立所述预测模型。
4.根据权利要求1所述方法,其特征在于,所述样本数据包括已知特征数据和未知特征数据,则所述通过所述样本集合进行数据训练,以建立多个预测模型包括:
通过所述已知特征数据和未知特征数据进行半监督学习训练,以获得所述已知特征数据与数据特征的函数关系;
通过所述函数关系建立所述预测模型。
5.根据权利要求1~4任意一项所述方法,其特征在于,所述对样本数据进行格式处理,得到样本集合包括:
根据预设的格式模板,将所述样本数据进行格式转换处理,得到所述样本集合。
6.根据权利要求5所述方法,其特征在于,还包括:
对所述样本数据进行预处理;所述预处理包括,数据补充、数据修正和/或数据降维
7.根据权利要求1~4任意一项所述方法,其特征在于,还包括:
将所述特定类型的待预测数据,输入到所述特定类型对应的目标预测模型,获得预测结果。
8.一种获取临床数据预测模型的装置,其特征在于,包括:
格式处理模,用于对样本数据进行格式处理,得到样本集合;
模型训练模块,用于通过所述样本集合进行数据训练,以建立多个预测模型;
模型测试模块,用于利用特定类型的测试数据对所述预测模型进行测试,得到各所述预测模型针对所述特定类型的测试指标;
模型确定模块,用于将所述测试指标最高的预测模型,确定为所述特定类型对应的目标预测模型。
9.一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如权利要求1至7中任一所述的方法。
10.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。

说明书全文

一种获取临床数据预测模型的方法、装置、可读介质及电子

设备

技术领域

背景技术

[0002] 在医学上,临床数据的重要性不言而喻。患者的大部分情况都可能通过临床数据直接或间接的体现。有些临床数据与患者的病情有着直观的关联性,所以医生可以借助医疗数据直接进行诊断。另一些情况下,多种临床数据结合,可能会隐含的表达出患者的某些病症,或者某些潜在的健康险。对于这种情况,很难通过人工的数据分析发现。
[0003] 基于当前的人工智能机器学习大数据分析等前沿技术建立预测模型,并对临床数据进行分析,能够相比从前更早的发现疾病或潜在患病风险,十分有利于治疗和康复。可以说,预测模型在医学领域中的应用,有着非常重要的医学价值。
[0004] 不过临床数据的类型、疾病的特点以及预测结果的类型都是多种多样的。同时,在人工智能和机器学习等领域中,存在着多种基础算法,其性能和优劣势也各不相同。所以很难有一种预测模型,能够在各种情况下均实现准确预测。在实际应用当中,究竟应该使用哪种预测模型针对哪种具体情况进行预测,是一个非常难以判断的问题。

发明内容

[0005] 本发明提供一种获取临床数据预测模型的方法、装置、可读介质及电子设备,基于不同机器学习算法训练得到多个预测模型,并通过测试对各模型进行评价。
[0006] 第一方面,本发明提供了获取临床数据预测模型的方法,包括:
[0007] 对样本数据进行格式处理,得到样本集合;通过所述样本集合进行数据训练,以建立多个预测模型;利用特定类型的测试数据对所述预测模型进行测试,得到各所述预测模型针对所述特定类型的测试指标;将所述测试指标最高的预测模型,确定为所述特定类型对应的目标预测模型。
[0008] 优选地,所述通过所述样本集合进行数据训练,以建立多个预测模型包括:
[0009] 基于多个机器学习算法,分别通过所述样本集合进行数据训练,以建立各所述机器学习算法对应的预测模型。
[0010] 优选地,所述样本数据包括已知特征数据,则所述通过所述样本集合进行数据训练,以建立多个预测模型包括:
[0011] 通过所述样本集合进行监督学习训练,以获得所述已知特征数据与数据特征的函数关系,通过所述函数关系建立所述预测模型。
[0012] 优选地,所述通过所述样本集合进行数据训练,以建立多个预测模型还包括:
[0013] 将述所述已知特征数据代入所述预测模型,以获得所述预测模型的拟合度;
[0014] 当所述拟合度低于预设的拟合度标准,则通过所述监督学习训练修正所述函数关系。
[0015] 优选地,所述样本数据包括已知特征数据和未知特征数据,则所述通过所述样本集合进行数据训练,以建立多个预测模型包括:
[0016] 通过所述样本集合进行半监督学习训练,以获得所述已知特征数据与数据特征的函数关系,通过所述函数关系建立所述预测模型。
[0017] 优选地,所述对样本数据进行格式处理,得到样本集合包括:
[0018] 根据预设的格式模板,将所述样本数据进行格式转换处理,得到所述样本集合。
[0019] 优选地,还包括:
[0020] 对所述样本数据进行预处理;所述预处理包括,数据补充、数据修正和/或数据降维
[0021] 第二方面,本发明提供了一种获取临床数据预测模型的装置,包括:
[0022] 格式处理模,用于对样本数据进行格式处理,得到样本集合;
[0023] 模型训练模块,用于通过所述样本集合进行数据训练,以建立多个预测模型;
[0024] 模型测试模块,用于利用特定类型的测试数据对所述预测模型进行测试,得到各所述预测模型针对所述特定类型的测试指标;
[0025] 模型确定模块,用于将所述测试指标最高的预测模型,确定为所述特定类型对应的目标预测模型。
[0026] 第三方面,本发明提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的方法。
[0027] 第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
[0028] 本发明提供了一种获取临床数据预测模型的方法、装置、可读介质及电子设备,本发明通过建立基于多个机器学习算法的预测模型,够满足各种不同场景下的需求,针对不同的数据输入,预测不同的具体内容;利用特定类型的测试数据对所述预测模型进行测试,得到测试指标,由此确定在特定的场景当中哪种预测模型相对更加准确;进而实现在特定的场景下下选择目标预测模型完成预测,保证预测结果的准确性。
[0029] 上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明
[0030] 为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0031] 图1为本发明一实施例提供的一种获取临床数据预测模型的方法的流程示意图;
[0032] 图2为本发明一实施例提供的另一种获取临床数据预测模型的方法的流程示意图;
[0033] 图3为本发明一实施例提供的一种获取临床数据预测模型的装置的结构示意图;
[0034] 图4为本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

[0035] 为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0036] 前述已知,临床数据的类型、疾病的特点以及预测结果的类型都是多种多样的。同时,在人工智能和机器学习等领域中,存在着多种基础算法,其性能和优劣势也各不相同。所以很难有一种预测模型,能够在各种情况下均实现准确预测。
[0037] 例如,有些情况会利用预测模型输出二元结果(是或否),有些情况则会利用预测模型输出连续型或离散型数值(如患病风险几率)。显然基于不同机器学习算法的模型,在不同情况下,针对不同的临床数据输入和不同的预测内容,其表现是存在差异性的。然而在实际应用当中,究竟应该使用哪种预测模型针对哪种具体情况进行预测,是一个非常难以判断的问题。而本发明中将实现量化的对各种预测模型进行评价,以确定在特定情况下哪种预测模型的准确率相对更高。
[0038] 参见图1所示,为本发明所述获取临床数据预测模型的方法的具体实施例。本实施例中所述方法包括以下步骤:
[0039] 步骤101、对样本数据进行格式处理,得到样本集合。
[0040] 步骤102、通过所述样本集合进行数据训练,以建立多个预测模型。
[0041] 步骤103、利用特定类型的测试数据对所述预测模型进行测试,得到各所述预测模型针对所述特定类型的测试指标。
[0042] 步骤104、将所述测试指标最高的预测模型,确定为所述特定类型对应的目标预测模型。
[0043] 本实施例中,将首先对样本数据进行格式处理,具体可以是根据预设的格式模板,将所述样本数据进行格式转换处理,得到所述样本集合。就是说,为了后续基于各种机器学习算法进行训练,必须要通过格式处理确保样本集合中数据的统一性。另外为了保证样本集合的质量,还可以对数据进行预处理。所述预处理包括,数据补充、数据修正、数据降维等处理操作,以弥补原始采集的样本数据中的缺陷。在机器学习领域中,也可将上述的过程称为特征工程。
[0044] 经过格式处理得到的样本集合,可以是一张二维表。所述二维表的一个维度表示患者,另一个维度表示临床数据的具体数值。如下表所示,即一份样本集合二维表的示意性表格。
[0045]  体重 血压 血糖 心率
患者1 a1 b1 c1 d1
患者2 a2 b2 c2 d2
患者3 a3 b3 c3 d3
患者4 a4 b4 c4 d4
[0046] 本实施例中,通过所述样本集合进行数据训练,可以是基于多个机器学习算法,分别通过所述样本集合进行数据训练,进而建立各所述机器学习算法对应的预测模型。由于基于不同机器学习算法建立的预测模型性能有所差异,各有其适用的场景。所以本实施例中建立多个预测模型,理论上能够满足各种不同场景下的需求。即能够针对不同的数据输入,预测不同的具体内容。
[0047] 但是要判断具体哪种预测模型更适合哪种具体场景,则还需要借助本实施例中的预测模型测试和确定的步骤。
[0048] 在本实施例中,建立预测模型之后,还需利用特定类型的测试数据对所述预测模型进行测试,得到各所述预测模型针对所述特定类型的测试指标。确定特定类型,即确定一种输入临床数据的类型、输出预测结果的类型,以及预测的具体内容。换言之,即预先确定一个固定的预测模型的使用场景。
[0049] 所述测试过程,即可以理解为是在上述的场景下,通过对已知实际结果的测试数据进行预测,对比测试结果和实际结果是否一致,从而分析所述测试模型的准确性,确定所述测试模型的测试指标。由此能够进行评价,在上述的场景当中,哪种预测模型相对更加准确。进而将所述测试指标最高的预测模型,确定为所述特定类型对应的目标预测模型。目标预测模型的数量,可以根据需求评定一个或者多个,在此不做限定。
[0050] 另外,在确定了所述特定类型对应的目标预测模型之后,即可在实际预测过程当中,在所述特定类型对应的场景下,将所述特定类型的待预测数据,输入到所述特定类型对应的目标预测模型,获得预测结果。由此完成实际的预测过程。由于所述目标预测模型是针对所述特定类型相对最准确的预测模型,所以其输出的预测结果能够更好的满足医学预测的需求。
[0051] 通过以上技术方案可知,本实施例存在的有益效果是:通过建立基于多个机器学习算法的预测模型,够满足各种不同场景下的需求,针对不同的数据输入,预测不同的具体内容;利用特定类型的测试数据对所述预测模型进行测试,得到测试指标,由此确定在特定的场景当中哪种预测模型相对更加准确;进而实现在特定的场景下下选择目标预测模型完成预测,保证预测结果的准确性。
[0052] 图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
[0053] 如图2所示,为本发明所述临获取临床数据预测模型的方法的另一个具体实施例。本实施例在前述实施例的基础上,对于训练建模过程进行了更具体的描述和一定程度的优化。本实施例中所述方法包括以下步骤:
[0054] 步骤201、对样本数据进行格式处理,得到样本集合。
[0055] 本实施例中,所述样本数据包括已知特征数据,并且优选的还可以包括部分未知特征数据。
[0056] 所谓已知特征数据,即能够确定其是否对应特定的疾病特征的临床数据。在本实施例中训练建立预测模型,是为了通过临床数据预测某些疾病特征。例如预测某患者是否有“患高血压风险”。所以训练的过程,即是发现临床数据与“高血压”隐含的关联性的过程。则已知特征数据中有需要包括部分匹配该疾病特征的数据(如高血压患者的临床数据),和部分不匹配该疾病特征的数据(如非高血压患者的临床数据)。从而获悉临床数据与数据特征之间特定的关联性。
[0057] 而未知特征数据,即不能够确定其是否对应特定的疾病特征的临床数据。
[0058] 步骤202、通过所述已知特征数据进行监督学习训练,以获得所述已知特征数据与数据特征的函数关系,通过所述函数关系建立所述预测模型。
[0059] 在一些情况下,可以通过监督学习训练建立预测模型。所述监督学习训练,即通过人工智能计算来对已知特征数据进行训练,发现临床数据和已知的数据特征之间,存在怎样的关联性。
[0060] 假设一份已知特征数据表示为(x,y)。其中x表示数据的数值,具体可以用x=(x1,x2…xn)来表达x1~xn共n项临床指标各自的数值。y表示数据特征,在本实施例中可认为当y=1即数据特征为“高血压患者”,y=0即数据特征为“非高血压患者”。
[0061] 经过所述监督学习训练,可获得已知特征数据与数据特征的函数关系y=f(x)。即获得所述预测模型。对于未知数据特征的临床数据,只需将其数值作为x代入模型,即可得到数据特征y。
[0062] 步骤203、通过所述已知特征数据和未知特征数据进行半监督学习训练,以获得所述已知特征数据与数据特征的函数关系,通过所述函数关系建立所述预测模型。
[0063] 在另一些情况下,也可以通过半监督学习训练建立预测模型。所述半监督学习训练,即对部分已知特征数据和部分未知特征数据共同进行训练,发现临床数据和已知的数据特征之间,存在怎样的关联性。
[0064] 步骤204、利用特定类型的测试数据对所述预测模型进行测试,得到各所述预测模型针对所述特定类型的测试指标。
[0065] 步骤205、将所述测试指标最高的预测模型,确定为所述特定类型对应的目标预测模型。
[0066] 通过以上技术方案可知,本实施例在图1所示实施例的基础上,进一步存在的有益效果是:本实施例中详细公开了利用监督学习训练和半监督学习训练方法建立预测模型的过程,使本发明所述方法整体技术方案更加完整,公开更加充分。
[0067] 如图3所示,为本发明所述获取临床数据预测模型的装置的一个具体实施例。本实施例所述装置,即用于执行图1~2所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括:
[0068] 格式处理模块301,用于对样本数据进行格式处理,得到样本集合。
[0069] 模型训练模块302,用于通过所述样本集合进行数据训练,以建立多个预测模型。
[0070] 模型测试模块303,用于利用特定类型的测试数据对所述预测模型进行测试,得到各所述预测模型针对所述特定类型的测试指标。
[0071] 模型确定模块304,用于将所述测试指标最高的预测模型,确定为所述特定类型对应的目标预测模型。
[0072] 图4是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
[0073] 处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry StandardArchitecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended  Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0074] 存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
[0075] 在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成获取临床数据预测模型的装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的获取临床数据预测模型的方法。
[0076] 上述如本发明图3所示实施例提供的获取临床数据预测模型的装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0077] 结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0078] 本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的获取临床数据预测模型的方法,并具体用于执行如图1~图2所示的方法。
[0079] 前述各个实施例中所述的电子设备可以为计算机。
[0080] 本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
[0081] 本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0082] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0083] 以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈