首页 / 专利库 / 资料储存系统 / 大数据 / 基于宏观因子的大数据预测方法及系统

基于宏观因子的大数据预测方法及系统

阅读:431发布:2023-03-24

专利汇可以提供基于宏观因子的大数据预测方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于宏观因子的 大数据 预测方法及系统,该方法包括:设置收集 基础 数据的范围;根据设置的范围收集与流感相关的基础数据;根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个 预测模型 ;根据所建立的多个预测模型分别得到相应的流感预测结果;整合所述多个预测模型的流感预测结果,得到最终预测结果。由此可以依据相对容易获取的信息建立模型, 对流 感进行提前预测。,下面是基于宏观因子的大数据预测方法及系统专利的具体信息内容。

1.一种基于宏观因子的大数据预测方法,其特征在于,该方法包括步骤:
设置收集基础数据的范围;
根据设置的范围收集与流感相关的基础数据;
根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型
根据所建立的多个预测模型分别得到相应的流感预测结果;及
整合所述多个预测模型的流感预测结果,得到最终预测结果。
2.根据权利要求1所述的基于宏观因子的大数据预测方法,其特征在于,所述基础数据包括自变量特征数据和因变量特征数据,所述因变量特征数据为每天医院确诊流感病例数,所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。
3.根据权利要求2所述的基于宏观因子的大数据预测方法,其特征在于,所述地区宏观医疗行为数据包括感冒发热类药物购买量及与流感相关的疾病就诊量。
4.根据权利要求1所述的基于宏观因子的大数据预测方法,其特征在于,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型。
5.根据权利要求2所述的基于宏观因子的大数据预测方法,其特征在于,所述根据所建立的多个预测模型分别得到相应的流感预测结果的步骤具体包括:
在所述多个预测模型中输入当天的自变量特征数据,分别得到三个相应的流感预测结果,所述流感预测结果为后一天的流感发生数量。
6.根据权利要求1所述的基于宏观因子的大数据预测方法,其特征在于,所述整合是对所述多个预测模型的流感预测结果取平均值。
7.一种基于宏观因子的大数据预测系统,其特征在于,该系统包括:
设置模,用于设置收集基础数据的范围;
收集模块,用于根据设置的范围收集与流感相关的基础数据;
建立模块,用于根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型;
评估模块,用于根据所建立的多个预测模型分别得到相应的流感预测结果;及整合模块,用于整合所述多个预测模型的流感预测结果,得到最终预测结果。
8.根据权利要求7所述的基于宏观因子的大数据预测系统,其特征在于,所述基础数据包括自变量特征数据和因变量特征数据,所述因变量特征数据为每天医院确诊流感病例数,所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。
9.根据权利要求8所述的基于宏观因子的大数据预测系统,其特征在于,所述地区宏观医疗行为数据包括感冒发热类药物购买量及与流感相关的疾病就诊量。
10.根据权利要求7所述的基于宏观因子的大数据预测系统,其特征在于,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型。

说明书全文

基于宏观因子的大数据预测方法及系统

技术领域

[0001] 本发明涉及险评估技术领域,尤其涉及基于宏观因子的大数据预测方法及系统。

背景技术

[0002] 流行性感冒简称流感,是流感病毒引起的急性呼吸道感染,也是一种传染性强、传播速度快的疾病。其主要通过空气中的飞沫、人与人之间的接触或与被污染物品的接触传播。典型的临床症状是:急起高热、全身疼痛、显著乏和轻度呼吸道症状。一般秋冬季节是其高发期,主要影响鼻、喉、支气管,并偶尔影响部。
[0003] 流感多数为轻症,染病者在一至二周内康复,无需进行医学治疗。部分病例可出现严重症状,甚至导致死亡。20世纪曾发生过5-6次流感疫情的大暴发,其中最严重的一次1918年西班牙流感导致约5000万欧洲人死亡。流感病毒可分为甲(A)、乙(B)、丙(C)三型,甲型病毒经常发生抗原变异,传染性大,传播迅速,极易发生大范围流行。
[0004] 传统的流感监控监测依赖于疾病预防控制中心(Centers for Disease Control,CDC)的全国监测网络,通过哨点医院收集流感抽样病例数据及CDC实验室进行抽样病例的病毒检测进行监测。但是,CDC的统计数据有一定的滞后性,通常滞后一到两周左右,不能对流感暴发进行提前预测预警。并且,流感病毒的鉴定相对较困难,对于一些经济落后地区无法监测或诊断流感。谷歌曾经开发了一款流感预测产品,但是由于搜索数据噪音偏大,预测模型稳定性较差,已经下线。

发明内容

[0005] 有鉴于此,本发明的目的在于提供一种基于宏观因子的大数据预测方法及 系统,以解决不能对流感进行提前预测预警及流感病毒鉴定困难的问题。
[0006] 为实现上述目的,本发明提供一种基于宏观因子的大数据预测方法,该方法包括步骤:
[0007] 设置收集基础数据的范围;
[0008] 根据设置的范围收集与流感相关的基础数据;
[0009] 根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型;
[0010] 根据所建立的多个预测模型分别得到相应的流感预测结果;及
[0011] 整合所述多个预测模型的流感预测结果,得到最终预测结果。
[0012] 优选地,所述基础数据包括自变量特征数据和因变量特征数据,所述因变量特征数据为每天医院确诊流感病例数,所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。
[0013] 优选地,所述地区宏观医疗行为数据包括感冒发热类药物购买量及与流感相关的疾病就诊量。
[0014] 优选地,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型。
[0015] 优选地,所述根据所建立的多个预测模型分别得到相应的流感预测结果的步骤具体包括:
[0016] 在所述多个预测模型中输入当天的自变量特征数据,分别得到三个相应的流感预测结果,所述流感预测结果为后一天的流感发生数量。
[0017] 优选地,所述整合是对所述多个预测模型的流感预测结果取平均值。
[0018] 本发明提出的基于宏观因子的大数据预测方法,可以根据与流感相关的地区宏观医疗行为数据,结合天气、季节等气象数据,采用时间序列预测方法和多项式回归方法建立多个预测模型,通过对多个模型预测结果的整合进行流感未来预测,主要是预测流感高发期。该方法依据相对容易获取的信息建立模型,可以很好的代替或辅助疾控中心流感的监测或提前预测,大大提高了流感预测能力。
[0019] 为实现上述目的,本发明还提出一种基于宏观因子的大数据预测系统,该系统包括:
[0020] 设置模,用于设置收集基础数据的范围;
[0021] 收集模块,用于根据设置的范围收集与流感相关的基础数据;
[0022] 建立模块,用于根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型;
[0023] 评估模块,用于根据所建立的多个预测模型分别得到相应的流感预测结果;及[0024] 整合模块,用于整合所述多个预测模型的流感预测结果,得到最终预测结果。
[0025] 优选地,所述基础数据包括自变量特征数据和因变量特征数据,所述因变量特征数据为每天医院确诊流感病例数,所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。
[0026] 优选地,所述地区宏观医疗行为数据包括感冒发热类药物购买量及与流感相关的疾病就诊量。
[0027] 优选地,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型。
[0028] 本发明提出的基于宏观因子的大数据预测系统,可以根据与流感相关的地区宏观医疗行为数据,结合天气、季节等气象数据,采用时间序列预测方法和多项式回归方法建立多个预测模型,通过对多个模型预测结果的整合进行流感未来预测,主要是预测流感高发期。该系统依据相对容易获取的信息建立模型,可以很好的代替或辅助疾控中心流感的监测或提前预测,大大提高了流感预测能力。附图说明
[0029] 图1为本发明第一实施例提出的一种基于宏观因子的大数据预测方法的流程图
[0030] 图2为本发明第二实施例提出的一种大数据预测系统的模块示意图;
[0031] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0032] 为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0033] 第一实施例
[0034] 如图1所示,本发明第一实施例提出一种基于宏观因子的大数据预测方法,该方法包括以下步骤:
[0035] S100,设置收集基础数据的范围。
[0036] 具体地,所述范围包括时间、地区等。例如地区为A地区,时间为2012年8月到2015年8月连续三年。
[0037] S102,根据设置的范围收集与流感相关的基础数据。
[0038] 具体地,所述基础数据包括自变量特征数据和因变量特征数据。其中,所述因变量特征数据为每天医院确诊流感病例数,即国际疾病分类(International Classification of Diseases,ICD)编码为J10\J11及明确注明“流感”或“流行性感冒”的病例数。所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。
[0039] 所述地区宏观医疗行为数据包括阿莫西林、急性支气管炎/气管支气管炎、黄颗粒等感冒发热类药物购买量,以及咳嗽、感冒等疾病就诊量等29种特征数据。在本实施例中,所述地区宏观医疗行为数据可以从地区医疗就诊信息系统中进行收集。
[0040] 所述气象数据包括最高温度(℃),最低温度(℃),温差(℃),风向数值表示,风力程度,季节数值表示,天气程度,天气突变程度,降雨程度,含今天过去7天的平均最高温度,最高温度和平均最高温度的温差,含今天过去7天的平均最低温度,最低温度和平均最低温度的温差等。在本实施例中,所述气象数据可以从地区气象信息系统中进行收集。
[0041] 例如,收集A地区医疗就诊信息系统2012年8月到2015年8月连续三年共1103天数据以及对应时间的气象数据。
[0042] S104,根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型。
[0043] 所述时间序列预测方法是一种历史资料延伸预测方法,是以时间数列所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法。时间序列是将某种统计指标的数值,按时间先后顺序排到所形成的数列。时间序列预测方法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的平。在本实施例中,利用流感每日数量制作时间序列,利用历史数据进行训练和测试,学习时间序列本身的周期性、趋势性和随机性,来建立预测模型,从而进行未来预测。所述多项式回归方法在本实施例中主要是二次项回归。
[0044] 具体地,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型。
[0045] 以下是使用上述三种预测模型进行模型构建训练与测试的具体应用举例:
[0046] 针对上述三种预测模型,训练集为2012-2014共880天对应的基础数据,测试集为2015年1月至8月共223天对应的基础数据。实际构建中,每种预测模型对应的训练集不同,分别为2014年数据、2013-2014年数据,滑动窗口数据(300天、200天、100天)等。
[0047] 其中,所述自动筛选特征模型是基于2013-2014年训练数据,选择均方根误差较小的特征进行建模,二次项逐步筛选,用2015年数据交叉验证。所述人工观察筛选特征模型主要考虑2015年大高峰的预测效果进行单变量观察筛选。所述滑动窗口预测模型的训练集为不断滑动的历史100天、200天、300天数据,测试集为后7天数据。
[0048] 步骤S106,根据所建立的多个预测模型分别得到相应的流感预测结果。
[0049] 具体地,根据所述自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型,输入该地区在预设时间内对应的基础数据(自变量特征数据),可以分别得到三个相应的流感预测结果。在本实施例中,所述预设时间为当天, 所述流感预测结果为后一天的流感发生数量。
[0050] 步骤S108,整合所述多个预测模型的流感预测结果,得到最终预测结果。
[0051] 具体地,所述整合所述多个预测模型的流感预测结果可以是对所述多个预测模型的流感预测结果取平均值。另外,可以取流感发生数量的上十分位为流感高发。例如,根据历史数据预测A地区2015年流感高发情况,上十分位切点为24例/天,合168例/周。
[0052] 本实施例所提出的基于宏观因子的大数据预测方法,可以根据与流感相关的地区宏观医疗行为数据,结合天气、季节等气象数据,采用时间序列预测方法和多项式回归方法建立多个预测模型,通过对多个模型预测结果的整合进行流感未来预测,主要是预测流感高发期。该方法依据相对容易获取的信息(例如感冒类非处方药)建立模型,可以很好的代替或辅助疾控中心流感的监测或提前预测,大大提高了流感预测能力。
[0053] 第二实施例
[0054] 如图2所示,本发明第三实施例提出一种大数据预测系统20。
[0055] 在本实施例中,大数据预测系统20包括设置模块200、收集模块202、建立模块204、评估模块206及整合模块208。
[0056] 所述设置模块200,用于设置收集基础数据的范围。
[0057] 具体地,所述范围包括时间、地区、特征变量等。例如地区为A地区,时间为2012年8月到2015年8月连续三年。
[0058] 所述收集模块202,用于根据设置的范围收集与流感相关的基础数据。
[0059] 具体地,所述基础数据包括自变量特征数据和因变量特征数据。其中,所述因变量特征数据为每天医院确诊流感病例数,即ICD编码为J10\J11及明确注明“流感”或“流行性感冒”的病例数。所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。
[0060] 所述地区宏观医疗行为数据包括阿莫西林、急性支气管炎/气管支气管炎、银黄颗粒等感冒发热类药物购买量,以及咳嗽、感冒等疾病就诊量等29种特征数据。在本实施例中,所述地区宏观医疗行为数据可以从地区医疗就诊信息系统中进行收集。
[0061] 所述气象数据包括最高温度(℃),最低温度(℃),温差(℃),风向数值表示,风力程度,季节数值表示,天气程度,天气突变程度,降雨程度,含今天过去7天的平均最高温度,最高温度和平均最高温度的温差,含今天过去7天的平均最低温度,最低温度和平均最低温度的温差等。在本实施例中,所述气象数据可以从地区气象信息系统中进行收集。
[0062] 例如,收集A地区医疗就诊信息系统2012年8月到2015年8月连续三年共1103天数据以及对应时间的气象数据。
[0063] 所述建立模块204,用于根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型。
[0064] 所述时间序列预测方法是一种历史资料延伸预测方法,是以时间数列所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法。时间序列是将某种统计指标的数值,按时间先后顺序排到所形成的数列。时间序列预测方法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。在本实施例中,利用流感每日数量制作时间序列,利用历史数据进行训练和测试,学习时间序列本身的周期性、趋势性和随机性,来建立预测模型,从而进行未来预测。所述多项式回归方法在本实施例中主要是二次项回归。
[0065] 具体地,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型。
[0066] 以下是使用上述三种预测模型进行模型构建训练与测试的具体应用举例:
[0067] 针对上述三种预测模型,训练集为2012-2014共880天对应的基础数据,测试集为2015年1月至8月共223天对应的基础数据。实际构建中,每种预测模型对应的训练集不同,分别为2014年数据、2013-2014年数据,滑动窗口数据(300天、200天、100天)等。
[0068] 其中,所述自动筛选特征模型是基于2013-2014年训练数据,选择均方根误差较小的特征进行建模,二次项逐步筛选,用2015年数据交叉验证。所述人工观察筛选特征模型主要考虑2015年大高峰的预测效果进行单变量观察筛选。所述滑动窗口预测模型的训练集为不断滑动的历史100天、200天、300天数据, 测试集为后7天数据。
[0069] 所述评估模块206,用于根据所建立的多个预测模型分别得到相应的流感预测结果。
[0070] 具体地,评估模块206根据所述自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型,输入该地区在预设时间内对应的基础数据(自变量特征数据),可以分别得到三个相应的流感预测结果。在本实施例中,所述预设时间为当天,所述流感预测结果为后一天的流感发生数量。
[0071] 所述整合模块208,用于整合所述多个预测模型的流感预测结果,得到最终预测结果。
[0072] 具体地,所述整合所述多个预测模型的流感预测结果可以是对所述多个预测模型的流感预测结果取平均值。另外,可以取流感发生数量的上十分位为流感高发。例如,根据历史数据预测A地区2015年流感高发情况,上十分位切点为24例/天,合168例/周。
[0073] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0074] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0075] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0076] 以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范 围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0077] 本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈