首页 / 专利库 / 人工智能 / 机器学习 / 集成学习 / 随机森林 / 一种基于投票集成学习的心电数据智能分类方法

一种基于投票集成学习的心电数据智能分类方法

阅读:330发布:2020-05-12

专利汇可以提供一种基于投票集成学习的心电数据智能分类方法专利检索,专利查询,专利分析的服务。并且本 发明 的基于投票 集成学习 的心电数据智能分类方法,其特征在于,通过以下步骤来实现:a).数据预处理;b).建立logistic回归模型;c).建立 决策树 模型;d).建立一个 支持向量机 ;e).建立朴素贝叶斯模型;f).建立神经元模型;g).建立k邻近模型;h).模型集成,最终获得一个正确率不低于80%的模型,效果优于步骤b)至步骤g)中建立的单个模型。本发明的心电数据智能分类方法,首先从ccdd中获取足够数量的数据,将其分为训练集和测试集,然后建立各类模型,最后,获得一个正确率不低于80%的模型,可实现对“正常、房颤、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率”进行智能识别分类,实现心 血管 疾病 的早发现、早 治疗 。,下面是一种基于投票集成学习的心电数据智能分类方法专利的具体信息内容。

1.一种基于投票集成学习的心电数据智能分类方法,其特征在于,通过以下步骤来实现:
a).数据预处理,从中国心血管数据库ccdd获取足够数量的N条数据,并对每条数据进行特征提取,使得每条数据由172列组成,每条数据中第1列为序号、第2列为标签、剩余的
169列为特征;按照30%和70%的比例将N条数据分为训练集和测试集,同时提取标签列和特征列;
b).建立logistic回归模型,设计一个one-vs-rest的分类模型,不考虑各类型的权重;
选择L2正则化,其中优化算法使用开源的liblinear库,通过坐标轴下降法来迭代优化损失函数,迭代100次获得一个准确率不低于76.5%的logistic回归模型;
c).建立决策树模型,使用基尼系数为当前分裂特征,设计最大深度为3的决策树,设置叶子节点上的最小样本数为1,获得一个准确率不低于71%的决策树模型;
d).建立一个支持向量机,在样本空间中,划分超平面可通过如下线性方程来描述:
wTx+b=0  (1)
其中w为法向量,决定了超平面的方向,b为位移项,决定了超平面与原点之间的距离;
决策边界由参数w和b确定,我们将其记为(w,b);样本空间中任意点x到超平面(w,b)的距离可写为:
因此,线性支持向量机的学习就是要寻找满足约束条件的参数w和b,使得γ最大,即:
s.t. yi(wTxi+b)≥1  (4)
由于目标函数是二次的,并且约束条件在参数w和b上是线性的,因此线性支持向量机的学习问题是一个凸二次优化问题,直接用现成的优化计算包求解,获得一个准确率不低于72.8%的支持向量机模型;
e).建立朴素贝叶斯模型,选择使用先验为伯努利分布的朴素贝叶斯,得到的准确率不低于68%的朴素贝叶斯模型;
f).建立神经元模型,输入:来自其他m个神经传递过来的输入信号;处理:输入信号通过带权重的连接进行传递,神经元接受到总输入值将与神经元的阈值进行比较;输出:通过激活函数的处理以得到输出;
激活函数选择logistic函数,设置准顿方法族的优化器,共两个隐藏层,第一层10个神经元,第二层2个神经元,获得一个准确率不低于75%的神经元模型;
g).建立k邻近模型,在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类;
所有最近邻样本权重都一样,在做预测时一视同仁,取最近的两个点的分类,获得一个准确率不低于73.5%的k邻近模型;
h).模型集成,使用投票的方法将步骤b)至步骤g)中建立的模型集成,最终获得一个正确率不低于80%的模型,效果优于步骤b)至步骤g)中建立的单个模型。
2.根据权利要求1所述的基于投票集成学习的心电数据智能分类方法,其特征在于:步骤a)中所述的标签包括7类,7类标签分别为:正常、心房颤动、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率。
3.根据权利要求1或2所述的基于投票集成学习的心电数据智能分类方法,其特征在于,步骤h)中所述的模型集成具体通过以下步骤来实现:
h-1).通过Boosting方法生成一个adaboost分类器,先从初始训练集训练出一个基学习器,使用深度为1的CART分类树,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此重复进行,直至基学习器数目达到事先指定的值11,获得正确率不低于
72%的adaboost分类器模型;
h-2).通过Bagging方法生成一个随机森林分类器,随机森林是Bagging的一个扩展变体,在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择,具体地,传统决策树在选择划分属性时是在当前节点的属性集合中选择一个最优属性;而在随机森林中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分,最终获得一个正确率不低于77%的随机森林分类器模型;
h-3).使用投票的方法将以上模型进行集成,集成时使用基学习器的正确率作为其权重,在投票时考虑相对多数投票法:预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个,最终获得一个正确率不低于80%的模型,效果优于以上各基学习模型。

说明书全文

一种基于投票集成学习的心电数据智能分类方法

技术领域

[0001] 本发明涉及一种心电数据智能分类方法,更具体的说,尤其涉及一种基于投票集成学习的心电数据智能分类方法。

背景技术

[0002] 随着全球人口老龄化问题的日益加剧,患心脏疾病的人群日益增加。据不完全统计,全世界死亡人口中大约有三分之一属于心脏疾病;在我国,每年也有大约54万人死于心脏疾病。心脏疾病及其引发的其他心血管疾病正不断威胁着人类健康,通过各种方式提前预防、诊断心血管疾病显得尤为重要。随着穿戴式心电设备的普及,心电图的获取日益简单,但由于只有专业医师才能解读心电图,严重制约着心电图的应用。研究智能模型,实现心电图的智能诊断,从而使普通人也能看懂心电图,成为重要研究课题。本专利设计一种集成学习模型,针对心电数据进行“正常、房颤、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率”,这七种诊断的智能识别分类。

发明内容

[0003] 本发明为了克服上述技术问题的缺点,提供了一种基于投票集成学习的心电数据智能分类方法。
[0004] 本发明的基于投票集成学习的心电数据智能分类方法,其特征在于,通过以下步骤来实现:
[0005] a).数据预处理,从中国心血管数据库ccdd获取足够数量的N条数据,并对每条数据进行特征提取,使得每条数据由172列组成,每条数据中第1列为序号、第2列为标签、剩余的169列为特征;按照30%和70%的比例将N条数据分为训练集和测试集,同时提取标签列和特征列;
[0006] b).建立logistic回归模型,设计一个one-vs-rest的分类模型,不考虑各类型的权重;选择L2正则化,其中优化算法使用开源的liblinear库,通过坐标轴下降法来迭代优化损失函数,迭代100次获得一个准确率不低于76.5%的logistic回归模型;
[0007] c).建立决策树模型,使用基尼系数为当前分裂特征,设计最大深度为3的决策树,设置叶子节点上的最小样本数为1,获得一个准确率不低于71%的决策树模型;
[0008] d).建立一个支持向量机,在样本空间中,划分超平面可通过如下线性方程来描述:
[0009] wTx+b=0  (1)
[0010] 其中w为法向量,决定了超平面的方向,b为位移项,决定了超平面与原点之间的距离;决策边界由参数w和b确定,我们将其记为(w,b);样本空间中任意点x到超平面(w,b)的距离可写为:
[0011]
[0012] 因此,线性支持向量机的学习就是要寻找满足约束条件的参数w和b,使得γ最大,即:
[0013]
[0014] s.t.yi(wTxi+b)≥1  (4)
[0015] 由于目标函数是二次的,并且约束条件在参数w和b上是线性的,因此线性支持向量机的学习问题是一个凸二次优化问题,直接用现成的优化计算包求解,获得一个准确率不低于72.8%的支持向量机模型;
[0016] e).建立朴素贝叶斯模型,选择使用先验为伯努利分布的朴素贝叶斯,得到的准确率不低于68%的朴素贝叶斯模型;
[0017] f).建立神经元模型,输入:来自其他m个神经传递过来的输入信号;处理:输入信号通过带权重的连接进行传递,神经元接受到总输入值将与神经元的阈值进行比较;输出:通过激活函数的处理以得到输出;
[0018] 激活函数选择logistic函数,设置准顿方法族的优化器,共两个隐藏层,第一层10个神经元,第二层2个神经元,获得一个准确率不低于75%的神经元模型;
[0019] g).建立k邻近模型,在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类;
[0020] 所有最近邻样本权重都一样,在做预测时一视同仁,取最近的两个点的分类,获得一个准确率不低于73.5%的k邻近模型;
[0021] h).模型集成,使用投票的方法将步骤b)至步骤g)中建立的模型集成,最终获得一个正确率不低于80%的模型,效果优于步骤b)至步骤g)中建立的单个模型。
[0022] 本发明的基于投票集成学习的心电数据智能分类方法,步骤a)中所述的标签包括7类,7类标签分别为:正常、心房颤动、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率。
[0023] 本发明的基于投票集成学习的心电数据智能分类方法,步骤h)中所述的模型集成具体通过以下步骤来实现:
[0024] h-1).通过Boosting方法生成一个adaboost分类器,先从初始训练集训练出一个基学习器,使用深度为1的CART分类树,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此重复进行,直至基学习器数目达到事先指定的值11,获得正确率不低于72%的adaboost分类器模型;
[0025] h-2).通过Bagging方法生成一个随机森林分类器,随机森林是Bagging的一个扩展变体,在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择,具体地,传统决策树在选择划分属性时是在当前节点的属性集合中选择一个最优属性;而在随机森林中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分,最终获得一个正确率不低于77%的随机森林分类器模型;
[0026] h-3).使用投票的方法将以上模型进行集成,集成时使用基学习器的正确率作为其权重,在投票时考虑相对多数投票法:预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个,最终获得一个正确率不低于80%的模型,效果优于以上各基学习模型。
[0027] 本发明的有益效果是:本发明的基于投票集成学习的心电数据智能分类方法,首先从中国心血管数据库ccdd中获取足够数量的数据,将其分为训练集和测试集,然后建立logistic回归模型、决策树模型、支持向量机、朴素贝叶斯模型、神经元模型、k邻近模型,最后,采用预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个,最终获得一个正确率不低于80%的模型,效果优于以上各基学习模型,可实现对心电数据进行“正常、房颤、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率”进行智能识别分类,应用于穿戴式心电设备上之后,可提前预防、诊断心血管疾病,实现早发现、早治疗,将心脏疾病及其引发的其他心血管疾病威胁降到最低。

具体实施方式

[0028] 下面通过实施例对本发明作进一步说明。
[0029] 本发明的基于投票集成学习的心电数据智能分类方法,其特征在于,通过以下步骤来实现:
[0030] a).数据预处理,从中国心血管数据库ccdd获取足够数量的N条数据,并对每条数据进行特征提取,使得每条数据由172列组成,每条数据中第1列为序号、第2列为标签、剩余的169列为特征;按照30%和70%的比例将N条数据分为训练集和测试集,同时提取标签列和特征列;
[0031] 所获取数据不低于2万条,如采用23535条。
[0032] 所述的标签包括7类,7类标签分别为:正常、心房颤动、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率,如表1所示给出了7类标签:
[0033] 表1
[0034]0 正常
1 心房颤动
2 房性早搏
3 偶发房性早搏
4 频发房性早搏
5 房性心动过速
6 房颤伴快速心室率
[0035] b).建立logistic回归模型,设计一个one-vs-rest的分类模型,不考虑各类型的权重;选择L2正则化,其中优化算法使用开源的liblinear库,通过坐标轴下降法来迭代优化损失函数,迭代100次获得一个准确率不低于76.5%的logistic回归模型;
[0036] 线性回归完成的是回归拟合任务,而对于分类任务,我们同样需要一条线,但不是去拟合每个数据点,而是把不同类别的样本区分开来。Logistic回归是传统机器学习中的一种分类模型,由于算法的简单和高效,在实际应用非常广泛。它是直接对分类可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题。它不仅可以预测出所属类别,同时可以得到近似概率预测,这对许多需利用概率辅助决策的任务很有用。
[0037] c).建立决策树模型,使用基尼系数为当前分裂特征,设计最大深度为3的决策树,设置叶子节点上的最小样本数为1,获得一个准确率不低于71%的决策树模型;
[0038] 决策树学习算法包含特征选择、决策树的生成与剪枝过程。决策树的学习算法通常是递归地选择最优特征,并用最优特征对数据集进行分割。开始时,构建根结点,选择最优特征,该特征有几种值就分割为几个子集,每个子集分别递归调用此方法,返回结点,返回的结点就是上一层的子结点。直到所有特征都已经用完,或者数据集只有一维特征为止。决策树学习对噪声数据具有很好的鲁棒性,而且学习得到的决策树还能被表示为多条if-then形式的决策规则,因此具有很强的可读性和可解释性。
[0039] d).建立一个支持向量机,在样本空间中,划分超平面可通过如下线性方程来描述:
[0040] wTx+b=0  (1)
[0041] 其中w为法向量,决定了超平面的方向,b为位移项,决定了超平面与原点之间的距离;决策边界由参数w和b确定,我们将其记为(w,b);样本空间中任意点x到超平面(w,b)的距离可写为:
[0042]
[0043] 因此,线性支持向量机的学习就是要寻找满足约束条件的参数w和b,使得γ最大,即:
[0044]
[0045] s.t.yi(wTxi+b)≥1  (4)
[0046] 由于目标函数是二次的,并且约束条件在参数w和b上是线性的,因此线性支持向量机的学习问题是一个凸二次优化问题,直接用现成的优化计算包求解,获得一个准确率不低于72.8%的支持向量机模型;
[0047] 一般的线性分类器的思想是在样本空间中寻找一个超平面,将不同类别的样本分开。但是在同一个分类问题中,可以将训练样本分开的超平面可能有很多,支持向量机则在这些平面中设计一个最大化决策边界的边缘的现行分类器,这样具有更好的泛化误差。
[0048] e).建立朴素贝叶斯模型,选择使用先验为伯努利分布的朴素贝叶斯,得到的准确率不低于68%的朴素贝叶斯模型;
[0049] 在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X)Y=f(X),要么是条件分布P(Y|X)P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y)P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)P(Y|X)=P(X,Y)/P(X)得出。朴素贝叶斯很直观,计算量也不大,在很多领域有广泛的应用。
[0050] f).建立神经元模型,输入:来自其他m个神经云传递过来的输入信号;处理:输入信号通过带权重的连接进行传递,神经元接受到总输入值将与神经元的阈值进行比较;输出:通过激活函数的处理以得到输出;
[0051] 激活函数选择logistic函数,设置准牛顿方法族的优化器,共两个隐藏层,第一层10个神经元,第二层2个神经元,获得一个准确率不低于75%的神经元模型[0052] g).建立k邻近模型,在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类;
[0053] 所有最近邻样本权重都一样,在做预测时一视同仁,取最近的两个点的分类,获得一个准确率不低于73.5%的k邻近模型;
[0054] h).模型集成,使用投票的方法将步骤b)至步骤g)中建立的模型集成,最终获得一个正确率不低于80%的模型,效果优于步骤b)至步骤g)中建立的单个模型。
[0055] 步骤h)具体通过以下步骤来实现:
[0056] h-1).通过Boosting方法生成一个adaboost分类器,先从初始训练集训练出一个基学习器,使用深度为1的CART分类树,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此重复进行,直至基学习器数目达到事先指定的值11,获得正确率不低于72%的adaboost分类器模型;
[0057] h-2).通过Bagging方法生成一个随机森林分类器,随机森林是Bagging的一个扩展变体,在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择,具体地,传统决策树在选择划分属性时是在当前节点的属性集合中选择一个最优属性;而在随机森林中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分,最终获得一个正确率不低于77%的随机森林分类器模型;
[0058] h-3).使用投票的方法将以上模型进行集成,集成时使用基学习器的正确率作为其权重,在投票时考虑相对多数投票法:预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个,最终获得一个正确率不低于80%的模型,效果优于以上各基学习模型。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈