首页 / 专利库 / 解剖与生理 / / 一种用于肺癌筛查的模式识别方法

一种用于癌筛查的模式识别方法

阅读:3发布:2021-06-11

专利汇可以提供一种用于癌筛查的模式识别方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及的一种 模式识别 方法,主要用于早期 肺 癌筛查的 电子 鼻的 数据处理 、对原始数据进行分类识别。模式识别系统主要包括:S1数据预处理、S2特征提取并进行S3分类训练和S4分类识别,其对 传感器 阵列采集的数据进行处理。S1对原始的数据将进行数据解析、基线处理、滤波和数据标准化;S2采用拉布拉斯特征映射(LE) 降维 方法对预处理后的特征矩阵降维以提取主要特征;数据预处理和特征提取完成后,S3是使用Fuzzy k‑NN分类 算法 分类方法对数据进行训练并获得判别函数,S4是基于判别函数对原始数据进行识别并判断样本是否患有肺癌。,下面是一种用于癌筛查的模式识别方法专利的具体信息内容。

1.为提高早期癌筛查电子鼻系统的灵敏度和特异性,提出一种用于早期肺癌得模式识别方法,模式识别方法主要包括:S1数据预处理、S2特征提取并进行S3分类训练和S4分类识别,其步骤基本如下:
S1对原始的数据将进行数据解析、基线处理、滤波和数据标准化;
S2采用LE降维方法对预处理后的特征矩阵降维以提取主要特征;
数据预处理和特征提取完成后,S3是使用Fuzzy k-NN分类算法对数据进行训练并获得判别函数;
S4是基于判别函数对原始数据进行识别并判断样本是否患有肺癌。
2.根据权利要求1所述的一种用于肺癌筛查的模式识别方法,其特征在于:
所属步骤S1中对原始数据进行数据解析,并对解析后的数据进行基线处理,有效周期截取是将传感器采样气体反应的时间段进行截取,使得周期数据具有一致性,对传感器数据进行滤波,为了补偿气室中传感器测量结果的数值范围和/或单位差异,本发明采用标准差标准化方法。
3.根据权利要求1所述的一种用于肺癌筛查的模式识别方法,其特征在于:
所属步骤S2拉布拉斯特征映射(LE)是流形学习降维算法,降维后可以保持原始数据的流形结构,使得高维空间相互接近的点在低维空间也应相互接近。
4.根据权利要求1所述的一种用于肺癌筛查的模式识别方法,其特征在于:
所属步骤S3分类训练数据预处理以及特征提取完成后,就可以通过分类算法进行分类训练并获得判别函数。采用Fuzzy k-NN分类算法,相对于传统的k-NN分类算法,Fuzzy k-NN算法是对传统k-NN算法进行基于模糊逻辑方法改变后的算法,该方法给每个样本分配一个模糊分类的隶属值,改善了传统k-NN也有其缺陷,比如k值的选择可能会严重影响分类结果:过大的k值可能造成局部信息浪费,k值太小造成敏感过度而误分类。

说明书全文

一种用于癌筛查的模式识别方法

【技术领域】

[0001] 本发明涉及数据的模式识别技术领域,特别涉及一种用于早期肺癌筛查的计算机模式识别方法,该方法是电子鼻系统的重要组成部分。【背景技术】
[0002] 癌症是全球人类发病和死亡的主要原因,其中肺癌占据导致死亡的所有癌症的第一位。能及早发现肺癌并进行积极有效地治疗,可极大提高患者生存率,如Ⅰ期肺癌患者比Ⅳ期肺癌患者1年生存率高4~5倍。研究发现,基于呼气的电子鼻系统可广泛用于早期肺癌的筛查,具有无创、便携、操作简单等优势。电子鼻系统是将采样气体与传感器阵列进行反应并经过信号处理模,通讯接口将数据传入上位机进行模式识别并判断有无肺癌。
[0003] 本发明涉及肺癌筛查中电子鼻系统的模式识别算法部分,模式识别是指对表达事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等度,模式识别分为有监督的分类和无监督的分类两种。二者的主要差别在于各实验样本所属的类别是否预先已知。其应用领域广泛,在文字识别、语音识别、指纹识别、医学诊断等均有应用。
[0004] 模式识别在电子鼻系统对早期肺癌诊断中尤为重要,采集大量的临床数据,对预处理和特征提取后的数据进行分类训练。新的原始数据可使用模式识别进行分类并判断有无肺癌。【发明内容】
[0005] 近年来,因电子鼻系统在早期肺癌的诊断方面具有无创、操作简单等优势,其发展速度迅猛。模式识别作为系统中重要的一部分,可直接影响电子鼻系统的灵敏度和特异性。模式识别系统由四部分组成,数据预处理、特征提取并进行分类训练和分类识别。
[0006] 一种用于肺癌筛查的模式识别系统包括以下步骤:数据预处理和特征提取完成后,识别模块是基于分类模型对原始数据进行识别并判断样本是否患有肺癌。
[0007] S1对原始的数据将进行数据解析、基线处理、滤波和数据标准化;
[0008] S2采用拉布拉斯特征映射(LE)降维方法对预处理后的特征矩阵降维以提取主要特征;
[0009] 数据预处理和特征提取完成后,S3是使用Fuzzy k-NN分类算法分类方法对数据进行训练并获得判别函数;
[0010] S4是基于判别函数对原始数据进行识别并判断样本是否患有肺癌。
[0011] 在本发明所阐述的用于肺癌筛查的模式识别系统中,步骤S1数据预处理中首先对原始数据进行数据解析,以获取传感器响应数据,为了进行漂移补偿和对比增强,对解析后的数据进行基线处理。电子鼻系统在采样过程中对大量数据进行保存,有效周期截取是将传感器与采样气体反应的时间段进行截取,得到有价值的数据的同时使得样本的检测结果具有一致性。有些传感器对呼气的响应很小,由于自身灵敏度限制及其他干扰因素的存在,使得传感器响应波动,为避免噪声掩盖传感器对呼气的响应特性,需要对传感器进行滤波,滤波方法主要包括:小波滤波、中值滤波、移动平均滤波等。为了补偿气室中传感器测量结果的数值范围和/或单位差异,本发明采用标准差标准化方法。
[0012] 在本发明所阐述的用于肺癌筛查的模式识别系统中,步骤S2特征提取中,[0013] 降维方法使用的是非线性降维算法,拉布拉斯特征映射(LE)是流形学习降维算法,降维后可以保持原始数据的流形结构,这是其他降维方法不能比拟的,其基本理念是高维空间相互接近的点在低维空间也应相互接近。
[0014] 在本发明所阐述的用于肺癌筛查的模式识别系统中,步骤S3分类训练数据预处理以及特征提取完成后,就可以通过分类算法进行分类训练并获得判别函数了。由于本实验中所有样本状态是预定义的,即为监督分类,采用Fuzzy k-NN分类算法,相对于传统的 k-NN分类算法,Fuzzy k-NN算法是对传统k-NN算法进行基于模糊逻辑方法改变后的算法,该方法给每个样本分配一个模糊分类的隶属值,待测样本的隶属值可根据下列公式计算:
[0015]
[0016] 其中,μij为训练样本xj到第i个类别的隶属值,比例系数m决定在计算每个近邻对其隶属值时的欧式距离权重,研究中的m由交叉验证法确定最优值。验证时,将训练组随机分为10组,每次抽取其中一组作为测试组,其余组为训练组,然后统计正确分类的个数,如此循环10次直到所有组都作为测试组验证过一次,将正确分类数除以训练组样本总数,得到一个准确率,这样重复50次,将50个准确率的均值作为最终该参数下的分类准确率。这样计算多个参数值下的准确率后选取准确率最大的参数作为最终参数。
[0017] 在本发明所阐述的用于肺癌筛查的模式识别系统中,步骤S4分类识别中是基于分类训练建立的判别函数对原始数据进行识别,判断是否患有肺癌。【附图说明】
[0018] 图1是流程图
[0019] 图2是结构框图【具体实施方式】
[0020] S1对原始的数据将进行数据解析、基线处理、滤波和数据标准化;
[0021] S2采用LE降维方法对预处理后的特征矩阵降维提取主要特征;
[0022] 数据预处理和特征提取完成后,S3是使用Fuzzy k-NN分类算法分类方法对数据进行训练并获得判别函数;
[0023] S4是基于判别函数对原始数据进行识别并判断样本是否患有肺癌。
[0024] 步骤S1数据预处理中首先对原始数据进行数据解析,以获取传感器响应数据,为了进行漂移补偿和对比增强,对解析后的数据进行基线处理。并对传感器与采样气体反应的时间段进行截取,使得样本的检测结果具有一致性。对传感器进行滤波,滤波方法主要包括:小波滤波、中值滤波、移动平均滤波等。为了补偿气室中传感器测量结果的数值范围和/或单位差异,本发明采用标准差标准化方法。
[0025] 步骤S2特征提取中,降维方法使用的是非线性降维算法,拉布拉斯特征映射(LE) 是流形学习降维算法,降维后可以保持原始数据的流形结构,这是其他降维方法不能比拟的,其基本理念是高维空间相互接近的点在低维空间也应相互接近。
[0026] 在本发明所阐述的用于肺癌筛查的模式识别系统中,步骤S3分类训练数据预处理以及特征提取完成后,就可以通过分类算法进行分类训练并获得判别函数了。由于本实验中所有样本状态是预定义的,即为监督分类,采用Fuzzy k-NN分类算法,相对于传统的 k-NN分类算法,Fuzzy k-NN算法是对传统k-NN算法进行基于模糊逻辑方法改变后的算法,该方法给每个样本分配一个模糊分类的隶属值,待测样本的隶属值可根据下列公式计算:
[0027]
[0028] 其中,μij为训练样本xj到第i个类别的隶属值,比例系数m决定在计算每个近邻对其隶属值时的欧式距离权重,研究中的m由交叉验证法确定最优值。验证时,将训练组随机分为10组,每次抽取其中一组作为测试组,其余组为训练组,然后统计正确分类的个数,如此循环10次直到所有组都作为测试组验证过一次,将正确分类数除以训练组样本总数,得到一个准确率,这样重复50次,将50个准确率的均值作为最终该参数下的分类准确率。这样计算多个参数值下的准确率后选取准确率最大的参数作为最终参数。
[0029] 在本发明所阐述的用于肺癌筛查的模式识别系统中,步骤S4分类识别中是基于分类训练建立的判别函数对原始数据进行识别,判断是否患有肺癌。
[0030] 上述方法实例与系统是一一对应的,因此,方法的扩展也可适用于上述系统实例实施。结合本文所公开的实例描述的方法或者算法的步骤可直接用于硬件、处理执行的软件模块,或者二者结合起来实施。可以理解的是,本领域的普通技术人员应当理解,可以对本设计的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈