专利汇可以提供一类蛋白质二级结构智能预测模型构造技术专利检索,专利查询,专利分析的服务。并且本 发明 公开了一类 蛋白质 二级结构智能 预测模型 构造技术,利用多层递阶、逐步求精的结构模型集成。此模型CPM融合了原创型KAAPRO方法、新型同源性分析方法、改进型SVM方法等;CPM打破了传统的单一物化属性分析或单一结构序列分析的技术线路,而是采取了结构序列分析与物化属性分析相结合的优选线路,确保了模型整体的优化与预测 精度 的同时具有更好的普适性;CPM采用高起点的alpha/beta库挖掘;并以领域知识与背景知识贯穿;CPM能够很好地对偏alpha/beta型蛋白质的二级结构进行预测,取得86%的最高精度(同类最高达81%)。,下面是一类蛋白质二级结构智能预测模型构造技术专利的具体信息内容。
1、一类蛋白质二级结构智能预测模型构造技术,其特征在于:包括综合分析层、辅助判 定层、核心判定层、结果优化层;
1)综合分析层:本层综合了新型同源性分析与优化的SVM类化分析;
新型同源性分析:在多序列匹配阶段,采取基于退火进化的多序列匹配算法,使得比对的 结果具有更强的生物敏感性;在模型构建阶段,利用持续的双向隐马尔可夫模型和神经网络 的混合建模方法;
优化的SVM类化分析:在SVM方法的改进中,采取轮转策略,即构造H/~H、E/~E、C/~C、 H/E、H/C、E/C六个二分类器,根据样本与超平面的距离对目标样本判定;同时使用采样集 建立模型,进而修正的策略;
新型同源性分析方法基于序列结构,优化的SVM类化分析方法针对氨基酸物化属性,因此 本层同时综合了结构序列分析与物化属性分析结果,打破了传统的单一性分析的研究线路;
2)辅助判定层:本层采用优化的SVM二分类方法,以及对C库挖掘所得的关联规则集为 基础的关联分类算法;模型以人工选取的方式对C数据库进行构造,具体方式为对RS126数据 集分割窗口化,收集中间残基结构为C的记录组合而成;在此基础上,在KDD*过程模型的作 用下,获得分类效果较好的规则集,该集合可有效分离数据中的C结构,以最大程度避免向 核心判定层引入该结构,避免精度衰退;
3)核心判定层:本层的核心方式是原创性的基于KDTICM理论的KDD*模型与Maradbcm 算法,以及改进的关联规则分类CBA方法;该层的主要特征包括两方面:其一使用可信度与支 持度的测度来作为一个复合型度量;其二根据蛋白质生物数据的特性,使用内容分别相对偏 向alpha、beta的蛋白质库;此两个数据库是以CATH分类为基础,以同源性小于30%为条件, 选择α型、β型的蛋白质而构成;利用基于KDD*模型的Maradbcm算法对纯度较高的α蛋白质库 与β蛋白质库进行关联规则的挖掘,由此获得的挖掘结果是精化的规则;其在保证本层预测精 度的同时,为生物学家对二级结构折叠的进一步分析提供了依据;
4)结果优化层:本层主要设计倾向性因子、位能函数及合情推理三类方法,前两类方法 属于生物信息学固有方法,其主要利用生物信息背景知识进行结构预测;合情推理方法是建 立在二级结构具备的不同物化属性规律的基础上的;三种方法从不同角度对其下三层的结果 加以优化,以最大程度地提高整体预测精度。
2、如权利要求1所述的一类蛋白质二级结构智能预测模型构造技术,其特征在于:
新型同源性分析技术由两个步骤组成:第一步,多序列匹配过程,根据遗传算法容易导 致早熟收敛问题,使得进化无法收敛到最优解的缺陷,而模拟退火具有概率突跳的双向搜索 能力,既容易跳出局部极值的陷阱,又能确保搜索的全局优化性的优势,将模拟退火和遗传 算法结合,提出了基于退火进化的多序列比对算法,提高了全局和局部意义上的搜索能力和 效率,使二者在性能上互补长短;
第二步:模型建构过程,持续双向隐马尔可夫模型与神经网络的混合建模,在常规方法 中利用标准双向隐马尔可夫模型与神经网络的混合建模方法有其自身的弊端,即模型中参数 快速增长;采用持续的隐马尔可夫模型与神经网络的混合建模方法;
优化的SVM类化分析技术:
在SVM方法的改进中,采取轮转策略,即构造H/~H,E/~E,C/~C,H/E,H/C,E/C这六 个二分类器,根据样本与这些超平面的距离对目标样本判定;同时使用采样集建立模型,进而 修正的策略;在合成金子塔模型中,SVM在综合分析层需要进行三分类,再辅助判定层需要 进行二分类;SVM在进行多分类时,方法是构造一系列的二分类器,再将这一系列的二分类 器以某种方式组合起来,以达到多分类的目的。
3、如权利要求2所述的一类蛋白质二级结构智能预测模型构造技术,其特征在于:新 型同源性分析技术实现步骤为:
步骤1、设置遗传算法以及退火过程中涉及到的各控制参数、包括群体规模、交叉概概率、 初始温度和退火迭代次数;
步骤2、初始化程序中的各个变量;
步骤3、生成初始群体;
步骤4、选择被复制而直接进入下一代或参与交叉操作的个体;
步骤5、对选择的个体按照交叉概率实施交叉操作,生成新群体,并采用保优原则,成的 新个体目标函数值大于当前最优解,则新个体替换为当前最优解,否则保持不变;
步骤6、对新群体中的所有个体按照变异概率进行变异操作,同样采用保优原则;
步骤7、对变异操作生成的新群体中所有个体实施退火操作,实现新旧群体的更新;
步骤8、判断是否满足程序终止条件;若不满足程序终止条件,则按照定义的降温方式更 度参数T;
如果满足程序终止条件,则终止进化,输出最优解;
其中,适应度函数的设计公式为:
公式中的wij是序列Si和Sj的权值,表好似两个序列的进化关系;权值由系统进化树获得;
算法中的初始种群的选择,退火操作中接受性能较差的后代个体的概率为: 其中Δf=fchild-fparent,采用的降温方式为:
4.如权利要求2所述的一类蛋白质二级结构智能预测模型构造技术,其特征在于:优化 的SVM类化分析技术的实现步骤为:
步骤1、计算出样本点到H/~H这个二分类器的最优超平面的距离;
步骤2、计算出样本点到E/~E这个二分类器的最优超平面的距离;
步骤3、计算出样本点到C/~C这个二分类器的最优超平面的距离;
步骤4、选择离H/~H,E/~E,C/~C中最优超平面最远的那个二分类器;
步骤5、若离H/~H最优超平面最远,则进行H/~H、E/C分类;若离E/~E最优超平面最 远,则进行E/~E、H/C分类;若离C/~C最优超平面最远,则进行C/~C、H/E分类;
步骤6、进行剩余的工作,预测出样本所属类别;
针对大规模样本集的学习策略:
首先用一个小规模的样本集训练得到一个初始的分类器,然后用这个分类器对大规模训 练集进行修剪,修剪后得到一个规模很小的约减集,再用这个约减集进行训练得到最终的分 类器,具体的步骤如下:
步骤1、从大规模样本集L中随机抽取一个小规模样本集S;
步骤2、然后用小规模样本集S训练得到初始的分类器,小规模样本集的规模依据两个 条件来确定:1)保证使用它训练时代价不高;2)保证使用它训练出的分类器有一定的分类精 度;
步骤3、用初始分类器修剪大规模样本集L;
步骤4、用约减集训练得到最终的分类器,具体方法是:设初始分类器的分类超平面为H, 对于L的任意一个样本s,设s与H的距离为d;若1-ε<d<1+ε,则保留此样本,否则 就删除它,其中0<ε<1为可以调整的阈值,阈值的调节具有两个功能:1)控制约减集的规 模;2)影响最终的分类器的分类精度。
5、如权利要求1所述的一类蛋白质二级结构智能预测模型构造技术,其特征在于:
核心判定层中的KDD*挖掘过程包括:
1)数据预处理:对真实数据库中的数据进行再加工,形成发掘数据库,并与所述的基础知 识库在基于属性建库的构造下建立对应关系;
2)聚焦:由通过人机交互输入的内容来指导数据发掘的方向;
3)定向挖掘:启发型协调器搜索知识库中“知识结点”的不关联态,计算有向超图的可达矩 阵来实现发现“知识短缺”,产生“创见意象”,从而启发与激活真实数据库中相应的“数据类”, 以产生“定向发掘进程”,进而用规则强度阈值进行剪枝并由计算机自动完成聚焦;
4)求取假设规则:通过选定的知识发掘法,从发掘数据库中提取用户所需要的知识,并用 特定的模式表达所提取的知识,主要通过可信度阈值来实现;
5)实时维护:当从真实数据库的大量数据中经聚焦而生成规则后,中断型协调器则用SQL 语言或计算有向超图的可达矩阵,去搜索知识库中对应位置有无此生成规则的重复、冗余、 矛盾、从属、循环等;若有,则取消该生成规则或相应处理后返回KDD的“始端”;若无,则继续 KDD进程,即知识评价;
6)评价:对实时维护处理后并被选取的规则进行价值评定,将被接受的规则存入衍生知识 库;
维护型协调器的主要功能是当从真实数据库的大量数据中经聚焦而生成感兴趣的与具有 一定可信度的规则后,使KDD进程产生“中断”,而去定向搜索知识库中对应位置有无此生成 规则的重复、冗余与矛盾;若有重复与冗余,则取消该生成规则或冗余规则而返回KDD的“始 端”;若无,则继续KDD进程;对于矛盾的处理,采用约束规则的条件与根据其可信度或关联 强度来裁决等方法;其主要功能有:1)重复的处理,重复是指两条知识表达方式、内容完全 一致,若将重复的知识存入知识库中,必然导致知识库的庞大,从而使得对知识库的操作浪 费大量的时间,这是不合理的;为此对重复的知识进行处理,当新知识的可信度大于旧知识 的可信度时,则以新知识的可信度代替旧知识的可信度,其它的不变;否则扔掉新知识;2) 矛盾的处理,矛盾是指由相同的前提推出相反的结论,或由相反的前提推出相同的结论;3) 冗余的处理,冗余是指有些新产生的知识可以由知识库中固有的知识表达出来,像这样的知 识都会造成知识库不必要的冗余,因而也必须加以解决;
启发型协调器的功能是在以属性为基础的知识库建库原则下,通过搜索知识库中“知识 结点”的不关联态,以发现“知识短缺”,产生“创见意象”,从而启发与激活真实数据库中 相应的“数据子类”,以产生“定向挖掘进程”;为了防止“海量定向挖掘”现象的产生,必 须规定优先级,以定向挖掘较可信与关联性强的待定规则;
基于双库协同机制,这一构建KDD过程中的数据库与知识库本质联系的认知规律,利用 新的知识发现结构模型KDD*,采用Maradbcm算法。
6.如权利要求5所述的一类蛋白质二级结构智能预测模型构造技术,其特征在于:启发 型协调算法实现步骤为:
步骤1、搜索自关联强度大于某一阈值的语言变量值,形成结点集S;
步骤2、对结点集S中的结点进行组合,形成元组集合;
步骤3、搜索现有知识库,从元组中除去已在知识库中存在的元组;
步骤4、对剩余元组按关联强度排序,给出定向搜索的优先序;
步骤5、按优先级排序,并逐一扫描各元组,聚集到数据库相应入口,进行定向挖掘; 并进行KDD进程。
7.如权利要求5所述的一类蛋白质二级结构智能预测模型构造技术,其特征在于:维护 型协调器算法实现步骤为:
步骤1、对挖掘出的知识逐一判断知识的可信度是否大于给定的阈值;若是,则进入步 骤2;否则进入下一条知识的判断;
步骤2、对由步骤1得到的知识判断知识是否重复;若是,则转入步骤1;否则转入步骤 3;
步骤3、对由步骤2得到的知识判断知识是否冗余;若是,则转入步骤1;否则转入步骤 4;
步骤4、对由步骤1得到的知识判断知识是否矛盾;若是,则转入步骤1;否则将知识存 入知识库;若所有的知识处理完,则算法终止;否则转入步骤1。
8.如权利要求5所述的一类蛋白质二级结构智能预测模型构造技术,其特征在于:基于 KDD*过程模型的Maradbcm算法的技术实现步骤为:
设规则强度阈值为Min_Intensity,支持度阈值为Min_Sup,可信度阈值为Min_Con;
步骤1、数据预处理:这里主要是用户选择真实数据库,对于多值属性进行离散化;
步骤2、划分数据子库,依据子库建立数据子类结构,形成挖掘数据库;划分知识子库, 依据知识子库建立知识结点,调用过程calculate_reach_matrix产生可达矩阵,从而形成挖掘 知识库;
步骤3、调用过程Heuristic_Coordinator(K2)产生K2;
步骤4、m=2;
步骤5、对Km产生假设规则:对Km中的短缺知识ri:e1∧e2∧...∧ep→eq(ri∈Km), 进行定向挖掘,即对数据表table1,table2,...,tablep,tableq进行挖掘,计算Con(ri) 和Intensity(ri),如果Con(ri)>Min_Con并且Intensity(ri)>Min_Intensity(ri),则转步骤6;否则, Km=Km-ri,转步骤8;
步骤6、对规则ri应用维护型协调器进行处理;即若Maintenance_Coordinator(ri)==0, 则取消该生成规则或相应处理;转步骤8;若无,则转步骤7;
步骤7、对规则ri进行评价;若评价通过则入库;若m==2,调用过程Calculate_matrix1(s, t)(ri:(s→t))来调整超图的可达矩阵;否则调用过程Calculate_matrix2((f1,f2,...,fs),t)(ri: (f1∧f2∧...∧fs→t))来调整超图的可达矩阵;若评价没有通过,则删除该规则;
步骤8、Km是否结束;若结束,当m==2时调用X1(P),否则调用X2(P);调用过程 Heuristic_Coordinator(Km,Km+1)来产生Km+1,转步骤9;若没结束,则转步骤5进行下 一条规则的处理;
步骤9、m=m+1,若Km=φ或者m>M(M为预先给定的最大长度),转步骤10;否则,转步 骤5;
步骤10、显示新产生的规则;
步骤11、结束;
过程calculate_reach_matrix
步骤1、知识库中所有的知识素结点的ID号,1,2,...n,组成一个矩阵Pn×n,用一个 二维数组来表示Pn×n,其元素均为0,即P(i,j)=0,其中i,j=1,2,...,n;
步骤2、e:=1;
步骤3、读取知识库中第e条长度为2的规则re:pi→pj;
步骤4、矩阵P(H)的元素P(i,j)=1;
步骤5、Calculate_matrix1(j,i,n);//调用过程Calculate_matrix1
步骤6、知识库中长度为2的规则是否读完?若没读完,则e:=e+1,转步骤3;否则转 步骤7;
步骤7、e:=1;
步骤8、读取知识库中的第e条长度大于2的规则re:pf1∧pf2∧...pfj→pi;
步骤9、Calculate_matrix2((f1,f2,...,fj),i);//调用过程Calculate_matrix2,
步骤10、知识库中长度大于2的规则是否读完?若没读完,则e:=e+1,转步骤8;否则 结束;
过程X1(P)
步骤1、for i:=0 to n//可达矩阵的列数
步骤2、for j:=0 to n//可达矩阵的列数
if(P(i,j)==1)Km=Km∪{i→j};
过程X2(P)//带有结点的规则
步骤1、for i:=n+1 to T//T为可达矩阵的行数
步骤2、for j:=0 to n//可达矩阵的列数
if(P(i,j)==1)Km=Km∪{i→j};
过程Calculate_matrix1(j,i,n:integer)
步骤1、for k:=1 to n
P(j,k):=P(j,k)∨P(i,k)
步骤2、for m:=1 to n
If P(m,j)=1 then
for k:=1 to n
P(m,k):=P(m,k)∨P(j,k)Procedure
过程Calculate_matrix2((f1,f2,...,fj),i)//(j>1)
步骤1、若虚结点pf1∧pf2∧...pfj不存在,则可达矩阵的后面加一行表示该结点
步骤2、P(pf1∧pf2∧...pfj,i)=1;
步骤3、for s:=1 to n
P(pf1∧pf2∧...pfj,s):=P(pf1∧pf2∧...pfj,s)∨P(i,s)
过程Procedure Heuristic_Coordinator(K2)该程序模块用以产生所有长度为2的 短缺知识;
步骤1、把可达矩阵从数据表ReachMatrix中读出,把support(pi)>min_sup的知识 素结点与全部知识合结点存入数组P中;
步骤2、K2=φ;
步骤3、for i:=0 to n//可达矩阵的列数
for j:=0 to n//可达矩阵的列数
if(P(i,j)=0 and attr(pi)≠attr(pj)and support(pipj)>min_sup)
//attr(pi)为知识素结点pi所对应的属性,相同属性的不同程度词不能出现在同一规则中, 对i,j对应的数据表tablei,tablej进行挖掘计算support(ri)
K2=K2∪{i→j};
过程Procedure Heuristic_Coordinator(Kx-1,Kx),该程序模块用以由长度为x-1的 短缺知识产生所有长度为x(x>2)的短缺知识;
步骤1、Kx=Φ;
步骤2、对于Kx-1中任意两规则fi1∧fi2∧...∧fix-1→j和gi1∧gi2∧...∧gix-1→i,若 fi1=gi1,...,fix-1=gix-1且j≠i,则Kx=Kx∪{fi1∧fi2∧...∧fix-1∧i→j,fi1∧fi2∧...∧fix-1∧j→i};
步骤3、对所有ri∈Kx;
步骤4、若support(ri)<=min_sup,则对ri对应的数据表table1,table2,...,tablep,tableq进 行挖掘;计算support(ri)
步骤5、Kx=Kx-ri。
本发明涉及蛋白质二级结构预测技术,特别涉及一种基于合成金子塔模型(CPM, Compound Pyramid Model)的智能预测技术,具体说是一类全新的逐步求精、多层递阶的蛋 白质二级结构预测模型-合成金子塔模型构造技术。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于鸟群算法与SVM的电能质量扰动源判断方法 | 2020-05-11 | 520 |
颈椎受力保护监控报警粘贴装置 | 2020-05-13 | 458 |
一种大规模群体仿真中的高速并行计算方法 | 2020-05-14 | 140 |
一种牵引供电系统的可靠性研究方法 | 2020-05-14 | 987 |
3D玻璃热弯机模具加热系统群智能优化设计方法 | 2020-05-12 | 804 |
一种基于区块链的抽奖方法 | 2020-05-14 | 391 |
一种基于边缘物联的区域智能变电站调度系统及其方法 | 2020-05-13 | 215 |
一种性别识别系统构建方法、系统及识别方法 | 2020-05-13 | 229 |
基于移动设备的机会式群体智能空气质量监测及评估方法 | 2020-05-08 | 107 |
一种基于人体红外感应的英语教学互动学习装置 | 2020-05-08 | 655 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。