首页 / 专利库 / 数学与统计 / 优化算法 / 一种快速预测高分子禁带宽度的方法

一种快速预测高分子禁带宽度的方法

阅读:42发布:2023-12-27

专利汇可以提供一种快速预测高分子禁带宽度的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种快速预测高分子禁带宽度的方法,基于第一性原理结合 支持向量机 ,包括以下步骤:从文献中查找高分子的结构和禁带宽度的实验值;用不同的第一性原理方法进行禁带宽度计算,选出最优方法;从文献中查找重复单元由4个模 块 高分子结构并优化;计算4模块高分子的禁带宽度;用Dragon 软件 生成描述符,将数据分为建模集和测试集;用最大相关最小冗余 算法 进行变量筛选,并用支持向量机建立模型;根据建立的模型快速预报待检测高分子的禁带宽度。本发明基于可靠的文献数据和建模方法,所建高分子禁带宽度的预报模型具有简便快捷、低成本、无污染等优点。,下面是一种快速预测高分子禁带宽度的方法专利的具体信息内容。

1.一种快速预测高分子禁带宽度的方法,基于第一性原理并结合支持向量机,其特征在于,包括以下步骤:
1)查找重复单元由CH2、NH、CO、C6H4、C4H2S、CS、O的其中一种或几种构成的高分子的禁带宽度的实验值;
2)将这些高分子结构的重复单元用氢饱和,并用GaussView对结构进行优化;
3)用不同的第一性原理方法对上述高分子结构进行禁带宽度的计算,将计算值与实验值进行线性拟合,选出最优的第一性原理方法;
4)查找重复单元由CH2、NH、CO、C6H4、C4H2S、CS、O的其中四个模构成的高分子的结构,重复单元用氢饱和,并用GaussView对结构进行优化;
5)利用步骤3)的最优的第一性原理方法计算结构优化后的四模块高分子的禁带宽度;
6)用Dragon软件对结构优化后的四模块高分子生成描述符;
7)利用欧式距离判定方法将数据集样本划分为建模集和测试集;
8)以第一性原理方法计算的四模块高分子的禁带宽度为目标变量,Dragon生成的描述符为自变量,用最大相关最小冗余算法mRMR,结合支持向量机留一法验证对建模集进行变量筛选,选出最优变量,并用支持向量机建立高分子禁带宽度的快速预报模型;
9)根据建立的高分子禁带宽度的快速预报模型和待检测的高分子结构,快速预报待检测高分子的禁带宽度。
2.根据权利要求1所述的一种快速预测高分子禁带宽度的方法,其特征在于,所述步骤
2)中GaussView结构优化选用基组为6-31g(d,p)。
3.根据权利要求1所述的一种快速预测高分子禁带宽度的方法,其特征在于,所述步骤
7)中欧式距离判定方法具体步骤如下:
71)以自变量作为每个样本的坐标,创建一个高纬度空间;
72)选择禁带宽度最大的样本;
73)将选择的样本纳入建模集;
74)以该样本为圆心,R为半径建立一个高纬度空间的球体,定义半径R为:
其中c为自定义的区分度因子,这里设定为0.5,V为自变量最值差的乘积,N为样本数,K为空间维数;
75)将样本间距d小于半径R的样本纳入测试集,定义样本i与样本i+1间距d为:
其中xi,n是样本i的第n个自变量,xi+1,n是样本i+1的第n个自变量;
76)选取剩余样本集中禁带宽度最大的样本,并重复步骤72)至75),直到所有的样本被归入建模集与测试集。
4.根据权利要求1所述的一种快速预测高分子禁带宽度的方法,其特征在于,所述步骤
8)中最大相关最小冗余算法筛选变量具体步骤如下:
81)计算自变量x和目标变量y的互信息,互信息计算公式为:
其中p(x,y)是联合概率密度,p(x)和p(y)是边缘概率密度;
82)S表示整个特征集,Sm是用来表示已选择特征集包括m个特征,Sn用来表示将选特征集包括n个特征,计算Sm中特征f和c的关联度D,D的计算公式为:
D=I(f,c)
83)计算Sm中特征f和Sn中所有特征的冗余R,R的计算公式为;
84)利用mRMR函数评估Sn中特征fi的最大相关和最小冗余,mRMR函数公式为:
85)得到评估后经过排序的特征集S:
S={f′1,f′2,…,f′h,…,fN′}
支持向量机回归算法具体步骤如下:
86)设定样本集为:(y1,x1),…,(yl,xl),非线性回归函数用下列回归函数表示:
αi*,αi与K(xi,xj)根据以下方程求出:
该拉格朗日约束条件为:
0≤αi≤C,i=1,…,l
其中∈为偏差值,C是设定的惩罚因子值;
87)K(xi,xj)选用适当的核函数来替代,这里采用径向基核函数,即:
其中σ是函数参数;
88)求出回归函数f(x)。

说明书全文

一种快速预测高分子禁带宽度的方法

技术领域

[0001] 本发明涉及高分子的电学性能领域,尤其是一种快速预测高分子禁带宽度的方法。技术背景
[0002] 高分子是由一种或几种简单的小分子经聚合反应形成的分子量很大的化合物,其分子结构都是由特定的结构单元通过共价键多次重复连接而成,相对分子质量可高达上百万,在物理和化学性质上与小分子化合物存在较大差异。高分子材料包括塑料、橡胶纤维薄膜、胶粘剂和涂料等,具有质量轻、强度高、抗腐蚀性能好等优于其他传统结构材料的特点,大量运用于航空、汽车、船舰、基础建设、军事用品等领域。
[0003] 禁带宽度(Band Gap)是指一个带隙宽度,符号为Eg,在固体中能带是不连续的,因此其电子能量也是不连续的,只有当自由电子或空穴存在时才具有导电的性质。自由电子存在的能带成为导带,自由空穴存在的能带称为价带,被束缚的电子要成为自由电子或者空穴,就必须获得足够的能量从价带跃迁到导带,这个能量的最小值就是禁带宽度,即导带的最低能级和价带的最高能级之间的能量差值。禁带宽度是描述半导体的重要特征之一,直接决定着半导体器件的耐压能和最高工作温度。半导体高分子是制备聚合物太阳能电池器件的核心材料,其禁带宽度是光电转换效率的重要影响因素之一,因此在制作聚合物太阳能电池工艺中,选择具有合适禁带宽度的高分子是重要步骤。
[0004] 第一性原理(First Principle)是根据原子核和电子相互作用的原理及其基本运动规律,通过量子力学原理求解薛定谔方程,从而预测材料性质的一系列理论方法。与第一性原理相对应的是基于经验参数的方法,包括分子动力学中的各种力场以及材料学中的经验公式,基于经验的特点使其缺乏可靠度与普适度,需要仔细验证。而第一性原理的出发点是薛定谔方程,从而避免了这个问题,只要给出材料的微观结构,理论上就能精确地算出各种性质。
[0005] 支持向量机(support vector machine,简称SVM)是数学家Vladimir N.Vapnik等建立在统计学习理论(statistical learning theory,简称SLT)基础上的机器学习新方法,包括支持向量分类(support vector classification,简称SVC)算法和支持向量回归(support vector regression,简称SVR)算法。支持向量机方法是建立在统计学习理论的VC维理论和结构险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以求获得最好的推广能力。本发明应用支持向量回归方法建模。
[0006] 在现有技术中,测量禁带宽度的实验方法有电学变温实验、紫外吸收光谱实验、光电效应以及光激发谱,这些实验所测得样品禁带宽度的影响因素较多,包括实验仪器误差、操作误差、样品晶格结构和杂质含量等,并且需要大型仪器的技术支持,测试成本较大且精确度不高。

发明内容

[0007] 本发明的目的是为了克服现有技术存在的缺陷,而提供一种简便快捷、低成本、数据全面准确、无需实验和繁杂的计算过程的第一性原理结合支持向量机快速预测高分子禁带宽度的方法。
[0008] 本发明的目的可以通过以下技术方案来实现:
[0009] 一种快速预测高分子禁带宽度的方法,基于第一性原理并结合支持向量机,包括以下步骤:
[0010] 1)查找重复单元由CH2、NH、CO、C6H4、C4H2S、CS、O的其中一种或几种构成的高分子的禁带宽度的实验值;
[0011] 2)将这些高分子结构的重复单元用氢饱和,并用GaussView对结构进行优化;
[0012] 3)用不同的第一性原理方法对上述高分子结构进行禁带宽度的计算,将计算值与实验值进行线性拟合,选出最优的第一性原理方法;
[0013] 4)查找重复单元由CH2、NH、CO、C6H4、C4H2S、CS、O的其中四个模构成的高分子的结构,重复单元用氢饱和,并用GaussView对结构进行优化;
[0014] 5)利用步骤3)的最优的第一性原理方法计算结构优化后的四模块高分子的禁带宽度;
[0015] 6)用Dragon软件对结构优化后的四模块高分子生成描述符;
[0016] 7)利用欧式距离判定方法将数据集样本划分为建模集和测试集;
[0017] 8)以第一性原理方法计算的四模块高分子的禁带宽度为目标变量,Dragon生成的描述符为自变量,用最大相关最小冗余算法(mRMR),结合支持向量机留一法验证对建模集进行变量筛选,选出最优变量,并用支持向量机建立高分子禁带宽度的快速预报模型;
[0018] 9)根据建立的高分子禁带宽度的快速预报模型和待检测的高分子结构,快速预报待检测高分子的禁带宽度。
[0019] 与现有技术相比,本发明具有以下优点:
[0020] 一、预报高分子禁带宽度简单、快捷:利用Dragon软件对优化好的高分子结构生成描述符,把得到的描述符数据导入模型,仅需数秒就可以得到计算结果,方便、快捷,仅需一人即可完成。
[0021] 二、成本低:本发明利用第一性原理结合支持向量机快速预测高分子的禁带宽度,对待测禁带宽度的高分子进行预报操作简单,成本低。
[0022] 三、数据全面准确:本发明利用最大相关最小冗余算法对自变量进行降维,把原来的多维数据降到最具有代表性的16个,在降低了数据维度的同时保留了尽可能多的原始信息,模型简单,计算方便。
[0023] 四、无污染:本发明在整个过程中不涉及实验,不用化学药品,对环境没有污染。附图说明
[0024] 图1为禁带宽度TPSSPBE计算值与实验值拟合曲线。
[0025] 图2为高分子禁带宽度的支持向量机回归模型建模结果图。
[0026] 图3为高分子禁带宽度的支持向量机回归模型留一法交叉验证结果图。
[0027] 图4为高分子禁带宽度的支持向量机回归模型独立测试集结果图。

具体实施方式

[0028] 下面结合附图和具体实施例对本发明进行详细说明。
[0029] 本发明利用第一性原理结合支持向量机快速预测高分子的禁带宽度,包括如下步骤:
[0030] (1)文献中查找重复单元由CH2、NH、CO、C6H4、C4H2S、CS、O的其中一种或几种构成的高分子的禁带宽度的实验值,共找到9个,其重复单元结构和实验值禁带宽度如表1所示;
[0031] 表1:文献中高分子重复单元结构及其禁带宽度实验值
[0032]重复单元结构 Eg实验值(eV)
NH-CS-NH-C6H4-CH2-C6H4 3.30
NH-CS-NH-C6H4 3.10
NH-CS-NH-C6H4-NH-CS-NH-C6H4 3.07
NH-CO-NH-C6H4 3.90
NH-CS-NH-C6H4-NH-CS-NH-C6H4-CH2-C6H4 3.16
NH-CS-NH-C6H4-NH-CS-NH-C6H4-O-C6H4 3.22
NH-CS-NH-C6H4-NH-CS-NH-CH2-CH2-CH2-CH2 3.53
CO-NH-CO-C6H4 4.00
CH2-CH2-CH2-CH2 8.80
[0033] (2)将这些高分子结构的重复单元用氢饱和,并用GaussView对结构进行优化,优化选用的基组为6-31g(d,p);
[0034] (3)利用高斯中不同的第一性原理泛函方法对上述高分子结构进行禁带宽度的计算,将计算值与实验值进行线性拟合,选出最优的第一性原理方法,不同泛函方法计算值与实验值拟合曲线的决定系数(R2)如表2所示;
[0035] 表2:不同泛函方法的禁带宽度计算值与实验值的决定系数
[0036]泛函方法 PBEBE TPSSPBE PBETPSS OPBE TPSSB95
决定系数 0.9722 0.9765 0.9718 0.9723 0.9755
[0037] 最优的第一性原理泛函方法为TPSSPBE,其计算值与实验值的拟合曲线如图1所示;
[0038] (4)从文献中查找重复单元由CH2、NH、CO、C6H4、C4H2S、CS、O的其中四个模块构成的高分子的结构,共284个,重复单元用氢饱和,并用GaussView对结构进行优化,[0039] 优化选用的基组为6-31g(d,p);
[0040] (5)利用TPSSPBE泛函方法计算结构优化后的四模块高分子的禁带宽度,部分高分子重复单元与禁带宽度计算值如表3所示;
[0041] 表3:部分4模块高分子重复单元结构及禁带宽度计算值
[0042]重复单元结构 Eg计算值(eV)
CH2-CO-NH-CS 2.69117
CH2-CS-C6H4-O 2.04
C6H4-C6H4-C4H2S-CS 1.80608
CO-O-C4H2S-CS 1.9176
C6H4-CS-C4H2S-O 1.93093
[0043] (6)用Dragon软件对结构优化后的四模块高分子生成描述符,共计1094个,其中部分描述符如表4所示;
[0044] 表4:Dragon生成的部分分子描述符
[0045]MW AMW Mv Me Mp
103.16 9.378 0.634 1.025 0.694
152.23 8.457 0.667 0.997 0.73
280.43 9.046 0.727 0.982 0.802
172.24 12.303 0.776 1.041 0.838
220.33 10.015 0.736 1.001 0.809
166.21 9.777 0.717 1.022 0.755
[0046] (7)利用欧式距离判定方法将284个数据集样本划分为建模集和测试集,比例为4:1,训练集与测试集样本量分别为228和56,后续模型均采用统一的建模集;
[0047] 欧式距离判定方法具体步骤如下:
[0048] 71)以自变量作为每个样本的坐标,创建一个高纬度空间;
[0049] 72)选择禁带宽度最大的样本;
[0050] 73)将选择的样本纳入建模集;
[0051] 74)以该样本为圆心,R为半径建立一个高纬度空间的球体,定义半径R为:
[0052]
[0053] 其中c为自定义的区分度因子(Dissimilarity level),这里设定为0.5,V为自变量最值差的乘积,N为样本数,K为空间维数;
[0054] 75)将样本间距d小于半径R的样本纳入测试集,定义样本i与样本i+1间距d为:
[0055]
[0056] 其中xi,n是样本i的第n个自变量,xi+1,n是样本i+1的第n个自变量;
[0057] 76)选取剩余样本集中禁带宽度最大的样本,并重复步骤72)至75),直到所有的样本被归入建模集与测试集;
[0058] (8)以第一性原理计算的4模块高分子的禁带宽度为目标变量,Dragon生成的描述符为自变量,用最大相关最小冗余算法(mRMR)结合支持向量机留一法验证对建模集进行变量筛选,选出16个最优变量,并用支持向量机建立高分子禁带宽度的快速预报模型,选出的最优变量如表5所示;
[0059] 表5:最大相关最小冗余所选择的最优变量
[0060]nO VE1sign_RG HATS8u
P_VSA_ppp_D nTA SRW05
SpDiam_EA(dm) P_VSA_LogP_4 E3v
SM14_AEA(bo) R1p+ P_VSA_MR_2
ATS7m CATS2D_00_DD DISPp
LOC    
[0061] 最大相关最小冗余筛选变量具体步骤如下:
[0062] 81)计算自变量x和目标变量y的互信息,互信息计算公式为:
[0063]
[0064] 其中p(x,y)是联合概率密度,p(x)和p(y)是边缘概率密度;
[0065] 82)S表示整个特征集。Sm是用来表示已选择特征集包括m个特征。Sn用来表示将选特征集包括n个特征,计算Sm中特征f和c的关联度D,D的计算公式为:
[0066] D=I(f,c)
[0067] 83)计算Sm中特征f和Sn中所有特征的冗余R,R的计算公式为;
[0068]
[0069] 84)利用mRMR函数评估Sn中特征fi的最大相关和最小冗余,mRMR函数公式为:
[0070]
[0071] 85)得到评估后经过排序的特征集S:
[0072] S={f1′,f2′,…,fh′,…,fN′}
[0073] 支持向量机回归算法具体步骤如下:
[0074] 86)设定样本集为:(y1,x1),…,(yl,xl),非线性回归函数用下列回归函数表示:
[0075]
[0076] 拉格朗日待定系数αi*,αi与核函数K(xi,xj)可以根据以下方程求出:
[0077]
[0078] 该拉格朗日约束条件为:
[0079] 0≤αi≤C,i=1,...,l
[0080]
[0081]
[0082] ∈为偏差值,C是设定的惩罚因子值;
[0083] 87)K(xi,xj)可以选用适当的核函数来替代,这里采用径向基核函数,即:
[0084]
[0085] σ是函数参数;
[0086] 88)求出回归函数f(x)。
[0087] (9)根据建立的高分子禁带宽度的快速预报模型和待检测的高分子结构,快速预报待检测高分子的禁带宽度。
[0088] 实施例1:基于228个第一性原理结合支持向量机建立的高分子禁带宽度定量预报模型的建模结果,如图2所示。
[0089] 利用支持向量机回归算法对228个高分子样本数据进行回归建模,建立高分子禁带宽度的支持向量机回归定量预报模型。高分子禁带宽度模型预报值和第一性原理计算值的决定系数为0.9352。
[0090] 实施例2:基于228个第一性原理结合支持向量机建立的高分子禁带宽度定量预报模型的留一法内部交叉验证结果,如图3所示。
[0091] 采用留一法对228个样本数据建立的高分子禁带宽度的支持向量机定量预报模型进行留一法内部交叉验证,留一法中高分子禁带宽度的模型预报值和第一性原理计算值的决定系数为0.759。
[0092] 实施例3:基于228个第一性原理结合支持向量机建立的高分子禁带宽度定量预报模型的独立测试集预报结果,如图4所示。
[0093] 利用建立的高分子禁带宽度的支持向量机定量预报模型对独立测试集中的56个样本进行预报,得到了较好的结果。高分子禁带宽度的模型预报值和第一性原理计算值的决定系数为0.8503。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈