技术领域
[0001] 本
发明属于药物制剂领域,具体涉及一种包衣质量的鉴别方法。更具体地说,本发明涉及一种鉴别药物制剂包衣质量的方法。
背景技术
[0002] 直接压制而成的片剂,若其药物性质不稳定、有不良气味、对胃有刺激,或易被胃液破坏等,通常还需要在其表面上包一层辅料,使片内药物与外界隔离,从而进一步保证片剂质量。包衣层的质量直接影响着包衣效果,包衣层过薄无法达到保护片心的要求,而过厚则不利于包衣片的崩解,同时导致成本的增加。
[0003] 在实际生产中,对包衣质量的检测主要是通过包衣时间和包衣液的用量来估算包衣厚度,此法人为因素影响大,过分依赖技术人员,测量结果的客观性差,难于实现对包衣过程的准确控制。
[0004] 也有文献报道,运用化学计量学建立包衣厚度与
近红外光谱数据的回归模型,实现对包衣层厚度的定量检测,并取得了满意的效果。但在实际应用中,定量模型的建立需要采用经典方法测量大量包衣片的实际厚度,耗
力费时,还存在增加误差的
风险。此外,定量模型只能表达包衣厚度与
近红外光谱之间的相关性,未能体现包衣完整与否对其近红外光谱的影响,不能对包衣质量进行全面的评价。
发明内容
[0005] 发明目的
[0006] 为了解决上述技术问题,并实现对药物制剂包衣质量的全面评价,本发明提供了一种鉴别药物制剂包衣质量的方法。
[0007] 技术方案
[0008] 为了实现上述目的,本发明提供了一种鉴别药物制剂包衣质量的方法,该方法包括以下步骤:
[0009] (1)提供药物制剂包衣质量合格与不合格的批量样本,采集各样本的近红外光谱数据,其中所述近红外光谱数据均为全
波长数据,即NIR光谱扫描范围为4000~-110000cm ;
[0010] (2)以间隔主成分分析(interval PCA,iPCA)法对全部样本的近红外光谱数据进行波段选择,选择波长范围与样本质量相关性强的波段范围;
[0011] (3)使用SPXY(Sample set Partitioning based on joint x-y distance)法选取上述所有近红外光谱数据中的一部分作为训练集样本,上述数据中的另一部分作为测试集样本;
[0012] (4)对训练集所有选择波段光谱数据进行预处理,以增强有效
信号并提高
信噪比;
[0013] (5)使用步骤(4)中属于训练集样本且经过预处理的选择波段光谱数据,通过
支持向量机(SVM)法建立鉴别模型;
[0014] (6)使用上述鉴别模型,通过步骤(3)中的测试集样本的选择波段光谱数据,鉴别测试集样本的包衣质量,以此评价所建的鉴别模型;
[0015] (7)使用上述鉴别模型对其它包衣样本进行鉴别。
[0016] 具体地,在上述步骤(2)中,使用间隔主成分分析(interval PCA,iPCA)法进行光谱波段的选择。该法通过把整个光谱等分为若干个等宽的子区间并进行计算而建立待选的主成分模型,并通过观察比较全光谱模型和各子区间模型,选出特征信息量最丰富且对合格与不合格样本的区分度最大的波段。该法通过剔除不相关的波段,可以大大简化模型,并提高模型的学习
精度与预测能力。
[0017] 在该步骤中,选择波段的依据是:NIR谱图上既包括有用信息也包括干扰信息,全谱建模由于干扰信息的存在不仅使运算时间增加,同时还会使鉴别模型的预测精度降低。优选的波段就是那些包含大量丰富的有用信息,而噪音等干扰信息影响较小的波段。iPCA法其原理为把整个光谱等分为若干个等宽的子区间并进行计算,建立待选的PCA模型。通过观察比较全光谱模型和各子区间模型,选出特征信息量最丰富且对两组样本的区分度最大的波段。
[0018] 在上述步骤(3)中,使用SPXY法进行训练集样本的选择,将所有的样本都看作训练集候选样本,以自变量与因变量的欧式距离为标准,选取与剩余样本组成性质相似的部分样本作为模型的训练集样本,以保证训练集样本在整个样本空间分布均匀。与随机选取法相比,SPXY法选取的训练集更具代表性,有利于得到外推能力更强的模型。优选地,取所有样本的2/3作为训练集样本,1/3作为测试集样本。
[0019] 在上述步骤(4)中,对不同的预处理方法进行了优化组合,并对预测结果进行比较,最终确定预处理方法选自多元散射校正法、均值中心化法、标准化法、最小最大归一化法及其组合中。例如,可以是其中的一种或者两种及两种以上的组合。
[0020] 在上述步骤(5)中,支持向量机法的核函数为RBF核函数;其中,使用k折交叉验证准确率来确定RBF核函数的惩罚因子C和参数γ。优选地,使用网格搜索法结合k折交叉验证准确率来确定RBF核函数的惩罚因子C和参数γ。使用支持向量机(SVM)法建立近红外光谱鉴别模型。SVM法以训练误差作为优化问题的约束条件,置信范围值最小化作为优化目标,即采用结构风险最小化准则的学习方法,提高了模型的泛化能力。
[0021] 有益效果
[0022] 本发明提供的方法通过结合近红外光谱、间隔主成分分析法和支持向量机法等方法快速建立了包衣质量定性鉴别模型,实现了对药物制剂包衣质量的全面评价,并且鉴别准确率基本达到了工业生产的要求。相对于传统方法或经验判断,本发明提供的鉴别方法能够快速、无损、可靠、准确地在线鉴别药物制剂包衣过程中的包衣质量。
[0023] 本发明提供的方法以支持向量机(SVM)法为建模
基础,结合SPXY法以保证总体样本的广泛性与代表性,结合间隔主成分分析(iPCA)法以保证各个样本的有效性与合理性,并通过对光谱的预处理进一步降低无关信息的干扰,最终获得预测能力良好的模型。
附图说明
[0024] 图1为本发明
实施例1中乳
块消片糖衣片的近红外原始光谱图;
[0025] 图2为本发明实施例1中乳块消片糖衣片的9507.34cm-1~10001cm-1的近红外光谱数据在主成分特征空间上的投影图,其中1为合格品,2为不合格品;
[0026] 图3为本发明实施例1中乳块消片糖衣片的5754.54cm-1~6001.39cm-1的近红外光谱数据在主成分特征空间上的投影图,其中1为合格品,2为不合格品;
[0027] 图4为本发明实施例1中乳块消片糖衣片的3999.64cm-1~10001cm-1的近红外光谱数据在主成分特征空间上的投影图,其中1为合格品,2为不合格品;
[0028] 图5为本发明实施例1中步骤(5)所用的网格搜索法结合k折交叉验证法获得的优化参数C和γ。
具体实施方式
[0029] 本发明提供的鉴别方法可以应用于各种不同的药物制剂,不仅可以应用于糖衣包衣,而且可以应用于
薄膜包衣。
[0030] 下文,将以乳块消片(中成药)的包糖衣过程为例,举例说明本发明提供的鉴别方法。应该理解,下述优选实施方式只是对本发明进行的例证性说明,并不会限制本发明。
[0031] 实施例1
[0032] 1仪器
[0033] Antaris
傅立叶变换近红外光谱仪(美国Thermo Nicolet公司制造)配有InGaAs检测器、积分球漫反射
采样系统、Result操作
软件和TQ Analyst V6光谱分析软件。
[0034] 2NIR扫描条件
[0035] 采用积分球漫反射采样系统,NIR光谱扫描范围4000cm-1~10000cm-1;扫描次数-132;
分辨率8cm ;以内置背景为参照。
[0037] 本实施例使用iPCA法选择波段,使用SPXY法选取训练集和测试集,并对光谱进行适当的预处理,使用SVM法建立近红外光谱的鉴别模型,使用训练集k折交叉验证(k-fold cross-validation)准确率来确定RBF Kernel的参数γ和惩罚因子C,模型的学习精度和预测能力分别用训练集准确率和测试集准确率进行考察。其中,所述训练集交叉验证准确率是这样获得的:将训练集分为k份,其中k-1份作为
训练数据集,训练得到模型,而另外的1份作检验,计算准确率;这样重复n次,选取准确率最高的模型,该次准确率即为训练集交叉验证准确率,此值表征的是模型拟合的好坏。
[0038] 本实施例使用的是台湾大学林智仁教授编制的支持向量机软件libsvm-2.89(参见,Chih-Chung Chang,Chih-Jen Lin,LIBSVM:a library forsupport vector machines,2001,http://www.csie.ntu.edu.tw/~cjlin/libsvm),iPCA 工 具 包 使 用 的 是 由等人提供的网络共享(http://www.models.kvl.dk/source/iToolbox/),SPXY法由 提供(参见,Roberto Kawakami Harrop Mário César Ugulino
Araujo,Gledson EmidioJose,et al.A method for calibration and validation subset partitioning[J].Talanta,2005,67:736-740),采用MATLAB软件工具(Mathwork Inc.)计算。
[0039] 步骤(1):采集近红外光谱数据
[0040] 乳块消片糖衣片样本包括合格品和不合格品(包衣未完成品、破损的包衣片)两类,共计34批(252个样本),其中合格品和包衣未完成品由“北京中医药大学药厂”提供,破损的包衣片由“北京中医药大学中药信息工程研究中心实验室”制备。
[0041] 使用Antaris傅立叶变换近红外光谱仪采集上述各样本的近红外光谱数据,全部样本的数据如图1所示。
[0042] 步骤(2):使用iPCA法选择波段
[0043] iPCA法把整个光谱等分为若干个等宽的子区间并进行计算,建立待选的PCA模型。通过直接观察比较全光谱模型和各子区间模型,选出特征信息量最丰富且对合格与不合格两组样本的区分度最大的波段。通过剔除不相关的波段,可以大大简化模型,并提高模型的学习精度与预测能力。
[0044] 将全谱首先划分为12个区间,合格与不合格两组样本区分度最佳的波段范围是-1 -19507.34cm ~10001cm (见图2);再将全谱首先划分为24个区间,合格与不合格两组样本-1 -1 -1 -1
区分度最佳的波段范围是5754.54cm ~6001.39cm (见图3),在9507.34cm ~10001cm-1 -1
以及5754.54cm ~6001.39cm 两个区间内,前两个主成分的贡献率分别在97%、99.7%以上,这说明在所选区间这两个主成分均可以很好地表征原谱信息,并且合格与不合格两组样本的区分度较全谱(见图4)有所改善。
[0045] 步骤(3):使用SPXY法选取训练集样本和测试集样本
[0046] SPXY法是由 等人首先提出的训练集样本的选择方法,该方法将所有的样本都看作训练集候选样本,依次从中挑选样本进入训练集。首先,根据下述样本距离公式(1)选择欧式距离最远的两个向量对进入训练集:
[0047]
[0048] 在上述公式(1)中,dxy(p,q):样本p和q在x和y空间的距离。dx(p,q):样本p和q在x空间的距离;dy(p,q):样本p和q在y空间的距离。
[0049] 在接下来的
迭代过程中拥有最大最小距离的候选样本被选入训练集,依次类推,达到所要求的样本数目。
[0050] 本实施例共提供了252个样本,取其中的2/3作为训练集样本,1/3作为测试集样本。表1是通过SPXY法依次挑选出168个训练集的样本号,其余84个样本为测试集样本:
[0051] 表1SPXY法选取获得的训练集
[0052]
[0053] 步骤(4):光谱预处理
[0054] 本实施例使用均值中心化法与最小最大归一化法组合(mean centering-MMN)对光谱进行预处理,并在下表2中比较了标准化法(Autoscaling)、均值中心化法(Mean centering)、最小最大归一化法(MMN)、多元散射校正法(MSC)及其组合对模型性能的影响:
[0055] 表2不同数据预处理方法对结果的影响
[0056]预处理方法 训练集样本交叉验证准确率 测试集样本准确率
None 90.14% 97.06%
Autoscaling 91.55% 79.41%
Mean centering 98.53% 76.47%
MMN 90.14% 97.06%
MSC 95.77% 38.24%
MSC-Autoscaling 99.30% 92.65%
MSC-Mean centering 97.89% 38.24%
MSC-Autoscaling 90.14% 79.14%
Mean centering-MMN 90.14% 98.53%
MSC-MMN 99.30% 38.24%
MSC-Autoscaling-MMN 99.30% 92.65%
MSC-Mean centering-MMN 97.89% 38.24%
[0057] 为改善模型性能,需要对光谱数据进行预处理,上表2表示以原波谱(none)所建模型为标准,不同预处理方法对模型性能的影响。训练集样本交叉验证准确率说明模型学习的精度,测试集样本准确率表征模型的预测性能,是模型质量的最终衡量指标,最终确定了mean centering-MMN对光谱进行预处理。若预处理方法选择不当,极有可能造成特征信息的损失,甚至在某些极端的条件下,模型几乎无法完成预测。以MSC、MSC-Mean centering、MSC-MMN、MSC-Mean centering-MMN为例,测试集样本准确率不足40%。
[0058] 步骤(5):使用SVM法建立鉴别模型
[0059] SVM法是Vapnik等人基于统计学习理论(Statistical Learning Theory,SLT)提出的一种新的
机器学习算法(参见,Vapnik V.Statistical Learning Theory,John Wiley,New York,1998)。此前算法的重要基础是传统的统计学,前提是有足够多样本,当样本有限时难以取得理想的效果。而基于统计学习理论的支持向量机(SVM),以训练集误差作为优化问题的约束条件,以置信范围值最小化作为优化目标。预期得到的是一个对所有样本预测准确率都很高的模型,但如果仅考虑训练集误差,有可能出现如下情况:训练集误差很小(即训练集样本的准确率很高),保证了分类精度很高,但由于学习机器过于复杂,置信范围增大,推广性很差,对非训练集样本的预测能力很差。所以,要同时保证训练集样本和测试集样本的准确率,即采用结构风险最小化准则的学习方法,提高了模型的泛化能力。SVM的基本思想是把原始特征数据从输入空间非线性地映射到一个高维特征空间(Hilbert空间),然后在此空间中求解凸优化问题(典型二次规化问题),可以得到唯一的全局最优解。
[0060] 给定一训练集{(xi,yi),i=1,2,3,...,n},其中yi∈{-1,1}表示任一样本xi的分类标识。如果训练集是线性可分的,SVM就是寻求
超平面:
[0061] f(x)=ω·x+b (2)
[0062] 使正样本(yi=+1)和负样本(yi=-1)可分,且使其边界上的点到该超曲面的距离最大。
[0063] 由于很多两类情形并非线性可分,为此,SVM将样本点x(各样本的近红外光谱数据)通过函数φ(x)投影到高维特征空间以使其线性可分。但SVM并不是直接引入φ(x),而是通过核函数K(xi,x)方法间接引入的:
[0064] K(xi,x)=φ(xi)·φ(x) (3)
[0065] 核函数包括线性、径向基(RBF)、多项式和Sigmoid等多种形式,大多数文献使用RBF核函数,即:
[0066] K(xi·xj)=exp(-γ||xi-xj||2),γ>0 (4)
[0067] 在公式(4)中,x和y分别表示不同样本的测量数据(x样本的光谱值,y样本属性值),γ为径向基核函数的可调参数,其数值需要在模型优化的过程中确定。
[0068] 系数ω和b由极小化风险得到
[0069]
[0070]
[0071] 其中ε为不敏感损失函数,C为惩罚因子,表示对ε的样本的惩罚,C值越小,惩罚越小,训练误差越大;C值太大,训练误差虽然小,但是学习机器过于复杂,置信区间将随之增大,模型外推能力下降,故C值的大小需要在模型优化过程中确定。
[0072] 使用k折交叉验证(k-fold cross-validation)准确率来确定RBF Kernel(核函数)的参数γ和惩罚因子C。
[0073] 本实施例采用网格搜索法结合k折交叉验证法获得优化参数C和γ。其中,网格搜索法是把(C,γ)对看做是网格上的
节点,按照设定的步长来进行计算各点交叉验证准确率而找出最大值;k折交叉验证(k-fold cross-validation)准确率(即训练集交叉验证准确率)是这样获得的:将训练集分为k份,其中k-1份作为训练数据集,训练得到模型,而另外的1份作检验,计算准确率;这样重复n次,选取准确率最高的模型,该次准确率即为训练集交叉验证准确率,此值表征的是模型拟合的好坏。
[0074] 本实施例采用网格搜索法结合5折交叉验证法最终选择0.03125作为径向基核函数γ的参数输入值,选择32768作为惩罚因子C的输入值,模型5折交叉验证准确率为90.14%(参见图5,其中accruacy为准确率)。
[0075] 步骤(6):使用鉴别模型鉴别包衣质量
[0076] 使用上述鉴别模型,通过测试集样本的近红外光谱数据,鉴别84个测试集样本。
[0077] 在上述优化参数下,对84个测试集样本(包括43个合格品和41个不合格品)进行鉴别,错判个数为3,准确率为98.53%。
[0078] 由上述实验结果看见,在各项优化参数的条件下模型对样本的鉴别准确率基本达到工业生产的要求。相对于传统方法或经验判断,本发明提供的鉴别方法能够快速、无损、可靠、准确地鉴别药物制剂包衣过程中包衣质量。