首页 / 专利库 / 人工智能 / 关联性分析 / 用于定量分析并评估植物样品性质的矩阵法

用于定量分析并评估植物样品性质的矩阵法

阅读:18发布:2021-10-01

专利汇可以提供用于定量分析并评估植物样品性质的矩阵法专利检索,专利查询,专利分析的服务。并且本 发明 涉及用于提高草本 植物 组合物的选择、试验、 质量 控制及制造的计算方法,以帮助指导研制新的草本植物组合物并确定已有草本植物组合物的新用途。具体来说,本发明涉及以下方法:一种将两个或多个 生物 和/或化学数据编译成矩阵指纹图谱,并对这样的矩阵指纹图谱进行统计学/概率处理以便对草本植物组合物进行试验和改进。,下面是用于定量分析并评估植物样品性质的矩阵法专利的具体信息内容。

1.产生代表草本植物组合物的化学和/或生物响应特征的矩阵指纹图谱的 方法,包括获得草本植物组合物的适当数据点;将这些数据点进行数字化;并 产生草本植物组合物的矩阵指纹图谱,其中矩阵指纹图谱包括数字化数据。
2.如权利要求1所述的方法,其中按以下方式产生矩阵指纹图谱:将数字 化数据点沿矩阵对线放置,并将每个数字化数据点与各其他数字化数据点的 比率放置在矩阵的非对角线位置
3.比较两种或多种草本植物组合物之间相似性的方法,包括
a)获得两种或多种草本植物组合物的数据点;
b)将数据点数字化;
c)比较数字化数据以确定所述两种或多种草本植物组合物所共有的数 据点;
d)对每一种草本植物组合物产生矩阵指纹图谱,其中矩阵包括对每一 个共有数据点的草本植物组合物的数字化数据;和
e)通过用多种统计学或基于规则的方法比较矩阵指纹图谱,从而比较 两种或多种草本植物组合物之间的相似性。
4.如权利要求3所述的方法,其中两种或多种草本植物组合物中每一个的 矩阵指纹图谱通过以下方式产生:
i)将每一个共有的数字化数据点与各其他共有的数字化数据点的比率放 置在矩阵的非对角线位置。
5.如权利要求3或4所述的方法,其中使用集合操作、统计学分析或计算模 型对两种或多种草本植物组合物的矩阵指纹图谱进行比较。
6.如权利要求5所述的方法,其中统计学分析是线性相关。
7.一种测定统计学分类模型的方法,用于确定两种或多种生物样品的质量 控制标准,所述方法包括产生两种或多种生物样品的矩阵指纹图谱;进行统计 学评价并通过计算机算法将两个或多个矩阵指纹图谱进行比较从而计算出每一 个数据点的PSI值;用直方图或其他可视显示方式定单个PSI值的范围;使用 该显示来识别相关性差的数据点;对直方图和PSI值进行数字分析以确定统计 学分类模型并确定质量控制标准。
8.如权利要求7所述的方法,其中计算机算法可用C++、Pearl、Java或其 他现代语言编写。
9.如权利要求7所述的方法,其中计算机算法可在个人计算机、手提式计 算机、向量支持机器或大型计算机上进行处理。
10.如权利要求7所述的方法,其中该方法用于帮助进行质量控制、分类 、新药物识别、制造、样品处理过程、样品掺杂、样品装填(tampering)及生物 、草本植物或多组分样品的结构生物活性关联性。
11.如权利要求7所述的方法,其中该方法用于以下目的:质量控制、 分类定义、新药识别、新生物靶识别、制造差别、样品掺杂和装填检测、单个 或多个化学成分的生物响应的结构生物活性关联性。

说明书全文

发明领域

本发明涉及一种用于改进草本植物组合物(heral compositions)的选择、试 验、质量控制、制造的计算方法。具体地说,本发明涉及以下方法:将两个或 多个生物和/或化学数据点编码成矩阵指纹图谱(matrix fingerprint)(用于对数据 点之间的相互联系模式进行编码),并对这样的矩阵指纹图谱进行统计学/概率 处理以便对草本植物组合物进行评估、试验及改进。本发明也可计算每个数据 点值或单个平均值或一个确定值范围的直方图,这些值可用于定量评估植物样 品之间的相似性和差异。然后可将该值或该组值用于对具有药物活性的植物或 草药评估再现性、限定成分组成、评估成分调整及加强成分优化。这些方法可 应用于多组分混合物,如那些在植物或草药中固有的成分,或用于对单个化合 物或多成分混合物进行试验或处理而产生的多因子响应。

相关申请

该申请要求序列号为60/330628的美国临时专利申请的优先权,该申请的申 请日为2001年10月26日,其在本文作为整体引用。本申请与以下申请有关:序 列号为60/105435和60/188021的美国临时申请,PCT申请PCT/US99/24851和 PCT/US0107608,和序列号为09/830033的美国申请。这些申请在本文作为参考 整体引用。

发明的背景技术

所有出版物和专利申请在此作为参考引用,如同每一篇单独的出版物或专 利申请被特别和单独指出作为参考引用。

草药已由美洲、亚洲、非洲及欧洲的本土居民使用了几个世纪。在美国( US),在膳食(dietary)添加剂工业和整体(holistic)医学中草药已经变得具有商业 价值。约三分之一的美国人口已至少尝试过一次一些形式的替代药(Eisenberg 等,1993,N.Engl.J.Med.328:246-252)。

包括草药的植物也已变成了用于识别新的治疗疾病的活性试剂的焦点。制 药工业一直对来源于植物提取物的活性化合物感兴趣。例如,紫杉酚是从西部 紫杉树获得的抗肿瘤药物。估计现在通常使用及医生开的药中约30-35%是来源 于植物源或含有植物化合物的化学仿造物。

现在,许多医药制剂、食品添加剂、膳食添加剂等等均含有草本植物组分 或草药的提取物。在许多不同的国家草药已用于治疗多种人和动物的疾病很长 时间了(参见例如I.A.Ross,1999,Medicinal Plants of the World,Chemical Constituents,Traditional and Modern Medicinal Uses,Humana出版社;D.Molony, 1998,The American Association of Oriental Medicine’s Complete Guide to Chinese Herbal Medicine,Berkley Books;Kessler等,1996,The Doctor’s Complete Guide to Healing Medicines,Berkley Health/Reference Books;Mindell,同上)。

然而对植物提取物的研究对进行定性以及更重要的定量分析和比较提出了 独特的挑战。一些这样的挑战包括:农业技术中固有的植物化学的多组分混合 物的变异性、制造方案的差异、植物药物的老化及储藏期限、关于药物活性分 子组的非常少的可靠信息。现在只有不足或较差的定量方法来监测和测定植物 药物组合物的化学和/或生物等价物。

美国管理程序。目前,将植物作为食品和保健产品对待。在美国,膳食添 加剂(如植物提取物及产品、维生素及矿物质、基酸和组织提取物)按照1994 年的膳食添加剂健康和教育法案(DSHE法案)进行管理。该法案排除了将膳 食添加剂的组成成分作为联邦食品、药品及化妆品法案所规定的食品添加剂。 而且,DSHE法案需要食品药品管理局(FDA)承担提供以下证明的责任:即 市场上销售的膳食添加剂在标签所注明的使用条件下或在正常使用中具有严重 或不合理的危险。因此,现在还没有联邦法规来建立关于膳食添加剂的纯化、 识别及生产的特定标准。而且很少有来源于1992年由国会组建的替代药品局的 关于草药质量的论文发表(Angell等,1998,N.Engl.J.Med.339:839-841)。

现在,FDA必须批准药物组合物或组合(cocktail)中的每一个化学个体 (entities),然后必须进行临床试验以获得销售该药品的单独的FDA批准。该过程 十分冗长并且费用昂贵。由于事先将特定的草本植物组合物作为草药使用允许 一开始就进行多种化学产品的临床试验(即用草本植物组合物或草本植物组合 物中的特定成分的临床试验),因此分子整体医学的评估可能费较少。近来 ,FDA已批准在临床试验中测试作为草本植物药物的草药(2000年8月关于植 物药物的FDA导则)。这些事件通常表示在医疗方面的积极进步,同时也提出 了关于草药和膳食添加剂的制剂、生产以及质量控制方面的重要问题。虽然严 格的临床试验(多重准备、安慰剂对照、剂量增加、双盲法等等)是评估安全 性和效用的标准,但是关于植物质量控制的FDA方针仍然在发展。现在,需要 将化学标记化合物、化学指纹图谱分析和生物学试验结合起来,以及验证产品 中不含重金属、毒素、杀虫剂除草剂、杀真菌剂或其他人造的药理学活性试 剂。我们相信许多由草药中的多种化学成分导致的相关生物效应对支持由FDA 作出的销售许可会变得越来越重要。现在可使用多种生物效应方法来监控某种 多组分实体或单分子体的生物活性。这些方法包括表达基因、表达蛋白质、细 胞因子、转录因子、细胞受体和小分子代谢物构成的组(panels)。人们相信,是 不同实体平间的相互平衡而不是单个实体的量对细胞或有机体的总体生物存 活力起着至关重要的作用。此概念是系统或综合生物学的核心,并发现其在复 杂生物问题的研究方面得到越来越多的应用。

随着西方国家对植物的独特药学价值的不断重视,人们在更好地对植物进 行标准化并加以辨别的方法方面越来越感兴趣。草药工业正面临着提高其现有 实践方法的不断增长的压力(参见例如Angell等,同上)。最近几个关于摄取草 药制剂而导致毒性的报告强调了需要应用科学的试验方法进行草药和食品添加 剂的制备及管理。例如,一位摄取了基于草药的膳食添加剂的患者发生了洋地 黄中毒(Slifman等,1998,N.Engl.J.Med.339:806-811)。后来确定称为车前 草(plantain)的草药原料实际上被毛花洋地黄(一种已知含有至少60种强心糖苷 的草本植物)污染。在另一个例子中,发现一草药制剂导致一位患者慢性铅中 毒(Beigel等,1998,N.Engl.J.Med.339:827-830)。由于记录了很多由铅和 其他重金属引起的传统亚洲草药药物的污染(Woolf等,1994,Ann.Intern.Med.121 :729-735),因此这不完全是意外事件。

植物辨别。人们知道,遗传特性(例如属、种、培育变种、变种、克隆) 、草本植物生长年龄、收获时间、所使用的特定植物部分、处理方法、地理发 源地、土壤类型、气候模式、肥料类型和施肥率、及其他生长因素对来自任何 特定区域的任何“收获”的特定草药的特定化学成分有着重要影响。

人们已开始进行数量不断增加的各种试验以确保用于医药及作为膳食添加 剂的草药具有稳定的品质,这些方法包括测定宏观及微观水平,以及各种化学 分析。现在所使用的方法集中于单独的内源标记物质,这些物质通过色谱分离 监控并通过UV/VIS或最近通过质谱法进行检测。在一些情况下,每种植物使 用了多个标记物(例如对于人参为10-12种)。然而,通常每种植物只使用一种 或两种标记化合物。在上述任一种情况下,在植物提取混合物的几百种潜在植 物化学物质中,只利用了所得到的信息的一小部分。由于通常不知道该标记化 合物是否导致该生物反应,因此上述问题比较复杂。就治疗轻度抑郁的普通植 物来说,例如St.Johns麦芽汁,传统用于纯化及生物效能的原始标记化合物( 金丝桃素)实际上与生物效应无关。目前人们认为另一个独立分子(贯叶金丝 桃素)才是具有生物活性的标记物(Chatterjeee,SS.Battacharya,S.K.,Wonnemann, M.,Singer,A,Muller,W.Z.,Scwabe,W.(1998)LifeSci.;63(6),499-510)。

现在使用几种不同的方法用于进行描述。高效液相色谱(HPLC)使用 UV/VIS检测草药提取物中的标记分子,已变成一种参考标准。通常,只选择 一个单独的波长,该波长使所选标记化合物的吸收最大化。更多先进的方法使 用二极管阵列检测器同时检测多个波长,这些方法变得更加规范。然而,这种 方法存在问题。一些这样的问题包括:(1)一些生物活性分子可能不吸收UV 或可见光;(2)UV/VIS检测常常不能辨别具有同样保留时间的独立不同的分子 种类;(3)各种分子种类的吸收特性可能与存在的物质质量不成比例;(4)化 学产物的量不是必须与它的生物效能成比例;和(5)在各个形成复杂生物活 性的化学种类之间可能存在协同作用。

蒸发(evaporative)光散射是第二种检测器系统,该系统可以基于分析物分子 喷雾流的光散射来监测分子。在许多方面与UV/VIS互补,所述蒸发光散射能 够检测种类繁多的小分子挥发性分析物,能将这些分析物进行喷雾形成汽相并 通过多色光束的光散射进行检测。其优点包括:(1)除去可能干扰检测的背景 溶剂;和(2)同样的检测器响应于宽范围的分子种类,即改进的检测器不依 赖于化学性质。其中一个缺点是它只能检测到挥发性比将其溶解的溶剂挥发性 小的分子。

质谱(MS)是一种分析方法,用于测定放置在高真空度中的样品所产生 的离子化分子束或分子片段束成分的精确质量和相对丰度。电喷或气压离子化 (API)MS使人们可以方便地以液相进行工作,并使MS检测器与HPLC系统相 连接。MS与UV/VIS不同,其不依赖于光密度。在实践中,MS与HPLC或毛细 管电泳(CE)联合使用:HPLC根据物理化学特性分离化学物质,然后MS可 以用来检测并帮助识别特异性分子。现在可以获得集中了MS和HPLC的商业系统 ,其包括UV/VIS和蒸发光散射检测器(ELSD)。质谱法限于气体样品或在低 压下挥发的样品,或那些可以通过衍生作用而挥发的样品。

从上面的讨论可以看出,只选择一种或两种标记组分不足以保证具有药物 活性的植物提取物进行标准化及其成分构成。新近出版物公开了由特定供应商 提供的草药质量有更大的变化,并且难于提供草药提取物的生物等价物。而且, 在多数情况下,安全性、有效性以及草药中的化学物质之间的关联不能很好地 限定。最近,根据消费群体及管理机构的投诉(1997年2月6日的联邦公报,第 62卷25期,Docket No.96M-0417,cGmp In Manufacturing,Packing or Holding Dietary Supplements,Proposed Rules),一些草药制造商已开始执行优良生产工 艺(Good Manufacturing Practice)(GMP),该条例要求严格控制所有水平。

化学和光谱方法已用于鉴定草药和食品添加剂的成分。例如,使用这两种 方法将三种新的基于常春藤苷配基的乙酰化皂苷从墨西哥丁香的果实中分离出 来(Kojima等1998,Phytochemistry48(5):885-888)。通过比较一些特征组分 的含量推断在许多商业样品中的中药的植物来源,使用高效色谱(HPLC)或 毛细管电泳(CE)对这些特征组分进行分析(Shuenn-Jyi Sheu,1997,Journal of Food and Drug Analysis5(4):285-294)。例如,麻黄/伪麻黄碱的比率用作将中 麻黄从其他物种中区分出来的标记;用总碱含量来区分黄柏的不同属种;用人 参皂甙含量来区分人参各属种。然而,这些方法不能对人们用草药进行治疗后 各种草药对分子、生理或形态方面的响应所产生的影响进行直接的测定。

使用气相色谱-质谱和原子吸收法,加利福尼亚健康部、食品和药品局最近 对草药店的亚洲药物进行了污染物测试(R.J.Ko,N.Engl.J.Med.339:847) 。所检测的260种产品中至少有83种(32%)含有未经申报的药品或重金属,23 种含有多种掺杂物。使用高效液相色谱、气相色谱和质谱,发现一种商业上可 获得的八种草药的组合(PC-SPES)含有雌激素有机化合物(DiPaola等,1998 ,N.Engl.J.Med.339:785-791)。研究人员断定PC-SPES具有强的雌激素活性 ,对摄取了PC-SPES的前列腺癌患者可能会影响标准治疗的结果,并可能会在 临床上产生严重的不利效果。最近,由于质量控制报告以及发现许多批次中存 在丙苄羟香豆素(一种强效制剂,仅为抗凝剂),PC-SPES已由FDA从市场 上召回(www.fda.gov./medwatch/SAFETY/safety02.htm#SPES,2002年9月20日 更新)。同时,对传统中药“威灵仙”的不同样品也收集了气相色谱数据,并 将这些数据与样品的抗炎活性进行关联(Wei等,Study of chemical pattern recognition as applied to quahty assessment of the traditional Chinese medicine“wei ling xian”,Yao Hsueh Pao 26(10):772-772(1991))。然而,该研究未从这些 数据中产生矩阵指纹图谱,该图谱可以使人们将样品标准化,并对该样品与其 他具有相同或或类似草药组合物的样品进行比较。

蛋白质水平的变化也用于鉴定草本植物组合物或草本植物组合物特定组分 的功效。例如发现外周血单核细胞产生的粒细胞集落刺激因子(G-CSF)根据 所加到培养基中的特定中草药而改变(Yamashili等,1992,J.Clin.Lab.Immunol.37 (2):83-90)。白细胞间介素1的α受体表达在用小柴胡汤(在日本最常使用的 草药)处理的培养的人表皮化细胞中得到了明显的上调(Matsumoto等,1997 ,Jpn.J.Pharmacol.73(4):333-336)。通过用Toki-shakuyakusan(TSS)进行 处理增加了Fcγ11/111受体和巨噬细胞的补体受体3的表达(J.C.Cyong,1997, Nippon Yakurigaku Zasshi 110(增刊1):87-92)。粉防已碱,一种由天然中草药 分离的生物碱,抑制鼠泡巨噬细胞中诱导信号的NF-κB的活性(Chen等,1997 ,Biochem.Biophys.Res.Commun.(1):99-102)。草药柴汤、泽泻(日本名为“Takusha ”)、茯岭(hoelen,日本名为“Bukuryou”)抑制患有抗肾小球基底膜肾炎的鼠 中内皮素-1的合成及表达(Hattori等,1997,Nippon Jinzo Gakkai Shi39(2): 121-128)。

mRNA水平的增加或减小也用作显示各种草本植物和草本植物组分的功效。 腹膜内注射青羊参(Qingyangshen,QYS)(一种具有抗癫痫作用的传统中药) 和二苯乙内酰脲钠减小了在大鼠的红藻氨酸诱导的慢性发作过程中α、β管蛋白 mRNA和海趾c-fos mRNA诱导(Guo等,1993,J.Tradit.Chin.Med.13(4) :281-286;Guo等,1995,J.Tradit.Chin.Med.15(4):292-296;Guo等,1996 ,J.Tradit.Chin.Med.16(1):48-51)。用皂甙黄芪甲甙IV(一种由黄芪提纯的 组分)处理培养人脐带静脉内皮细胞(HUVECs)降低了纤维蛋白溶酶原活化 因子的抑制因子I(PAI-1)的特异性mRNA表达并增加了组织型纤维蛋白溶酶原 活化因子(t-PA)的特异性mRNA(Zhang等,1997,J.Vasc.Res.34(4):273-280 )。发现一种从人参的根部分离出的成分是由人单核细胞和由人单核细胞株产 生的白细胞间介素-8(IL-8)的有效诱导剂,该诱导伴随着IL-8表达增强(Sonoda 等,1998,Immunopharmacology 38:287-294)。

最近在核苷酸微阵列技术方面的发展可以大量地平行挖掘关于基因表达的 信息。该方法已用于研究细胞循环、生物化学路径、基因组在酵母中的广泛表 达、细胞生长、细胞分化、细胞对单个化合物的响应以及遗传疾病,包括疾病 的发作及发展(M.Schena等,1998,TIBTECH.16:301)。因为细胞是通过改 变特定基因的表达水平来响应微环境的变化,细胞中所表达的基因特性可以确 定细胞来源于什么及其中所涉及的生物化学和调控系统(Brown等,1999,Nature genet.,21(1)增刊:33)。这样,细胞的基因表达图谱描述了细胞的起源、细 胞现在的分化以及细胞对外界刺激物的响应。即便是这样,现在还没有研究者 试图将这些新技术应用于研究全部草本植物治疗和添加剂的分子功效。

一些研究者已试图鉴定由所选择的草药中分离出的主要活性组分的功效。 例如,用由田七纯化而得的三七皂甙R1(NR1)处理HUVECs导致了TPA合成 的剂量依赖性和时间依赖性的增加(Zhang等,1994,Arteriosclerosis and Thromobosis 14(7):1040-1046)。用NR1处理不会改变尿激酶型纤维蛋白溶酶原 活化因子和PAI-1的抗原合成,它也不会影响PAI-1在胞外基质上的沉积。当用 NR1处理HUVECs时,TPA mRNA增长了两倍,而PAI-1特异的mRNA表达受NR1 的影响不显著。由于大多数关于田七的研究涉及其与其它草本植物的混合物, 研究者注意到很难评估当它用于人体中的治疗时其结果如何与体内状况相关( 同前面的文献,1045页,第二栏,第一段)。而且,由于研究者只研究草本植 物中的一种主要成分,不可能从该研究中确定整个草本植物的功效或草本植物 成分间的相互作用。

Dobashi等(1995,Neuroscience Letters 197:235-238)研究了柴胡试剂中 的两种主要成分的功效,柴胡是用于治疗肾病综合征、支气管哮喘、慢性类 湿性关节炎的中药。SS-d给药提高了血浆促肾上腺皮质激素(ACTH)水平、 胸垂体前叶中的阿片黑色mRNA水平以及具有剂量依赖性模式的鼠下丘脑CRF mRNA水平。相反的,用SS-a治疗不影响这些分子标记物的水平。虽然该研究 显示了SS-d给药可能在柴胡试剂诱导的鼠下丘脑CRF释放及CRF基因表达中起 到了重要作用,但它不能从整体上测定草药的分子效果。

Kojima等(1998,Biol.Pharm.Bull.4:426-428)描述了使用mRNA差异显 示来分离和识别通过小柴胡汤转录调节的小鼠肝中基因,小柴胡汤是在日本用 于治疗各种炎性疾病的草药。这些研究者局限于用mRNA差异显示技术研究草 药的分子学机制。它也未提出在经治疗的动物的多器官中的功效,并且不能为 质控、新的应用、效果的标准化提供任何指导。

Ma Ji等(1998,Chinese Medical Journa1111(1):17-23)研究了草药蒙古 黄芪对大鼠水钠储留的治疗作用,其中所述大鼠经历了主动脉腔静脉瘘引起的 实验性充血性心力衰竭。对用黄芪治疗及不用黄芪治疗的慢性心力衰竭大鼠在 以下方面进行比较:各种形态特征(例如体重、血清钠浓度);生理特征(例 如平均动脉压、心率、血细胞容量及血浆渗透压);mRNA表达水平(例如下 丘脑精氨酸抗利尿激素(AVP)、AVPV1a受体、肾AVPV2受体、水通道蛋白-2(AXP2 ))以及蛋白质分泌物(例如血浆心房磷酸肽(ANP)及尿环苷酸(cGMP )。研究者发现用黄芪治疗提高了心脏和肾的功能,部分矫正了AVP系统和AQP2 的异常mRNA表达,并提高了肾对ANP的反应。这种研究未使用所收集的数据 来引导研究新的制剂或用于说明一个处方中各草药之间的协同或其他相互作用 或为质量控制目的确认效果差异。

植物提取物的数学和统计学评价.在由相同一组参数组成的两个对象之间 确定数字测量的相似性的概念常用于各种学科,例如心理学、生物地理学、化 学及信息论。目前存在有大量的关于相似性测量的方法,这些方法在实用性和 复杂性方面有所不同。最直接的相似性测量是具有欧几里得度量的两向量间的 欧几里得距离。有关在化学基础范围中的相似性测量的综述参见:Willett等的 “Chemical Similarity Searching”J.Chem.Info.Comput.Sci.,Vol.38,983-996 页(1998)。

数字标志在各种行业中得到了发展,特别是在食品科学工业,用于确定样 品质量的定量量度,通常称为“质量指标”。质量指标可作为数十至数百个生 物及理化参数的函数而获得。例如葡萄酒可由芳香指标来表征葡萄酒不同的酿 造年代,该芳香指标源于标记化合物的气相质谱峰浓度(Falque等, “Differentiation of white wines by their aromatic Index”,Talanta,第54卷,271-281 页(2001)),以及将葡萄酒根据不同的理化参数分成组来表征葡萄酒(Nogucira 等,“Anayltical Characterization of Madeira Wine”,J.Agric.Food Chem.)。最近 ,已得到由样品pH和标记化合物浓度的线性组合构成的质量指标来检测蓝烟鲑 鱼的新鲜度(Jorgensen等,“Multiple Compound Quality Index for Cold-Smoked Salmon(Salmo Salar)Developed by Multivariate Regression of Biogenic Amines and PIP”,J.Agric.Food.Chem.,第48卷,2448-2452页(2000)),以及用于沙丁 鱼新鲜度的质量指标是基于样品中的核酸降解(Vazquez-Ortiz等,“Application of the Freshness Quality Index(K Value for Fresh Fish to Canned Sardines from Northwestern Mexico”,J.Food Comp.Anal.,第10卷,158-165页(1997))。用 源于荧光发射和与苹果褐色化有关的化学物质的吸收水平的指标量化苹果汁 的变质(Cohen等,“A Rapid Method To Monitor Quality of Apple Juice During Thermal Processing”,Lebnsm-Wiss.U.-Technol.,第31卷,612-616页(1998)。 用质子NMR来分析速溶咖啡并通过主成分分析和线性判别分析对其进行分类 ,从而根据生产商和咖啡类型对样品分类(Charlton,AJ等,“Application(1)h NMR and multivariate statistics for screening complex mixtures:quality control and authenticity of Instant coffee”,J.Agric.Food Chem,50(11),3098-3103页(2002) )。制定了基于泰尼莫特(Tanimoto)系数的更具统计学形式的质量指标用于确 定由气相色谱测定的各种桉树间的区别(Dunlop等,“Chemonetric anaylsis of gas chromatographic data of oils from Eucalyptus species”,Chemometrics and Intelligent Laboratory Systems,第30卷59-67页(1995))。为测定空气和水污染的质量指标 已经由环境保护局(EPA)进行了标准化(水资源局,美国环境保护局,“Total Maximum Daily Load Program:National Overview”,2000年3月16日; http://www.epa.gov/OWOW/TMDL/status.html;美国环境保护局,“Revised Requirements for Designation of Equivalent Methods for PM2.5 and Ambient Air Quality Surveillance for Particulate Matter;Final Rule”,第IV部分,1997年7月18日 )。

在食品和植物科学中,最多的质量和样品种类的统计度量是基于产品分类 的。用于许多范围的最常用的分类规则是神经网络(Garcia等,“Sherry wine vinegars:phenolic composition during aging”,Food Research International,第32卷, 433-440页(1999);Moshou等,“A neural network based plant classifier”, Computers and Electronics In Agriculture,第31卷5-16页(2001);Martin等,“ Discrimination between arabica and robusta green coffee varieties according to their chemical composition”,Talanta,第46卷1259-1264页(1998);“Application of pattern recognition to the discrimination ofroasted coffees”,Analytica Chimica Acta ,第320卷191-197页(1996);“Classification of tea samples by their chemical composition using discriminate analysis”,第43卷415-419页(1996)),以及一般 的多元统计分析,例如线性判别分析(Moshou等,“A neural network based plant classifier”,Computers and Electronics In Agriculture,第31卷5-16页(2001))和 主成分分析(PCA)(Goodner等,“Orange,Mandarin,and Hybrid Classification Using Multivariate Statistics Based on Carotenoid Profiles”,J.Agric.Food Chem., 第49卷1146-1150(2001))。就所有情况而论,质量指标和分类规则是基于对作 为描述符号的一组个体标记化合物的先验选择,并且不考虑在总体化学模式或 全面生物响应中的化合物平衡或比率。

如上述相关科学论文所论述的,有效的统计学和计算方法并未用于检测含 多种成分(如草药组合物)的植物提取物并使之标准化,也未用于改善及发展 使用生物提取物进行治疗的方法。植物的治疗功能是配制提取物的多组分特征 所固有的,这些提取物在人体内的多个生物路径上协同作用。这样,有效的生 物学作用不仅需要单个的植物化学组分,而且需要这些不同组分间的平衡和比率 。为理解这些混合物如何工作并全面评估植物化学混合物的特性,评估化学物 的整体模式并同时使用多种高分辨率的化学检测器和有效用作生物检测器的生 物检测是至关重要的。本发明体现了以下概念:如何将化学及生物指纹图谱的 完整模式结合入单个复矩阵,并将该矩阵转换为少量值来进行定量比较和评估 。

发明概述

本发明提供了以下用途所必需的计算方法:指导将草本植物组合物标准化 ;确定草药组合物中哪种特定成分是造成特定的生物活性的原因;预测草药组 合物的生物活性;开发改进的草药治疗方法;调整或修改草药组合物;测定不 同草药组合物的相关性;识别保留所需生物活性的一批草药组合物中的特定分 子;确定已知草药组合物中哪种草药成分可以从已知草药组合物中除去而保留 或改善已知草药组合物的所需生物活性;识别一批草药组合物的新用途和以前 未知的生物活性;并且使用一批草药组合物的预测生物活性来帮助设计包含草 药组分和合成化学药物的治疗剂,该设计包括使用组合化学方法来设计治疗剂

这些方法集中于使用所有可从高分辨率分析方法中收集的适用化学数据, 所述分析方法包括与UV/VIS、MS、NMR、拉曼、IR等结合的色谱法,将这些 数据数字化,并将数字数据转化为矩阵模式,该矩阵模式可通过不同的数学和/ 或统计学方法进行分析。也可将该方法扩大至还结合由生物检测器获得的数字数 据,包括染色体组、蛋白质组、酶/受体阵列、细胞试验、动物试验及临床数据 。然后可通过两种常用方式使用该生物数据。第一,它可以直接与化学数据结 合以产生合并的全面(comprehensive)矩阵指纹图谱。第二,生物数据可用于筛 选由化学数据产生的矩阵指纹图谱,以限定一种生物相关子集(sub-set)。使用 这种方法,可以使用所有数据或数据子集,而不需要标记化合物的已有(priori) 知识,同时通过化学和生物响应结果以及化学和生物响应结果的比率来确定模 式和分析。该方法的关键是使用多个化学和生物读数的全矩阵模式。

图表简述

图1是代表性的LC-MS(即液相色谱-质谱)数据三维图,描述了植物多组 分提取物的标记概貌轮廓。沿一维标绘出在C18柱上的保留时间(分钟),沿第 二维标绘出高分辨率质量(原子质量单位),在第三维标绘出MS强度(log(离 子数))。图后面的二维迹线是UV/VIS吸收轮廓。注意,单个UV/VIS峰可能包 括多个与混合物中不同的独特分子相联的独特质量。峰高和峰高比率限定了概 貌的高低不平度,该高低不平度可以数字化、分级并编码为矩阵以便于进行进 一步的分析。

图2描述了沿对角线的数据点强度(In)与单个强度的比率(Im/In)的矩阵式, 其中该比率位于非对角线上。只需要使用非对角线峰值中的一半。将所有数据 点对之间的非对角线强度比率编码用于研究这些数据点之间重要的协同作用或 相互关系。由于只关注了单个的数据点强度丢失了数据点之间的关系。在概念 上,通过检查其他数据内部联系信息可以使该矩阵方法扩展至更高的维数。为 清楚起见,我们只使用两维矩阵来进行说明。

图3用植物制剂PHY906从上到下以四种不同剂量(0.0、0.02、0.10、1.0mg/ml )处理Jurkat细胞24小时后所表达的捕获于IMAC表面芯片上的蛋白质 SELDI/TOF(Ciphergen)光谱。在5000-20000的分子量范围内不同光谱之间 存在多种定量变化。这些数据可以数字化、分级(indexed)并编译为矩阵进行进 一步分析。

图4(A)比较两批黄芩(Scute1与Scute2)之间单独峰值的常规线性相关 (从软件SPLUS获得的LSQ),即矩阵对角线的线性相关。虚线显示了95%的 置信水平。该线性拟合的相关系数是0.95。然而,大部分数据点聚集于低强度 ,因此难于判断异常值。(B)比较两批黄芩(Scute8与Scute9)之间单独峰值 的常规线性相关,即只是矩阵对角线的线性相关。虚线显示了95%的置信水平 。该线性拟合的相关系数是0.995,其显著优于4A中所观察到的线性相关,但 仍然显示有可能的异常值。然后也用矩阵方法通过这些数据点来计算相似性指 标(植物组学相似性指标(Phytomics Similarity Index,PSI),参见方程#7)。参 见表4。

图5(A)采用图4A(Scute1与Scute2)中相同的数据点由单独数据点的强 度比率矩阵计算而得的加权R值的直方图。虽然峰是围绕0.9分布,明显有单个 数据点为异常点,其小于0.6。作为PSI(方程#7),加权R值的平均值为0.89。 (B)是加权R值的直方图,该加权R值使用图4B(Scute8与Scute9)中相同的 数据点由对单独数据点的强度比率矩阵而计算得来。峰值的分布围绕0.94,只 有一个单个数据点是异常点,小于0.6。作为PIS,加权R值的平均值为0.97。注 意,由于计算R值所用的方法,异常点较易确定,并具有较高的数字分步,也 就是说若非整个比较在性质上类似,则采用针对特定数据点的完整比率组。注 意,如此计算PSI值使得平均值落在0.0-1.0之间,其中0.0是完全不同,1.0是完 全相同。

图6(A)是未加权R值直方图,该未加权R值由两批植物提取物黄芩(Scute5 和Scute6)之间单独数据点(LC/MS峰)的强度比率矩阵计算而得。(B)加权 R值的直方图,该加权R值由与图6A(Scute5和Scute6)中相同的数据点的强度 比率矩阵计算而得,其中权重与涉及数据点原始强度值的比例因子相关,并将 该权重用于如方程#7中限定的比率矩阵的相关性R值(参见实施例)。虽然未 加权PSI与加权PSI是相同的值(0.97),在加权PSI中单个数据点R值的分布在较宽 范围内,使异常点的识别更加可靠。

图7是从LC/MS数据获得的加权PSI值的直方图,用于将表4中列出的9批黄 芩提取物进行成对比较。用常见的46个峰值组构成该矩阵。PSI值的分布明显 被这些数据的截点区分,这些数据接近0.95。

图8是用于计算矩阵和PSI值的软件Phyto ViewerTM的屏幕图片,用于显示结 果及询问数据。该软件用JAVA编写,在PC或其他计算机平台上运行。在该屏 幕图片中,我们看到对于黄芩Scute5和Scute6的LC/MS数据单个数据点的矩阵 相关直方图,说明了如何选择单个数据集并将它们结合为矩阵数据集,相互反 应的直方图和查询窗口显示了从该直方图获得的单个数据点(LC/MS峰)。以 这种方式,能马上识别异常峰并进一步进行查询。

图9(A)是加权PSI值的直方图,将未处理和经处理后的9批表5中所列的 黄芩提取物(模仿消化过程)之间进行比较。在植物提取物中有两个清楚的分类 ,一个对后处理强烈敏感,一个只是轻度地敏感。基于材料对后处理的敏感性 ,对高度易感的数据点(单个化合物的LC/MS峰)进行询问可用于对材料批次 进行分级和分类。(B)是成对的未经处理和经过处理的黄芩(9批)间在加权PSI 值上的差异直方图,其显示了小于0.2的PSI值差值可用于将敏感的批次从不敏 感的批次中区分出来。

图10是用于计算矩阵和PSI值的软件Phyto ViewerTM的第二个屏幕图片,用 于显示结果及询问基因表达数据。在该屏幕图片中,我们看到对基因组数据的 单个数据点的矩阵相关直方图,将两个选择自位于左手滚动框的菜单的分离试 验(SB和SB)进行比较并强调在两个试验之间基因(增码)一致性较差。总 的加权PSI值为0.91,大部分数据点(基因)围绕着0.9。该图显示了对于化学 和生物响应数据可以使用相同的软件和方法,从而比较两个多组分混合物。

发明详述

除非另有限定,本文所用的所有技术和科学术语与通常本发明所属领域普 通技术人员所理解的意义相同。虽然与本文所述的方法和材料相类似或等同的 任何方法和材料可用于本发明的实践或试验,但所述方法和材料是优选的。

发明概论

如上所阐明的,本发明所针对的是表征和/或预测生物提取物(如草药组合物 )的生物响应的软件工具和计算方法。更具体的是,本发明提供了从对多组分 化学样品(例如植物或草药提取物)及所述提取物(或单个化合物)的多因子 生物效应的分析研究中产生矩阵指纹图谱的方法。而且,本发明也提供了使用 上述指纹图谱来测定模式的相似性/差异(如从不同批次植物提取的分子的不同 模式)或生物响应模式中的差异的方法,并将该方法用来指导对化学或生物等 效物的评估及指导改进基于治疗方法的有效植物或多组分的设计。本发明的目 的是全面设计、产生、改进并使用矩阵指纹图谱,以进行草本植物组合物的制 备、试验和给药,并指导开发新的草本植物组合物和现存草本植物组合物的新 用途。该方法可应用于以下情况:(1)数据可以量化并数字化和(2)在单个 数据点之间有重要的相互关系。

植物组学(phytomics):根据它所使用的上下文,本文所用的“植物组学” 是指将生物信息学和统计学方法用于草本植物组合物的成分的定性及定量方面 或指用于这些方面所开发出的实际数据库

矩阵指纹图谱:本文所用的术语“矩阵指纹图谱”是指描绘出某种物质的 特征轮廓,尤其是植物提取物例如草本植物组合物的特征轮廓(profile)。为产生 矩阵指纹图谱,将来自化学和/或生物学分析的数据数字化并沿矩阵指纹图谱的对 角线放置,每个数据点对每一个其他数据点的比值放在矩阵的非对角线位置。 矩阵指纹图谱非对角线位置上的数字化数据点的使用符合生物提取物的多组分 与它们的生物作用之间协同相互关系的概念,并限定了一种模式概貌(pattern landscape),该模式概貌描述了多组分混合物的化学指纹图谱,或一种或多种化 学组分对生物系统的影响的多因子生物响应。可以使用各种化学和生物学试验 来获得用于矩阵指纹图谱的数字化数据点。示例包括但不限于最终形成可分辨 的多个峰值的化学分析数据,例如LC-MS、MS-MS、GC-MS、电泳、UV-VIS、IR 、RAMAN、MALDI、SELDI、ICP-MS和最终产生离散数字化数据的生物分析 数据,例如基因组微阵列、蛋白质组微阵列、酶检测组、化学激活检测组、受 体检测组、代谢物检测组,其中检测组解释为一组相关的试验。

生物提取物/草药:术语“生物提取物”和“草本植物”在本公开物中是 可以互换使用的。从技术上说,草本植物是小的、非木本的(即有肉质茎的) 、一年生或在每个生长季结束时所有暴露于空气的枝叶枯萎的多年生产种植物 。由于它们的医药功能、滋味良好、气味芳香,草本植物是有价值的。当该词 被一般性地使用并在本文使用时,“草本植物”是指具有食品添加剂、医疗、 药物、治疗或增强体质用途的任意植物或植物部分。这样,在本文使用时,草 本植物不限于草本植物的植物学定义,而是指任何用于上述目的的植物学药材 、植物或植物部分,包括有胚植物界的任何植物种或亚种的任何植物或植物部 分,包括草本植物、灌木、亚灌木、和树。用于草药植物组合物的植物部分包括 但不仅限于:种子叶片、茎、嫩枝、枝条、芽、花、鳞茎、球茎、茎、根 状茎、匍匐茎、根、果实、球果、浆果、形成层、树皮。

草本植物组合物:本文所用的“草本植物组合物”是指任何包括草药、草本 植物、草本植物部分的组合物。因此,本文所用的草本植物组合物是任何草本 植物制备物,包括草本植物食品添加剂、草药、草本植物药物、药物食品。草 本植物组合物的示例包括但不仅限于以下成分:单个植物种的全部植物或一部 分植物;多个植物种的全部植物或一部分植物;源于单个植物种的多个成分; 源于多个植物种的多个成分;或这些不同成分的任意组合。对各种草本植物组 合物的详细综述,例如参见Kee Chang Huang,The Pharmacology of Chinese Herbs ,CRC出版社(1993),在此全文引用。在以下段落中提供了各种草本植物组 合物的具有代表性的示例。

标准化草本植物组合物:本文所使用的“标准化草本植物组合物”或“表 征的草本植物组合物”指选作标准草本植物组合物的特定草本植物组合物,用 于评价具有与该标准化草本植物组合物的成分相同或类似或不同成分的一批草 本植物组合物。标准化草本植物组合物一般是已经被良好表征并在特定生物系 统中显示所需生物响应的草本植物组合物。常常通过本领域技术人员公知的化 学实验对标准化草本植物组合物进行标准化,并且将它适当储存以便于较长时 期的使用和参照。基于对所述植物的观察和测定(即植物相关数据)、标记物 和生物响应,采用该标准化草本植物组合物建立标准化HBR阵列,以便于表征 草本植物组合物。

一批(batch)草本植物组合物:本文所用的“一批草本植物组合物”是指任 何基于生物提取物的化学和生物试验而用于建立矩阵指纹图谱的试验草本植物 组合物。有时本文也称为“试验”草本植物组合物。可以包括或不包括生物响应 的观察和测定。用于建立标准化草本植物组合物的草本植物组合物也可称为“ 一批草本植物组合物”,直至指定为“标准化草本植物组合物”。

一批:本文所使用的“一批”指特定量的草本植物组合物,其可被确认具 有某种特定属性从而将它从任何其他特定量的相同草本植物组合物中区分开。 例如,由于与另一批相比由于在不同时间或不同地理位置收获一批,因此一批 的草本植物组合物可与另一批相同草本植物组合物不同。其他区分特定批次的 差异可包括但不仅限于以下:1)所使用的特定植物部分(例如在一批中使用 草本植物的根而在另一批中使用相同草本植物的叶);2)对单独的草本植物或 草本植物组合物的收获后处理(例如一批可用蒸馏水处理而另一批可用盐酸处 理以刺激人的胃酸);和3)在草本植物组合物中单个草本植物的相对比例(例 如一批具有的三种不同草本植物其重量或体积是相同的,而另一批一种草本植 物比另两种在比例上更多)。

生物系统:本文所使用的“生物系统”是指可对其观察或测定生物响应的 生物实体。因此,生物系统包括但不仅限于:任何细胞、组织、器官、整个有 机体或体外试样。

生物活性:本文所使用的草本植物的“生物活性”是指对给定生物系统草 本植物组合物所特有的特定生物效应。

化学数据:化学表征一般可以通过本领域技术人员所公知的任何化学分析 方法来完成。可应用的化学分析示例包括但不仅限于:GC(气相色谱)、HPLC (高压液相色谱),TLC(薄层色谱)、电泳,结合以下一种或多种组合进行的 化学指纹识别:UV/VIS、MS、ELSD、IR、NMR或其他分析。

其他植物相关数据:本文所使用的“植物相关数据”是指关于草本植物组 合物所收集的数据,包括但不仅限于:关于该植物的数据、它们的生长条件及 在收获时和收获后对该植物的处理。该植物相关数据也包括草本植物组合物中 各成分的相对比例的,其中所述成分可以是不同的植物部分、不同的植物种、 其他非植物成分(例如昆虫部分、化学药物)或这些变量的任何组合。

对草本植物组合物可收集的植物相关数据包括但不仅限于以下方面:1) 用在组合物中的植物种(并且如果可得到的话,是特定植物变种、培养变种、无 性系、品系等等)和特定植物部分;2)该草本植物的地理起源,包括经度/纬度和 海拔;3)该草本植物的生长条件,包括肥料种类和数量、降雨及灌溉的数量 和时间、每天接受的平均微能量(microEinsteins)、杀虫剂的使用(包括除草 剂、杀虫剂、杀螨剂和杀真菌剂),以及耕作方法;4)用于处理草本植物的方 法和条件,包括草本植物的年龄/成熟度、浸湿时间、干燥时间、提取方法和研 磨方法;及5)对草本植物成分及最终的草本植物组分的储存方法和条件。

生物信息学:本文所使用的“生物信息学”是指使用和组织感兴趣的生物 信息。生物信息学包括以下方面:(1)数据获得和分析;(2)数据库的开发;(3 )集中和链接;和(4)最终数据库的进一步分析。直到20世纪90年代早期, 几乎所有的生物信息学来源都作为公共领域的免费软件来发展,在互联网上许 多仍然可以免费获得。一些公司已开发了专有数据库或分析软件。

基因组或基因组学:本文所使用的术语“基因组学”是指基因及其功能的 研究。基因组学强调将基础和应用研究集中于比较基因图谱、分子克隆、大规 模限制性酶切图谱,和DNA测序及计算分析。用基础技术来提取基因信息,如 DNA测序、蛋白质测序和PCR。

通过以下方式确定基因功能(1)分析基因中DNA突变对细胞、组织或有 机体的正常发展和健康的影响;(2)分析DNA序列中多个编码信号;和(3) 研究由基因或相关基因系统产生的蛋白质。

蛋白质组和蛋白质组学:本文所用的术语“蛋白质组学”也称“蛋白质组 研究”或“表型组”,是指在限定条件下,基因组的定量蛋白质表达模式。作 为一般使用,蛋白质组学是指使用蛋白质生物化学的高通量自动分析方法。

由于许多原因,除基因组研究之外进行蛋白质组研究是必须的。首先,基 因表达水平不一定代表细胞中活性蛋白质的数量。而且,基因序列未描述转译 后的修饰,该修饰对蛋白质功能和活性是重要的。另外,基因组本身未描述动 态细胞过程,该过程向上或向下改变蛋白质的水平。

蛋白质组计划寻求表征细胞中的所有蛋白质,识别所分离的蛋白质的至少 一部分氨基酸顺序。通常,首先用2D胶或HPLC分离蛋白质,然后用高通量质 谱对肽或蛋白质测序。使用计算机分析质谱的输出,从而连接基因和由其编码 的特定蛋白质。所述的全部过程有时称为“功能性基因组学”。许多商业企业 现在提供蛋白质组服务(例如Pharmaceutical ProteomicsTM,Ciphergen Biosystem 的ProteinChipTM系统;PerSeptive Biosystems)。

关于蛋白质组研究的一般信息参见,例如J.S.Fruton,1999,Proteins, Enzymes,Genes:The Interplay of Chemistry and Biology,耶鲁大学出版社;Wilkins 等,1997,Proteome Research:New Frontiers In Functional Genomics(Principles and Practice),Springer Verlag;A.J.Link,1999,2-D Proteome Analysis Protocols (Methods In Molecular Biology,112,Humana出版社;Kamp等,1999,Proteome and Protein Analysis,Springer Verlag。

信号转导:本文所使用的“信号转导”也理解为细胞信号转导,是指细胞 用于接受外部信号并将它们进行内部传递、放大、控制的路径。发信号的路径 需要蛋白质的相互联系链,该链逐步传递信号。由于许多信号转导包括接受细 胞外化学信号,蛋白激酶常参与反应级联,引发了细胞质蛋白的磷酸化从而放 大该信号。

转译后修饰:本文所用的“转译后修饰”是总括性的术语,包括蛋白质作 为初级多肽合成后发生在该蛋白质上的变化。上述转译后修饰包括但不仅限于 糖化作用、除去N端甲硫氨酸(或N-甲酰化甲硫氨酸)、除去信号肽、乙酰化、 甲酰化、氨基酸修饰、肽链内部断裂以释放小的蛋白质或肽、磷酸化、以及甲 硫氨酸修饰。

阵列或微阵列:本文所使用的“阵列”或“微阵列”是指每个位点或探针 单元由限定的核苷酸片段占据的格栅(grid)系统。该阵列本身有时称为“芯片” 、“生物芯片”、“DNA芯片”或“基因芯片”。高密度核酸微阵列常以多种格 栅结构具有成千的探针单元。

一旦该阵列制成,则将源于生物系统的DNA或蛋白质分子加入,在该DNA 或蛋白质分子与该阵列之间发生某种形式的化学反应从而产生某种特定于该阵 列和生物系统的识别模式。放射性同位素标记批次的放射自显影是传统的检测 策略,但其他选择也适用,包括荧光法、比色法及电信号转导。

数据点:术语“数据点”指基于化学或生物学的任何测定结果,它们是用 于计算矩阵指纹图谱的离散定量值。结合入数据点的信息包括但不仅限于:保 留时间、波长、吸收强度、NMR化学漂移、质量值、质量强度、基因名称/数 量、蛋白质名称/数量、基因表达水平、蛋白质强度等等,即从多组分样品、或 从试验方法中的单个或多组分样品的多个生物效应、或从这些数据的计算值中 收集的任何数据。只要数据与每一数据点相关联,不需要了解峰值的精确识别 (即分子名称/结构、蛋白质或基因名称等等)。数据点也不仅包括植物组合物 的特征,而且包括在这些不同定义中体外、基于细胞、基于动物、或基于人的 生物响应数据。

数据点数据库可构成列举、定量、表征化学或生物信息的数据集。

标记物:本文所使用的“标记物”是单个的化学或生物体,其用作试验数 据校准或量化的内或外参考标准。示例可包括:作为甘草和人参植物化学标准 的甘草皂苷和人参皂苷Pg1、Rb1,以及在微阵列中作为恒定标记物的大量看 家基因。根据美国植物委员会(美国得克萨斯的Austin),“一种其存在和水平 用作植物材料一致性和质量的指示剂的化合物。标记化合物也可以是(但不必 须是)特性指示剂。可以认为或不认为标记化合物具有药理学活性。”(美国德 克萨斯Austin的美国植物委员会)。

生物响应:在此使用的“生物响应”是指生物系统暴露于草本植物组合物之 后,对生物系统的生物响应的任何观察和测定。有时本文也称为“生物效应” 。生物响应是对特定草本植物组合物的生物活性的定性或定量数据点。生物响 应数据包括剂量和时间信息,其中这样的信息对于本领域普通技术人员是公知 的,本领域是指测量生物系统对各种治疗的响应的领域。因此,生物响应数据 包括关于特定生物系统的特定生物响应信息,该响应是针对特定剂量的草药组 合物在特定时期以特别的方式给药的情况。

生物响应包括但不限于:生理响应、形态响应、认知(cognitive)响应、动机 (motivational)响应、自体响应和转译后修饰,如信号转导测定。许多草本植物z’hw 显示了多于一种的生物响应(参见例如Kee Chang Huang,The Pharmacology of Chinese Herbs,CRC出版社(1993))。一些特定的生物响应可能包含在多于一 种的描述组中,或具有包括多于一个组的响应的方面或成分。可应用于本发明 的生物响应是本领域技术人员所公知的。以下参考文献代表了本领域的技术状态 :Kee Chang Huang,The Pharmacology of Chinese Herbs,CRC出版社(1993); Earl Mindell,Earl Mindell’s Herb Bible,Simon & Schuster(1992);Goodman & Gilman的The Pharmacological Basis of Therapeutics,第9版,Joel G.Hardman等 (eds.),McGraw Hill,Health Professions Division(1996);P.J.Bentley,Elements of pharmacology,A primer on drug action,剑桥大学出版社(1981);P.T.Marshall 和G.M.Hughes,Physiology of mammals and other vertebrates,第二版,剑桥大 学出版社(1980);Report of the Committee on Infectious Diseases,美国儿科科 学院(1991);Knut Schmidt-Nielsen,Animal Physiology:Adaptation and Environment,第5版,剑桥大学出版社(1997);Elain N.Marieb,Human Anatomy&Physiology(第18版),Appleton&Lange(1997);Arthur C.Guyton和 John E.Hall,Textbook of Medical Physiology,W.B.Saunders公司(1995)。

“生理响应”是指任何与生物系统生理或机能有关的特征。关于细胞、组 织或器官水平的生理响应包括但不限于:温度、血流速度、脉率、氧浓度、生 物电位、pH值、胆固醇水平、感染状态(例如病毒、细菌的)及离子流。基于 整个有机体的生理响应包括:肠胃机能(例如溃疡、肚子痛、消化不良、胃灼 热)、生殖系统机能(如生理性阳萎、子宫痉挛、痛经)、排泄功能(例如尿道 问题、肾病、腹泻、便秘)、血液循环(例如高血压、心脏异常)、耗氧、骨骼 健康(例如骨质疏松症),软组织和结缔组织状况(例如关节痛和炎症)、运动、 视力(近视、失明)、肌紧张性(例如消耗综合症、肌肉劳损)、存在痛或缺少 痛、表皮和真皮健康(例如皮肤刺激性、皮肤瘙痒、皮肤受伤)、内分泌系统 机能、心脏机能、神经协调、与头相关的健康(例如头痛、头晕)、年龄(寿 命、长寿)、以及呼吸(例如充血、呼吸系统疾病)。

“形态学响应”指生物系统暴露于草本植物组合物之后,任何关于形态学 或形式和结构的特征。不论生物系统的类型,形态响应包括但不限于:大小、 重量、高度、宽度、颜色、炎症程度、一般外观(例如不透明性、透明性、苍白 )、湿度或干度、存在或不存在癌症生长、以及存在或缺少寄生虫或害虫(例如 鼠、虱子、跳蚤)。基于整个有机体的形态响应包括但不限于:毛发生长的数 量及位置(例如多毛症、脱发)、有或没有皱纹、指甲和皮肤生长的类型和程 度、污迹凝结程度、存在或不存在痛处或伤口、以及存在或不存在痔疮。

“认知响应”是指生物系统暴露于草本植物组合物后,任何有关认知或精 神状态的特征。认知响应包括但不限于:感觉、识别、设想、判断、记忆、推 理及想象。

“动机响应”是指生物系统暴露于草本植物组合物后,任何有关动机或诱 导行为的特征。动机响应包括但不限于:情感(例如快乐)、欲望、学习动力 、特定的生理需要(例如食欲、性冲动)或起到动作刺激物作用的类似冲动( 例如耐力、性冲动)。

“自体响应”是指生物系统暴露于草本植物组合物后,任何有关自体响应 的特征。自体响应与生物系统的自主神经系统相关。自体响应示例包括但不限 于无意识机能(例如神经过敏、惊恐刺激)或生理需要(例如呼吸、心率、激 素释放、免疫响应、失眠、嗜睡)。

用各种草本植物组合物或草本植物成分处理的细胞、组织、器官和整个有 机体的生物响应在草本植物领域是公知的。例如,发现草本植物组合物柴汤(TJ-114) 、泽泻(日本名称为“Takusha”)和茯岭(日本名称为“Bukuryou”)均抑制 大鼠中的内皮素-1的合成和表达(Hattori等,Sairei-to may Inhibit the synthesis of endothelin-l In nephritic glomeruli,Nippon Jinzo Gakkai Shi 39(2),121-128(1997))。 通过用草药小柴胡汤处理培养的人表皮角质化细胞,明显促进白细胞介素(IL )1-α的产生(Matsumoto等,Enhancement of Interleukin-1 alpha mediated autocrine growth of cultured human keratinocytes by sho-saiko-to,Jpn J.Pharmacol73(4), 333-336(1997))。在从健康志愿者获得的外周血单核细胞培养物上加入小柴胡 汤导致了粒细胞集落刺激因子(G-CSF)的产生具有剂量依赖性增加(Yamashiki 等,Herbal medicine“sho-saiko-to”Induces In bitro granulocyte colony-stimulating factor production on peripheral blood mononuclear cells,J Clin Lab Immunol37(2),83-90 (1992))。这些研究者认为小柴胡汤给药对慢性肝脏疾病、恶性疾病和急性传 染病的治疗是有用的,在这些疾病中G-CSF是有效的。在用由中药蒙古黄芩纯 化而得的皂甙黄芩甲甙IV(AS-IV)处理人脐静脉内皮细胞(HUVECs)之后 ,纤维蛋白溶酶原活化因子抑制剂型1(PAI-1)特异性mRNA表达降低,而组 织型血纤维蛋白溶酶原活化因子(t-PA)特异性mRNA增加(Zhang等,Regulation of the fibrinolytic potential of cultured human umbilical vein endothelial cells: astragalodide IV down regulates plasminogen activator expression,J Vasc Res 34(4), 273-280(1997))。发现人参的四种分离成分中的一种是人单核细胞和THP-1细 胞所产生的IL-8的强诱导剂,这种诱导作用伴有IL-8表达的增加(Sonoda等, Stimulation of Interleukin-8 production by acidic polysaccharides from the root of panax ginseng,Immunopharmacology 38(3),287-294(1998))。通过流式细 胞检测分析,发现经汉方医学草药(kampo-herbal medicine)Toki-shakuyakusan (TSS)处理后巨噬细胞的Fcγ11/111受体和补体受体3(CR3)表达增加了(Cyong ,New BRM from kampo-herbal medicine,Nippon Yakurigaku Zasshi 110补充1, 87P-92P(1997))。使用计算机成像分析,Chen等人(Image analysis for Intercellular adhesion molecule-l expression In MRI/lpr mice:effects of Chinese herb medicine, ChungHua I Hsueh Tsa Chih 75(4),204-206(1995))发现在用中药黄芩处理 后MRL/Ipr鼠的细胞间粘附分子(ICAM-1)、免疫球蛋白和C3的分布强度都明 显降低。Western印迹分析法显示从天然中药分离的粉防己碱抑制大鼠肺泡巨噬 细胞中信号诱导的NFκB的活性(Chen等,Tetrandrine Inbibits signal-Induced NF-kappa B activation In rat alveolar macrophages,Biochem Biophys Res Commun 231(1),99-102(1997))。细胞遗传学参数包括但不限于:染色体组型分析( 例如相关染色体长度、着丝点位置、存在或不存在二级缢痕)、表意文字(即 有机体染色体组型的图形表示),染色体在有丝分裂和减数分裂期间的行为、 染色体染色和显带方式、DNA-蛋白质之间的相互作用(也称作核酸酶蛋白试 验)、中子散射研究、滚环(A.M.Diegelman和E.T.Kool,Nucleic Acids Res 26 (13):3235-3241(1998);Backert等,Mol.Cell.Biol.16(11):6285-6294(1996 );Skaliter等,J.Viol.70(2):1132-1136(1996);A.Fire和S.Q.Xu,Proc.Natl. Acad.Sci.USA 92(10):4641-4645(1995))、以及用放射性标记核糖核苷酸 进行孵育后整个胞核的放射自显影。生物化学参数包括但不限于:特定路径的 分析,如信号转导、蛋白质合成及转运、RNA转录、胆固醇合成和降解、葡萄 糖生成及糖酵解。

算法:本文所用的“算法”是指逐步解决问题的过程,特别是一种已建立 有限数量步骤的回归计算过程。对关于算法的一般信息,参见例如,Jerrod H.Zar, Biostatistical Analysis,第二版,Prentice Hall(1984);Robert A.Schowengerdt, Techniques for Image processing and classification In remote sensing,科学出版社( 1983);Steven Gold等,New Algorithms for 2D and 3D Point Matching:Pose Estimation and Correspondence,Pattern Recognition,31(8):1019-1031(1998);Berc Rustem,Algorithms for Nonlinear Programming and Multiple-Objective Decisions, Wiley-Interscience Series In Systems and Optimization,John Wiley&Sons(1998); Jeffrey H.Kingston,Algorithms and Data Structures:Desing,Correctness,Analysis, Intemational Computer Science Series,Addison-Wesley出版公司(1997);Steven S.Skiena,The Algorithm Design Manual,Springer Verlag(1997);和Marcel F.Neuts ,Algorithm Probability:A Collection of Problems(Stochastic Modeling),Chapman &Hall(1995)。对于更特定的将算法应用于基于基因的数据信息,参见例如, Dan Gusfield,Algorithms on Strings,Trees,and Sequences:Computer Science and Computational Biology,剑桥大学出版社(1997);Melanie Mitchell,An Introduction to Genetic Algorithms(Complex Adaptive Systems),MIT出版社(1996);David E.Goldberg,Genetic Algorithms In Search,Optimization and Machine Learning, Addison-Wessley出版公司(1989);Zbigniew Michalewicz,Genetic Algorithms+Data Structures=Evolution Programs,Springer Verlag(1996);Andre G.Uitterlinden和Jan Vijg,Two-Dimensional DNA Typing:A Parallel Approach to Genome Analysis,Ellis HorwoodSeries In Molecular Biology,Ellis Horwood有限 公司(1994);和Pierre Baldi和Soren Brunak,Bioinformatics:The Machine Learning Approach(Adaptive Computation and Machine Learning),MIT出版社(1998)。

集合操作(Set Operations):本文所用的“集合操作”指对数据集的数学“ 交集”、“并集”和“差”操作,其中数据集中的每一个成分都用分类符标记。 例如,LC-MS数据点由峰值数列组成,其中每一峰值具有测定强度并通过LC 保留时间和精确的质量坐标分类。类似地,基因组数据点由强度数列构成,每 一个由独特的基因识别标记表示。因而两个LC-MS数据集的交集简单地为具 有相同双态(binned)的时间和质量的峰值组。对基因组数据,交集操作选出 具有相同基因识别标记的数据点集。两个数据集的并集是所有可识别的数据点 集,数据点的差是两个数据集单独具有的所有数据点集。

统计学分析:本文所用的“统计学分析”是指任何在同等参考统计学文献 中所记录的统计学操作。本文所提到的大多数统计学方法在以下文献中详细给出 :D.A.Wichem,和D.W.Wichern,Applied Multivariate Statistical Analysis,Prentice Hall(1983)。用符号R表示的术语“线性相关”和“Pearson系数”是指两个数 据集之间Pearson相关系数的计算结果。

如果我们用每个数据点在数据集的所有其他数据点中的秩代替该数据点的 值,我们可以确定Spearman秩相关系数。Spearman秩相关系数的公式与Pearson 系数公式是相同的,除了用它们各自的秩代替数据点值。该分析的好处是可以 确定与无效假设相比其系数数值的显著性,参见E.L.Lehmann,Nonparametrics: Statistical Methods Based on Ranks,旧金山:Holden-Day(1975)。

组合化学:本文所用的“组合化学”指用于产生成百或成千化合物的多种 技术,其中每一种化合物由于一种或多种特征而不同,例如它们的形状、电荷 、和/或疏水特性。可以利用组合化学来产生化合物,所述化合物是草本植物或 草本植物组分的化学变体。使用本发明方法可以评价所述化合物。

基础组合化学概念是化学领域技术人员所公知的,也可以在以下文献中发 现:Nicholas K.Terrett,Combinatorial Chemistry(Oxford Chemistry,Masters), 津大学出版社(1998);Anthony W.Czarnik和Sheila Hobbs Dewitt(编辑),A Practical Guide to Combinatorial Chemistry,美国化学社团(1997);Stephen R.Wilson(编辑)和Anthony W.Czamik(投稿人),Combinatiorial Chemistry: Synthesis and Application,John Wiley&Sons(1997);Eric M.Gordon和James F. Kerwin(编辑),Combinatorial Chemistry and Molecular Diversity In Drug Discovery ,Wiley-Liss(1998);Shmuel Cabilly(编辑),Combinatorial Peptide Library Protocols( Methods In Molecular Biology),Human出版社(1997);John P.Devlin,High Throughput Screening,Marcel Dekker(1998);Larry Gold和Joseph Alper,Keeping pace with genomics through combinatorial chemistry,Nature Biotechnology 15, 297(1997);Aris Persidis,Combinatorial chemistry,Nature Biotechnology 16,691- 693(1998)。

实施例

实施例1.使用化学数据产生矩阵指纹图谱

经多个试验分析方法可以收集多成分植物药物的特定一维、二维、或更高 维的化学指纹图谱。检测方法可以包括UV/VIS、ELSD、红外、NMR、折射率、 质谱等等。只要产生的数据可以被分级和数字化就可以使用任何检测方法。我 们举例说明了用含有四种植物的复杂植物制剂进行LC-MC而获得的高分辨率数 据产生了矩阵指纹图谱。图1显示了关于所述植物制剂的液相色谱-质谱(LC-MS )化学指纹图谱的三维图形中的一个小区域。沿图一维的是随记录的保留时间 沿色谱分离轴分离的单个成分,所述保留时间可以与水/仲辛醇分配系数(logP )或从特定结构识别中计算而得的logP相关联。沿质谱轴描述的是在多成分混 合物中单个化学成分特定的质量。如图1所示,第三维描述的是与每种化学成 分所测定的分子数量成比例的峰值强度。

可以清楚地分离多种化合物并且所产生的数据点可以如表1进行数字化( 如下)。因而在此情况下,对应于单个分子的每一数据点(峰值)具有三个坐 标(保留时间(或计算的logP)、质量、信号强度)。

表1:从如图1的光谱中提取或计算(clogP)所得的代表性数据子集(保留时 间、质量、强度),对其进行分级并用作矩阵方法的输入。单位包括分钟(保 留时间)和原子质量单位(质量)。     峰数 保留时间(分钟)     ClogP       质量   (原子质量单位)     强度     58     13.31     0.75     419.1316     5356     299     17.8     0.96     461.1077     126700     348     18.35     1.21     461.1074     215464     510     22.12     2.84     823.4122     44575     374     19.75     2.93     271.0591     8263     408     20.25     3     271.0579     198204     527     23.13     3.08     285.0733     150195     453     21.14     3.11     257.079     1036     591     23.88     3.33     285.0723     45016     551     23.53     3.56     255.062     7476

假定表示特定植物的N、LC-MS峰值数列如表1所示,我们可以计算沿对 角线的每一个数据点峰值强度的全部矩阵,以及同等重要的如图2所示矩阵中 在非对角线位置上的每一个峰值强度与所有其它峰值的比率。

尽管所希望的是对单个分子具有分析响应,但是并不要求所述的矩阵方法。 例如,即使一种以上的化合物是造成UV/VIS强度的可能原因(参见图1),但 是在特定保留时间处的UV/VIS峰值综合强度在矩阵方法中是完全可接受的。 非对角线峰值为各种单独化学成分的协同平衡作用的重要性进行了编码。相信 不仅仅任何单个峰的强度对质量控制和生物功能是重要的,而且峰值平衡也提 供了总体优势和生物活性。这些比率存储在矩阵指纹图谱中,其中矩阵指纹图 谱允许多个数学操作。清楚地,在上述矩阵中有N(N-1)/2个特定的非对角线元 素,使用并需要存储这些元素用于下面的计算。计算全部数据点比率矩阵并使 用该矩阵进行数据的编码和描述是本发明的关键所在。

实施例2.使用生物数据产生矩阵指纹图谱

单个分子和分子的多成分混合物都可以通过由不同生物分子检测方法构成 的组引导体内、细胞培养基内或体外的多种生物响应。总体生物响应的单个部 分之间常常存在联系或模式联系,例如一种蛋白质水平可能由于两种其它蛋白 质水平的下降而上升并平衡。其他示例包括单独信使RNA水平、单独蛋白质表 达水平、内源性代谢产物的生物响应水平、细胞因子响应、酶活性、细胞通路 等等之间的相关变化。我们使用基因组和蛋白质组数据作为示例描述了由多成 分混合物构建生物响应矩阵。

基因组响应指纹图谱:

通过各种方法来收集基因组生物响应数据。最整体的方法包括使用微阵列 或芯片技术来测定mRNA水平,其表达所有已知基因序列的单个基因。现在, 本领域的现有技术是具有~35000以上的基因特征。核酸微阵列技术的快速发 展导致了基因表达数据的蓬勃发展(Eisen等,(1998),Golub等,(1999),Schena M.,Shalon D.,Davis R.W,和Brown P.O.(1995)Quantitative monitoring of gene expression patterns with a complementary DNA microarray.Science270:467-470, Eisen M.B.,Spellman P.T,Brown P.O.,和Botstein D.(1998)Cluster analysis and display of genome-wide expression patterns.Proc.Natl.Acad.Sci.美国95:14863- 14868,Perou C.M.,Jeffrey S.S.,van de Rijn M.,Rees c.A.,Eisen M.B.,Ross D.T, Pergamenschikov A.,Williams C.F.,Zhu S.X.,Lee J.C.,Lashkari D.,Shalon D., Brown P.O.,和Botstein D.(1999)Distinctive gene expression patterns In human mammary epithelial cells and breast cancers.Proc.Natl.Acad.Sci.美国96:9212-9217, Tamayo P.,Slonim D.,Mesirov J.,Zhu Q.,Kitareewan S.,Dmitrovsky E.,Lander E.S., 和Golub t.R.(1999)Interpreting patterns of gene expression with self-organizing maps:Methods and application to hemotopoietic differentiation.Proc.Natl.Acad.Sci. 美国96:2907-2912,Golub TR.,Slonim D.K.,Tamayo P.,Huard C.,Gaasenbeek M., Mesirov J.P.,Coller H.,Loh M.L.,Downing J.R.,Caligiuri M.A.,Bloomfield C.D.,和 Lander E.S.(1999)Molecular classification of cancer:class discovery and class prediction by gene expression monitoring.Science286:531-537,和Ramaswamy S., Tamayo P.,Rifkin R.,Mukherjee S.,Yeang C.H.,Angelo M.,Ladd C.,Reich M, Latulippe E.,Mesirov J.P.,Poggio T,Gerald W.,Loda M.,Lander E.S.,和Golub T. R.(2001)Multiclass cancer diagnosis using tumor gene expression signatures.Proc. Natl.Acad.Sci.美国98:15149-15154)。

基因表达的四种特征解释了使用核酸微阵列研究基因表达轮廓的重要价值: (i)核酸微阵列使一次测定成千基因的转录变得更容易;(ii)基因产物功能 和它的表达模式之间的紧密联系使基因功能可以预测;(iii)通过改变特定基 因的表达水平细胞响应于微环境变化;和(iv)细胞中表达的基因组确定了该 细胞的来源,所涉及的生物化学和调节系统,等等(Tamayo等,1999;Ramaswamy 等,2001)。通过使用微阵列系统,可以整体方式研究以上特征。用核酸微阵 列技术可检测任何所需数量的基因表达。例如,现在技术允许上至大约25000 个基因放置在一个阵列中。而且,人们可以使用实时定量PCR(RT-qPCR)方 法进行基因选择以提供更高质量的数据。用于识别表达基因水平的其他方法无 疑将会在未来给出。在任何情况下,对经处理和基线系统进行数据收集从而评 估那些表达水平已发生变化的基因的相关比较。将基因限定为不同种类:诱导 基因(上调节、更高表达)、抑制(下调节、更低水平表达)、表达但不被调节 或不变化的基因、及不表达的基因。表2显示了编码基因的mRNA的特定识别 码以及与对照相比的相对强度。

表2:由基因组芯片试验获得的典型数据子集,显示了单独的基因名称( 参照网址所示的基 因库编号)和经处理试样和对照样品之间的校正log比率数据(在该情况下,Jurkat 细胞用单个PHY906剂量进行处理),然后将这些数据作为矩阵方法的输入进行 分级并使用。     峰值编号     基因名称     校正Log比率     1     201266_at     0.4     2     200881_s_at     -0.3     3     204286_s_at     0.8     4     200779_at     0.6     5     203474_at     -0.5     6     201690_s_at     0.6     7     214390_s_at     0.4     8     219014_at     -1     9     202146_at     1     10     201791_s_at     0.3     11     212816_s_at     2.6     12     207076_s_at     2.8     13     208964_s_at     0.3     14     209368_at     0.8     15     207826_s_at     -1     16     200748_s_at     1.2     17     212501_at     1.1     18     203814_s_at     0.4     19     202672_s_at     1.1     20     201000_at     0.7

这些数据从Jurkat细胞株收集,通过使用AffymetrixTM芯片将该细胞株用植 物制剂PHY906(含有四种植物)用3天的IC50剂量处理了一天,原本含有超过 18000个不同基因特征中只有~100个基因基本并恒定地发生变化。如图2所示 ,我们可以计算由以下因素构成的矩阵:沿对角线的每个基因的校正log比率强度 ,及矩阵非对角线位置上的每个峰值与其它峰值的强度比。将这些比率储存在 矩阵指纹图谱M(I,j)中,其中该矩阵指纹图谱允许多种数学操作。该矩阵不仅 包括构成对角线矩阵元素的各个基因的相对表达强度,而且同样重要的是,包 括构成非对角线矩阵元素的所有观察或选择基因的强度比率。非对角线基因对 细胞内维持生命过程的各种基因产物的协同平衡重要性进行编码。相信不仅各 个基因强度对监控生物功能是重要的,而且是基因集合的平衡赋予了总体生物响 应。

蛋白质组学

蛋白质组学是一组快速发展的技术,用于识别和定量由mRNA编码的实际 蛋白质。在这一点上,它是更直接监控蛋白质水平和测定转译后修饰(磷酸化、 糖化等等)的方式,该修饰作用常改变蛋白质分子的功能性特征。现有技术包 括:2-d胶电泳及多种质谱(MS)方法,质谱方法包括LC-电喷MS和MALDI或 SELDIMS。在任一情况下,可将数据量化并分级用于计算矩阵。我们采用通 过SELDI方法和金属结合芯片(IMAC)Hutchens(T.W.,Yip,T.T.)在标准的 可商业获得的Protein Chip SystemTM(Ciphergen生物系统公司)上收集到的数据 来进行说明(参见以下文献:1993,Rapid Comm.Mass Spea.(7),P576;Fung,E.T, Thulasiraman,V.,Weinberger,S.R.Delmaso,E.A.(2001),Curr.Opion.Biotech,(12), p65.)。在该实验中,用植物制剂PHY906处理Jurkat细胞从而分离得到蛋白质谱 。将这些蛋白质加到芯片的包被表面上,该芯片通过金属结合亲和力选择性吸 收蛋白质。然后用MALDI-TOF仪器分析该芯片,产生结合到芯片表面上的表 达蛋白子集的质谱。TOF-MS谱的典型例子见图3,其中Jurkat细胞用不同剂量 的植物提取物PHY906处理。

用Ciphergen软件处理这些数据,如表3所示产生峰值、峰编码、质量、背 景及内标校正强度的数列。然后用这些数据构成图2所示的矩阵,以类似于 LC/MS数据的方式,将校正峰值强度沿对角线放置,而将峰值强度比率放置在 适合的非对角线位置。

表3:通过蛋白质组学试验(在此情况下用不同剂量的PHY906处理Jurkat 细胞)从如图3所示的谱图获得SELDI/MS数据从而提取到代表性的数据子集( 质量和校正强度),将这些数据进行分级用作矩阵方法的输入。单位是原子质 量单位(mass或amu)。     峰值编码 蛋白质质量(amu)     校正强度     1     1087     32     2     1134     21.5     3     1145     31.4     4     1185     14     5     1333     14.5     6     1396     17.6     7     3057     1.6     8     3307     2.4     9     4575     6.9     10     5257     1.5     11     5552     0.7     12     6172     5.6     13     6437     3.3     14     6541     2.2     15     6672     6.8     16     8162     2.3     17     8451     4.4     18     9035     2.5     19     9297     3.4     20     9398     7.5

其他生物响应

以类似的方式将可进行数字化、分级及定量的来自一组试验方法或观察的 生物响应数据与矩阵形式结合,其中沿对角线放置响应值,将两个响应的相对 比率数据放置于非对角线的适当Mij位置。上述生物响应数据的范围可以是:分 子(例如细胞因子模式)、生物通路响应(例如信号转导)、转录因子、同功酶/ 同功受体等等,直至宏观响应例如行为水平、睡眠时间、游泳时间、甩尾测痛、 饮食水平等等。

更高维的矩阵

原则上,通过检测任一数量的更复杂比率,例如用M(i,j,k...)表示的(I1+I2)/I3 等,该矩阵方法可投射至更高(n)维数。对于相似性,我们仅集中于二维矩 阵以说明其效用。而且,虽然我们只关注成对数据,该方法可对多组数据进行 同时比较。

实施例3.使用矩阵指纹图谱计算样品间的相似指数

当检查不同植物样品间的相似性时,人们可以比较每一样品的强度矩阵而 不是只比较各峰值的强度。由于以此方式产生的强度矩阵代表所有光谱间比率, 即将遇到的问题是比较两个矩阵之间的比率模式。这些模式的统计相关性是关 键的成分,体现为植物组相似性指数(PSI)。我们举例说明PSI的两个示例: 未加权及加权。

该示例的过程如下:假设有两个样品,首先找出两个样品共有的所有数据 点(交集),并用这些共有数据点计算每个样品的强度矩阵(数据点例如可以 表示为LC/MS峰值、UV/VIS峰值、基因强度、蛋白质水平、细胞因子水平等 等,这些数据点已在该矩阵中结合)。一旦构成矩阵,可以用种类繁多的统计 学过程比较这两个矩阵的模式。人们可以进一步进行大量的已知的数学和统计 学操作来分析和定量这些模式。本文所讨论的最简单的分析是两个矩阵之间的 矩阵列的线性相关。为确定该线性相关,比较矩阵A和B(称为MA和MB)中所 有的列,忽略不计对角线元素。矩阵A、B中的每一列由向量表示:

x i A = ( M i 1 A , M i 2 A , M i 3 A , M i 4 A , M i 5 A , Λ M ij A , Λ M ij A | i j )

x i B = ( M i 1 B , M i 2 B , M i 3 B , M i 4 B , M i 5 B , Λ M ij B , Λ M ij B | i j )

此处i=j的矩阵元素忽略不计(方程#1)。

如果人们寻求标准化得分,可以用常用的Pearson系数或使用Spearman秩系 数获得每一列即数据点的相关强度R(方程#2)。

R = x A x B - Σ x A Σ x B ( x A 2 - ( Σ x A ) 2 ) ( x B 2 - ( Σ x B ) 2 )

该分析的结果是R得数(scores)的向量,其中每一个向量元素对应于两个数 据集共有的一个数据点(峰值、值等)。当每个数据点都有自己的相关得数Rn 时,植物组相关性指数或PSI的一个可能定义是所有未加权R得数的平均值以产 生单个的值。在该示例中,R得数的范围在0.0(全部不相关)到1.0(完全相同 )之间,类似于用来计算化学指纹图谱特征的相似性的Tanimoto指数。

由于如上述限定的R仅测定两个进行比较的样品所共有的光谱峰值的相关 性,也可以对PSI得数进行调整用于解释并不是在两个光谱中都出现的峰值。 例如,假设有两个LC/MC谱图,A、B对应于样品A、B,其中一种上述调整需 要用关联系数α乘以R,该关联系数α是根据存在峰值的最小集限定的(方程#3 ):

α = Min ( A B A , A B B ) .

因此,通过用系数α乘以系数R的平均值构成校正的未加权PSI值(方程#4):

PSI = α N Σ i = 1 N R i

当比较两个光谱时,人们可以简单地获得两个光谱峰值的交集,并研究它 们强度的线性相关或进行常用的统计分析,例如PCA或LDA。这是现在的现有 技术,尽管它提供了对两个光谱之间总体相关性的测定,但未能提供对样品内 或样品间的峰值之间关系的任何测定。排除该信息的结果是丢失了在相同光谱 峰值中的趋势或模式。现在方法的这种定量缺陷在图4中有说明,图4显示了同 样植物不同批次间所共有的峰值强度图。

虽然总体线性相关是非常明显的,说明了两批植物的相似性,但由于大部 分峰值聚集在低强度区域,因此,不幸地是很难检测各点之间的模式。而且, 在许多情况下很难确定哪些峰值为异常点。

当结合强度比率矩阵方法时,这些缺点就易于克服了。图5显示了当比较 单个植物(黄芩根)的B1与B2批次及B8与B9批次之间的强度矩阵时,对各数 据点的比率集的R得数的分布。

对B1、B2批次的分布,虽然峰值围绕着0.9,具有几个显然的异常峰值, 这些异常峰值与植物提取物中一小部分未充分代表性的化合物相关。相反,批 次B8、B9几乎没有异常峰值,显示了这些批次经过了较好的校正。显然,当 比较图4、5的结果时,比率矩阵的相关性提供了更有利的工具来确定异常峰值 ,这有助于建立关于质量控制的更精确的说明。这种比率的比较趋于加强差异 并考虑了内部比率差异的重要性。

根据其他信息(例如结果的可信度、数据的重要性等等)可以将该矩阵关 联方法扩展并推广为加权各个项。加权矩阵相关性(加权PSI)的一个示例是 通过沿矩阵对角线的LC-MS强度信息的简单线性相关将系数进行加权。如果我 们也使用如图4所示的简单线性相关,该矩阵相关方法变得更加有力。然后可 以用这种信息对由矩阵方法确定的Pearson(或Spearman)系数分布进行加权。例 如,假定图4中的拟合曲线的斜率给定为b,那么

I i A = b I i B + ϵ i ,

其中IA和IB为样品A、B峰值i的强度,εi为余项(方程#5)。为比较矩阵A 对B,我们如下定义权数w:

w i = 1 - ( b i - b b i + b ) 2 ,

其中bi=IAi/IBi。每一个Pearson系数用wi进行加权(方程#6)。因此加权植 物组相似性指数(PSI)的第二种定义同时也是优选定义,如下(方程#7):

PSI = α Σ i = 1 N R i w i Σ i = 1 N w i ,

此处α的限定如上所述。

PSI值的计算只是矩阵数据的多个处理中的一种,并由于其易于产生用作 比较的单个数字,因而用于举例说明。

在图6A中,对典型样品Scute5和Scute6的Pearson分布进行绘图。在图6B中 也描绘了“加权”Pearson分布,wiRi。

如所示的,加权分布在更大范围内延伸,这样使相关性不好(线性地)的 异常点更加接近于零。以此方式,在矩阵相关中关联性很好而线性关联性较差 的任何峰值可以非常容易地被识别为异常值。而且,由于此处对总PSI值进行 加权,因此,预计其对异常值、关联性的峰值敏感性较低。

矩阵方法和传统方法的比较

在已制定了一种新方法来评估两种草本植物组合物之间的相似性后,显示 在传统线性相关和矩阵方法之间的比较产生相似定量结果是重要的。再次考虑 代表草本植物组合物Scute1和Scute2的测定的LCMS峰值数列所共有的集,其中 Scute1和Scute2是相同植物(黄芩根)的两个批次,但它们是从不同制造商那 里购买的。对Scute1和Scute2所共有的峰值的强度测定其p值为0.074,清楚地显 示它们选自同样的分布。由Scute1对Scute2(图4)的强度的对数曲线与线性最 小二乘方拟合的结果是相适的。该线性相关大约为0.95,说明在Scute1和Scute2 之间具有较高水平的相关。可目视出最大的异常值为以下(时间,质量)对:(27.53 ,315.01)、(21.29,446.64)、(2428,313.03)、(18.42,446.64)、(20.41,446.636)、 及(21.87,271.09)。在图5A和图5B中,显示了使用如上所述的加权方法的相 关系数分布,该分布的加权PSI为0.89。Scute1和Scute2之间相关性最差(wiRi<0.5 )的峰值为上述列出的精确峰值组。在所有情况而论,矩阵方法至少与传统方 法一样好,但其提供了更好的方法来识别异常值,而且在用强的内部相关性进 行更细的测定数据之间的比较中,矩阵方法是更优的。

实施例4.矩阵指纹图谱和PSI量度的使用

本文所讨论的矩阵指纹图谱的比较可以用于许多数值比较目的,包括但不 仅限于以下:1)评价草本植物组合物之间的化学成分的相似性;2)评价草本 植物组合物的生物响应;3)确定与草本植物组合物的特定生物响应相关性最 高的那些数据点;4)确定哪些信息组(即相关植物数据、化学数据、生物响 应数据)与草本植物组合物的特定生物响应最相关;5)确定哪种生物系统对 评价草本植物组合物的生物活性是最好的;6)调整或改变草本植物组合物的 成分,以便所述草本植物组合物的矩阵指纹图谱对应于相同或基本相同的草本 植物组合物的标准化矩阵指纹图谱;7)调整或改变草本植物组合物的成分以 便于草本植物组合物具有所需的生物活性;8)测定不同草本植物组合物的相 似性;9)产生或更新标准化矩阵指纹图谱;10)识别特定的组分(如植物部 分、蛋白质、分子),它们保留了草本植物组合物所需的生物活性;11)确定 草本植物组合物中哪种成分可以去除同时还保留或提高了草本植物组合物的所 需生物活性;12)对草本植物组合物识别一种或更多种以前未知的生物活性; 13)帮助设计治疗方法,该治疗方法包括草本植物或非草本植物成分,如化学 合成药品或成药,及14)使用矩阵指纹图谱作为补充设计治疗方法的组合化学 方法的工具。通过通用的或本文所提供的方法和工具,可应用领域中的技术人 员可以完成本发明的每一个实施例。

实施例5.质量控制(化学指纹图谱)

矩阵指纹图谱和相关的分析方法可用于将植物组合物的特定批次(单个草 本植物或某一制剂的多种草本植物)与相同或基本类似的草本植物组合物的标 准化主批次相互关联或确定该草本植物组合物特定批次的定量等效物。而且它 可以用来快速识别相关性差的数据点(化合物或生物响应),并探究相关性差 的基础。我们使用作为示例的九个批次的比较,这些批次源于不同中国产地和 台湾的黄芩并用LC/MS进行分析。使用一致的包括46个LC/MS峰值的组,可以 计算配对的平均PSI值。发现这些值的范围在0.86-0.99之间,参见表和图7所示的配 对比较。

表4:成对比较黄芩标准提取物的9个不同批次的加权PSI值表。在比较中 用到了46个共同峰值,PSI值下至0.86上至0.99。查询数据的各个直方图来找出异 常点、确定分类、识别数据点的子集,将数据点之间内部关系进行关联等等。 SCUTE-  1  SCUTE-  2  SCUTE-  3  SCUTE-  4  SCUTE-  5  SCUTE-  6  SCUTE-  7  SCUTE-  8  SCUTE-  9  SCRTE-1  0.86  0.89  0.93  0.92  0.89  0.93  0.91  0.89  SCUTE-2  0.97  0.95  0.95  0.92  0.94  0.96  0.98  SCUTE-3  0.96  0.96  0.94  0.97  0.97  0.99  SCUTE-4  0.98  0.94  0.97  0.96  0.96  SCUTE-5  0.97  0.98  0.97  0.97  SCUTE-6  0.97  0.95  0.94  SCUTE-7  0.97  0.97  SCUTE-8  0.97  SCUTE-9

应注意植物同一批多次注射产生了接近0.99的PSI得数,几乎完全相配。从 这些曲线中,人们可以开始分析截点标准,该标准应用于形成能将可接受组从 不可接受组中分离的规格标准。用有限数量的样品,我们可为所述特定植物选 择0.9的PSI得数。采用加权功能,基于数据点的重要性、数据点值的可信度等, 人们可以限定哪些数据点对PSI比较的贡献最多。更详细的测定这些植物对的 任何一个披露了各数据点(LC/MS峰值)的PSI值直方图。然后查询该直方图 以识别哪个LC/MS峰值对应于图8所示的低相关性。

实施例6.质量控制(原料植物和加工处理)

基于生成季节、地理位置、植物年龄、植物部分、降雨情况、施肥、光照 量等,原料植物可以有非常大的不同。而且,通过各种已形成的传统及现代方 法可以从植物的原始状态进行加工,包括预处理(浸湿、烘烤、干燥、煎、蜜 制等等)、储存条件(时间、温度等等)、提取溶剂(水(冷热)、酒精、酸、 液化气体、有机溶剂等等)、提取条件(时间、混合、温度等等)、提取后处理 (喷雾干燥旋转蒸发、酸处理、添加赋形剂等等)等等。在制造工程中这些 方法都可以并确实改变化学组合物,以及可能改变生物活性。矩阵方法提供了 用于监控上述变化的一种综合方法。作为说明(表5)给出了专有的后处理示 例,使用了处理前和处理后的9种黄芩样品。

表5:列出了比较黄芩未处理和处理后的提取物的加权PSI值。后处理模拟 了正常的消化过程,它能改变多个混和植物提取物中的化学特性和平衡。该数 据显示了一些批次比另一些批次更敏感,并且可识别导致敏感性的分子组。     样品     PSI值     SCUIE-1     0.78     SCUTE-2     0.95     SCUTE-3     0.93     SCUTE-4     0.86     SCUTE-5     0.94     SCUTE-6     0.92     SCUTE-7     0.60     SCUTE-8     0.68     SCUTE-9     0.75

对食用产品,这种处理设计与正常的组分消化过程类似。在我们的情况下, 该专有处理显著改变了化学组合物并大大降低了相似性。当用PSI方法分析时 ,我们用专用的Phyto Viewer软件识别分子子集,以及样品对所述处理的整体敏感 性,所述分子是不变量。PSI值差的范围为0.1-0.4,当作直方图(参见图9及它 的附加说明)时,显示截点位于敏感和非敏感批次的PSI差为0.2处。

实施例7.质量控制(生物响应)

任何生物试验的临界状态(危险性)评价是试验本身的再现性。PSI分析 可用于评价单独批次的植物(或单独分子)对生物响应的影响。例如,考虑用 单独批次的草本植物制剂PHY906对Jurkat细胞株进行六种独立处理后的上调和 下调基因列表(AffymetrixTMU133A芯片在耶鲁大学和Stony Brook的核心设备 中进行处理)。从数据中挑选出70个基因的一致组(55个向上调节,15个向下调 节),并用于计算矩阵并确定PSI值(表6)。

表6:经过以下成对比较得到的加权PSI值表:用同样的PHY906提取物处 理Jurkat细胞的六种不同基因组阵列试验或未经处理,产生用于矩阵中的信号log 比率值。该PSI值显示不同细胞培养基、基因阵列设备及芯片在总体基因表达 模式中可变性的精确水平。在该比较中使用了6组重复数据之间的共70个共同基 因。  重复-1  重复-2   重复-3  重复-4   重复-5   重复-6 重复-1   0.91   0.942   0.951   0.912     0.913 重复-2   0.883   0.912   0.907     0.903 重复-3   0.913   0.925     0.856 重复-4   0.881     0.915 重复-5     0.845 重复-6

如果仅有的变量是细胞培养基变化、芯片再现性和试验设备精确性,该结 果可用于限定PSI值为0.85或更高位于试验误差以内,其可用于建立生物等价物 的基准以保持一致性。而且,单个基因的PSI值直方图上的异常点(参见图10 和所附说明)显示了一小组基因在与其他基因的内比率平衡中具有显著偏差。

这有助于确定在与所有其他基因的基因响应图谱进行比较时哪个一直观察 的基因最稳定,因此应将该基因从对特定植物的标记基因生物响应组中包含或 除去。类似于化学指纹图谱示例(图5)及其应用于确定植物之间化学组合物 的相似性,生物响应矩阵指纹图谱也可用作化学成分对基因组水平的影响的质 量控制读数。例如,细胞集(每一个细胞的特征在于它们对植物的活性)可以 设置为向量形式。因此,每一种植物具有与之相关的独特的具有生物显著性的向 量。基因组数据也提供了关于一种植物物质的生物响应的强有力信号。DNA微 阵列使人们可以将细胞活性的基因表达图谱与特定的植物药物活性相关联。可 以基于植物和基因来评价关联程度。该分析的结果是,对于每一种植物,相关 性矢量与数据集中的每一个基因有关。用基因表达相关性的矢量代表每种植物 提供了关于该植物的高度特异性的生物响应指纹图谱。作为示例,Jaccard相似 性指数可基于植物的生物响应确定两种植物的相似性。以此方式,可很快将植 物的较大数据集删剪成生物相关子集,来进一步与其他指纹图谱方法进行比较 ,如LC/MS。

蛋白质组学应用于细胞中蛋白质水平的精确表达水平,是对基因组描述有 价值的补充。SELDI-MS试验测定结合到特定表面基底上的蛋白质数量,它用 于说明蛋白质生物响应图谱中的深刻变化可用矩阵方法和PSI值进行定量。用 植物提取物PHY906的三种不同剂量处理Jurkat细胞,24小时后检测蛋白质响应 。PSI值矩阵(表7)显示了更低剂量的PHY906可引起显著变化(0.83-0.85), 而主要变化发生在PHY906的剂量为0.1-1.0mg/ml(0.38-0.49)。

表7:加权PSI值表,对Jurkat细胞用不同剂量的PHY906(0.0、0.02、0.1、 1.0mg/ml)进行处理的四种蛋白质模式(使用SELDI方法和IMAC芯片得到的 Ciphergen数据)进行成对比较。PSI值显示各种处理之间表达蛋白的模式和比 率模式定量差异,并显示蛋白质表达水平的最大剂量响应变化发生在0.1-1.0 mg/ml之间。 对照 剂量0.02mg/ml 剂量0.1mg/ml 剂量1.0mg/ml     对照   1     0.85     0.83     0.49 剂量0.02mg/ml     1     0.71     0.38 剂量0.1mggml     1     0.4 剂量1.0mg/ml     1

由于蛋白质水平在活细胞中趋于相关以提供动态稳定状态水平,包括非对 角线比率项的方法允许包括蛋白质变化关联及更快地确定蛋白质变化种类 (clusters)。

实施例8.改进草本植物组合物或确定草本植物组合物的新治疗用途

矩阵方法也可用于使生物响应指纹矩阵与化学成分指纹图谱矩阵相关联, 以确认分子种类模式,该分子种类可能导致一复杂的生物响应模式。所述用于 分析复杂多成分混合物的系统生物学方法观念需要模式识别和内依赖数据分析, 例如矩阵方法中所体现的。用将化学和生物响应指纹图谱结合起来的方法,可 以确定生物不活跃或无活性分子及生物相关化学成分的模式,从而有助于改进 混合物的生物活性特征。通过产生植物类似物(替代品、已存在制剂的删除或 比率调节),该信息可引导改进植物组合物或新的制剂。类似地,用未知或声 称具有多种功能(常常是这种情况)的植物处理细胞培养基或动物,然后对生 物响应模式进行分析,可以引导发现新的功能。例如,声明治疗腹泻的植物药 物PHY906显示在宽的筛选化学动力响应试验组中,具有向下调节生物活素IL-5 的作用,该生物活素与哮喘炎症过程强烈相关。该发现(测定矩阵指纹图谱的 结果)进一步将这些效果与IL-6和其他生物活素相关联,并开创了PHY906药物 的新应用方法。

实施例9.表征一种未知的草药

传统中药(TCMs)常含有多种植物并作为家庭或商业秘密保存。通过矩 阵指纹图谱分析样品可以披露化学成分并用于识别植物原料、原料比率甚至是 制造过程。简单评估各个化学成分对识别各个原料就足够了。然而,原料比率 和更细的植物原料来源及制造过程可能会以一种更加复杂的非线性的方式极大 地改变成分平衡。这种比率平衡和成分内部关系模式可用作一种优良的方式来 全面表征产物的特性。应注意,通过这种方法分析化学指纹图谱可以建立样品 间的化学等价物。模拟模式匹配可用于确定用在最终产物中的植物比率。一旦 建立起来,在最终组合物中的植物比率可以系统方式选择提取方法从而推动并 指导优化制造过程,使两种植物化学模式相一致。只有通过集中于总体植物化 学模式(与根据一小组单个化合物相反)才能有效完成上述过程。除了化学成 分矩阵分析,生物响应模式也可用于确定生物相关性更强的比较。在此情况下 ,通过匹配酶/受体、趋化因子、蛋白质组、基因组、动物响应和/或行为响应 ,经植物提取物、植物原料的系统采样和制造方法,可建立生物等价物。

上述详细说明仅是为了清楚理解,由于修改对本领域技术人员是显然的, 上面的说明不应理解为必需的限定。

虽然本发明结合特定实施例进行描述,应理解它可以进行进一步修改,本 申请包括对本发明的变化、使用、或改变,它们都遵循本发明的原理并包括对 本发明这样的背离:在本发明所属领域已知或惯例的范围内并可应用于在此前 阐述的重要特征,它们在所附权利要求的范围内。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈