用于定量分析并评估植物样品性质的矩阵法专利检索-关联性分析人工智能专利检索查询-专利查询网

用于定量分析并评估 植物样品性质的矩阵法

阅读：18发布：2021-10-01

专利汇可以提供用于定量分析并评估植物样品性质的矩阵法专利检索，专利查询，专利分析的服务。并且本发明涉及用于提高草本植物组合物的选择、试验、质量控制及制造的计算方法，以帮助指导研制新的草本植物组合物并确定已有草本植物组合物的新用途。具体来说，本发明涉及以下方法：一种将两个或多个生物和/或化学数据编译成矩阵指纹图谱，并对这样的矩阵指纹图谱进行统计学/概率处理以便对草本植物组合物进行试验和改进。，下面是用于定量分析并评估植物样品性质的矩阵法专利的具体信息内容。

权利要求

1.产生代表草本植物组合物的化学和/或生物响应特征的矩阵指纹图谱的方法，包括获得草本植物组合物的适当数据点；将这些数据点进行数字化；并产生草本植物组合物的矩阵指纹图谱，其中矩阵指纹图谱包括数字化数据。
2.如权利要求1所述的方法，其中按以下方式产生矩阵指纹图谱：将数字化数据点沿矩阵对角线放置，并将每个数字化数据点与各其他数字化数据点的比率放置在矩阵的非对角线位置。
3.比较两种或多种草本植物组合物之间相似性的方法，包括
a)获得两种或多种草本植物组合物的数据点；
b)将数据点数字化；
c)比较数字化数据以确定所述两种或多种草本植物组合物所共有的数据点；
d)对每一种草本植物组合物产生矩阵指纹图谱，其中矩阵包括对每一个共有数据点的草本植物组合物的数字化数据；和
e)通过用多种统计学或基于规则的方法比较矩阵指纹图谱，从而比较两种或多种草本植物组合物之间的相似性。
4.如权利要求3所述的方法，其中两种或多种草本植物组合物中每一个的矩阵指纹图谱通过以下方式产生：
i)将每一个共有的数字化数据点与各其他共有的数字化数据点的比率放置在矩阵的非对角线位置。
5.如权利要求3或4所述的方法，其中使用集合操作、统计学分析或计算模型对两种或多种草本植物组合物的矩阵指纹图谱进行比较。
6.如权利要求5所述的方法，其中统计学分析是线性相关。
7.一种测定统计学分类模型的方法，用于确定两种或多种生物样品的质量控制标准，所述方法包括产生两种或多种生物样品的矩阵指纹图谱；进行统计学评价并通过计算机算法将两个或多个矩阵指纹图谱进行比较从而计算出每一个数据点的PSI值；用直方图或其他可视显示方式锁定单个PSI值的范围；使用该显示来识别相关性差的数据点；对直方图和PSI值进行数字分析以确定统计学分类模型并确定质量控制标准。
8.如权利要求7所述的方法，其中计算机算法可用C++、Pearl、Java或其他现代语言编写。
9.如权利要求7所述的方法，其中计算机算法可在个人计算机、手提式计算机、向量支持机器或大型计算机上进行处理。
10.如权利要求7所述的方法，其中该方法用于帮助进行质量控制、分类、新药物识别、制造、样品处理过程、样品掺杂、样品装填(tampering)及生物、草本植物或多组分样品的结构生物活性关联性。
11.如权利要求7所述的方法，其中该方法用于以下目的：质量控制、分类定义、新药识别、新生物靶识别、制造差别、样品掺杂和装填检测、单个或多个化学成分的生物响应的结构生物活性关联性。

说明书全文

发明领域

本发明涉及一种用于改进草本植物组合物(heral compositions)的选择、试验、质量控制、制造的计算方法。具体地说，本发明涉及以下方法：将两个或多个生物和/或化学数据点编码成矩阵指纹图谱(matrix fingerprint)(用于对数据点之间的相互联系模式进行编码)，并对这样的矩阵指纹图谱进行统计学/概率处理以便对草本植物组合物进行评估、试验及改进。本发明也可计算每个数据点值或单个平均值或一个确定值范围的直方图，这些值可用于定量评估植物样品之间的相似性和差异。然后可将该值或该组值用于对具有药物活性的植物或草药评估再现性、限定成分组成、评估成分调整及加强成分优化。这些方法可应用于多组分混合物，如那些在植物或草药中固有的成分，或用于对单个化合物或多成分混合物进行试验或处理而产生的多因子响应。

相关申请

该申请要求序列号为60/330628的美国临时专利申请的优先权，该申请的申请日为2001年10月26日，其在本文作为整体引用。本申请与以下申请有关：序列号为60/105435和60/188021的美国临时申请，PCT申请PCT/US99/24851和 PCT/US0107608，和序列号为09/830033的美国申请。这些申请在本文作为参考整体引用。

发明的背景技术

所有出版物和专利申请在此作为参考引用，如同每一篇单独的出版物或专利申请被特别和单独指出作为参考引用。

草药已由美洲、亚洲、非洲及欧洲的本土居民使用了几个世纪。在美国( US)，在膳食(dietary)添加剂工业和整体(holistic)医学中草药已经变得具有商业价值。约三分之一的美国人口已至少尝试过一次一些形式的替代药(Eisenberg 等，1993，N.Engl.J.Med.328：246-252)。

包括草药的植物也已变成了用于识别新的治疗疾病的活性试剂的焦点。制药工业一直对来源于植物提取物的活性化合物感兴趣。例如，紫杉酚是从西部紫杉树获得的抗肿瘤药物。估计现在通常使用及医生开的药中约30-35％是来源于植物源或含有植物化合物的化学仿造物。

现在，许多医药制剂、食品添加剂、膳食添加剂等等均含有草本植物组分或草药的提取物。在许多不同的国家草药已用于治疗多种人和动物的疾病很长时间了(参见例如I.A.Ross，1999，Medicinal Plants of the World，Chemical Constituents，Traditional and Modern Medicinal Uses，Humana出版社；D.Molony， 1998，The American Association of Oriental Medicine’s Complete Guide to Chinese Herbal Medicine，Berkley Books；Kessler等，1996，The Doctor’s Complete Guide to Healing Medicines，Berkley Health/Reference Books；Mindell，同上)。

然而对植物提取物的研究对进行定性以及更重要的定量分析和比较提出了独特的挑战。一些这样的挑战包括：农业技术中固有的植物化学的多组分混合物的变异性、制造方案的差异、植物药物的老化及储藏期限、关于药物活性分子组的非常少的可靠信息。现在只有不足或较差的定量方法来监测和测定植物药物组合物的化学和/或生物等价物。

美国管理程序。目前，将植物作为食品和保健产品对待。在美国，膳食添加剂(如植物提取物及产品、维生素及矿物质、氨基酸和组织提取物)按照1994 年的膳食添加剂健康和教育法案(DSHE法案)进行管理。该法案排除了将膳食添加剂的组成成分作为联邦食品、药品及化妆品法案所规定的食品添加剂。而且，DSHE法案需要食品药品管理局(FDA)承担提供以下证明的责任：即市场上销售的膳食添加剂在标签所注明的使用条件下或在正常使用中具有严重或不合理的危险。因此，现在还没有联邦法规来建立关于膳食添加剂的纯化、识别及生产的特定标准。而且很少有来源于1992年由国会组建的替代药品局的关于草药质量的论文发表(Angell等，1998，N.Engl.J.Med.339：839-841)。

现在，FDA必须批准药物组合物或组合(cocktail)中的每一个化学个体 (entities)，然后必须进行临床试验以获得销售该药品的单独的FDA批准。该过程十分冗长并且费用昂贵。由于事先将特定的草本植物组合物作为草药使用允许一开始就进行多种化学产品的临床试验(即用草本植物组合物或草本植物组合物中的特定成分的临床试验)，因此分子整体医学的评估可能费力较少。近来，FDA已批准在临床试验中测试作为草本植物药物的草药(2000年8月关于植物药物的FDA导则)。这些事件通常表示在医疗方面的积极进步，同时也提出了关于草药和膳食添加剂的制剂、生产以及质量控制方面的重要问题。虽然严格的临床试验(多重准备、安慰剂对照、剂量增加、双盲法等等)是评估安全性和效用的标准，但是关于植物质量控制的FDA方针仍然在发展。现在，需要将化学标记化合物、化学指纹图谱分析和生物学试验结合起来，以及验证产品中不含重金属、毒素、杀虫剂、除草剂、杀真菌剂或其他人造的药理学活性试剂。我们相信许多由草药中的多种化学成分导致的相关生物效应对支持由FDA 作出的销售许可会变得越来越重要。现在可使用多种生物效应方法来监控某种多组分实体或单分子体的生物活性。这些方法包括表达基因、表达蛋白质、细胞因子、转录因子、细胞受体和小分子代谢物构成的组(panels)。人们相信，是不同实体水平间的相互平衡而不是单个实体的量对细胞或有机体的总体生物存活力起着至关重要的作用。此概念是系统或综合生物学的核心，并发现其在复杂生物问题的研究方面得到越来越多的应用。

随着西方国家对植物的独特药学价值的不断重视，人们在更好地对植物进行标准化并加以辨别的方法方面越来越感兴趣。草药工业正面临着提高其现有实践方法的不断增长的压力(参见例如Angell等，同上)。最近几个关于摄取草药制剂而导致毒性的报告强调了需要应用科学的试验方法进行草药和食品添加剂的制备及管理。例如，一位摄取了基于草药的膳食添加剂的患者发生了洋地黄中毒(Slifman等，1998，N.Engl.J.Med.339：806-811)。后来确定称为车前草(plantain)的草药原料实际上被毛花洋地黄(一种已知含有至少60种强心糖苷的草本植物)污染。在另一个例子中，发现一草药制剂导致一位患者慢性铅中毒(Beigel等，1998，N.Engl.J.Med.339：827-830)。由于记录了很多由铅和其他重金属引起的传统亚洲草药药物的污染(Woolf等，1994，Ann.Intern.Med.121 ：729-735)，因此这不完全是意外事件。

植物辨别。人们知道，遗传特性(例如属、种、培育变种、变种、克隆) 、草本植物生长年龄、收获时间、所使用的特定植物部分、处理方法、地理发源地、土壤类型、气候模式、肥料类型和施肥率、及其他生长因素对来自任何特定区域的任何“收获”的特定草药的特定化学成分有着重要影响。

人们已开始进行数量不断增加的各种试验以确保用于医药及作为膳食添加剂的草药具有稳定的品质，这些方法包括测定宏观及微观水平，以及各种化学分析。现在所使用的方法集中于单独的内源标记物质，这些物质通过色谱分离监控并通过UV/VIS或最近通过质谱法进行检测。在一些情况下，每种植物使用了多个标记物(例如对于人参为10-12种)。然而，通常每种植物只使用一种或两种标记化合物。在上述任一种情况下，在植物提取混合物的几百种潜在植物化学物质中，只利用了所得到的信息的一小部分。由于通常不知道该标记化合物是否导致该生物反应，因此上述问题比较复杂。就治疗轻度抑郁的普通植物来说，例如St.Johns 麦芽汁，传统用于纯化及生物效能的原始标记化合物( 金丝桃素)实际上与生物效应无关。目前人们认为另一个独立分子(贯叶金丝桃素)才是具有生物活性的标记物(Chatterjeee，SS.Battacharya，S.K.，Wonnemann， M.，Singer，A，Muller，W.Z.，Scwabe，W.(1998)LifeSci.；63(6)，499-510)。

现在使用几种不同的方法用于进行描述。高效液相色谱(HPLC)使用 UV/VIS检测草药提取物中的标记分子，已变成一种参考标准。通常，只选择一个单独的波长，该波长使所选标记化合物的吸收最大化。更多先进的方法使用二极管阵列检测器同时检测多个波长，这些方法变得更加规范。然而，这种方法存在问题。一些这样的问题包括：(1)一些生物活性分子可能不吸收UV 或可见光；(2)UV/VIS检测常常不能辨别具有同样保留时间的独立不同的分子种类；(3)各种分子种类的吸收特性可能与存在的物质质量不成比例；(4)化学产物的量不是必须与它的生物效能成比例；和(5)在各个形成复杂生物活性的化学种类之间可能存在协同作用。

蒸发(evaporative)光散射是第二种检测器系统，该系统可以基于分析物分子喷雾流的光散射来监测分子。在许多方面与UV/VIS互补，所述蒸发光散射能够检测种类繁多的小分子挥发性分析物，能将这些分析物进行喷雾形成汽相并通过多色光束的光散射进行检测。其优点包括：(1)除去可能干扰检测的背景溶剂；和(2)同样的检测器响应于宽范围的分子种类，即改进的检测器不依赖于化学性质。其中一个缺点是它只能检测到挥发性比将其溶解的溶剂挥发性小的分子。

质谱(MS)是一种分析方法，用于测定放置在高真空度中的样品所产生的离子化分子束或分子片段束成分的精确质量和相对丰度。电喷或气压离子化 (API)MS使人们可以方便地以液相进行工作，并使MS检测器与HPLC系统相连接。MS与UV/VIS不同，其不依赖于光密度。在实践中，MS与HPLC或毛细管电泳(CE)联合使用：HPLC根据物理化学特性分离化学物质，然后MS可以用来检测并帮助识别特异性分子。现在可以获得集中了MS和HPLC的商业系统，其包括UV/VIS和蒸发光散射检测器(ELSD)。质谱法限于气体样品或在低压下挥发的样品，或那些可以通过衍生作用而挥发的样品。

从上面的讨论可以看出，只选择一种或两种标记组分不足以保证具有药物活性的植物提取物进行标准化及其成分构成。新近出版物公开了由特定供应商提供的草药质量有更大的变化，并且难于提供草药提取物的生物等价物。而且，在多数情况下，安全性、有效性以及草药中的化学物质之间的关联不能很好地限定。最近，根据消费群体及管理机构的投诉(1997年2月6日的联邦公报，第 62卷25期，Docket No.96M-0417，cGmp In Manufacturing，Packing or Holding Dietary Supplements，Proposed Rules)，一些草药制造商已开始执行优良生产工艺(Good Manufacturing Practice)(GMP)，该条例要求严格控制所有水平。

化学和光谱方法已用于鉴定草药和食品添加剂的成分。例如，使用这两种方法将三种新的基于常春藤苷配基的乙酰化皂苷从墨西哥丁香的果实中分离出来(Kojima等1998，Phytochemistry48(5)：885-888)。通过比较一些特征组分的含量推断在许多商业样品中的中药的植物来源，使用高效色谱(HPLC)或毛细管电泳(CE)对这些特征组分进行分析(Shuenn-Jyi Sheu，1997，Journal of Food and Drug Analysis5(4)：285-294)。例如，麻黄碱/伪麻黄碱的比率用作将中麻黄从其他物种中区分出来的标记；用总碱含量来区分黄柏的不同属种；用人参皂甙含量来区分人参各属种。然而，这些方法不能对人们用草药进行治疗后各种草药对分子、生理或形态方面的响应所产生的影响进行直接的测定。

使用气相色谱-质谱和原子吸收法，加利福尼亚健康部、食品和药品局最近对草药店的亚洲药物进行了污染物测试(R.J.Ko，N.Engl.J.Med.339：847) 。所检测的260种产品中至少有83种(32％)含有未经申报的药品或重金属，23 种含有多种掺杂物。使用高效液相色谱、气相色谱和质谱，发现一种商业上可获得的八种草药的组合(PC-SPES)含有雌激素有机化合物(DiPaola等，1998 ，N.Engl.J.Med.339：785-791)。研究人员断定PC-SPES具有强的雌激素活性，对摄取了PC-SPES的前列腺癌患者可能会影响标准治疗的结果，并可能会在临床上产生严重的不利效果。最近，由于质量控制报告以及发现许多批次中存在丙酮苄羟香豆素(一种强效制剂，仅为抗凝剂)，PC-SPES已由FDA从市场上召回(www.fda.gov./medwatch/SAFETY/safety02.htm#SPES，2002年9月20日更新)。同时，对传统中药“威灵仙”的不同样品也收集了气相色谱数据，并将这些数据与样品的抗炎活性进行关联(Wei等，Study of chemical pattern recognition as applied to quahty assessment of the traditional Chinese medicine“wei ling xian”，Yao Hsueh Pao 26(10)：772-772(1991))。然而，该研究未从这些数据中产生矩阵指纹图谱，该图谱可以使人们将样品标准化，并对该样品与其他具有相同或或类似草药组合物的样品进行比较。

蛋白质水平的变化也用于鉴定草本植物组合物或草本植物组合物特定组分的功效。例如发现外周血单核细胞产生的粒细胞集落刺激因子(G-CSF)根据所加到培养基中的特定中草药而改变(Yamashili等，1992，J.Clin.Lab.Immunol.37 (2)：83-90)。白细胞间介素1的α受体表达在用小柴胡汤(在日本最常使用的草药)处理的培养的人表皮角化细胞中得到了明显的上调(Matsumoto等，1997 ，Jpn.J.Pharmacol.73(4)：333-336)。通过用Toki-shakuyakusan(TSS)进行处理增加了Fcγ11/111受体和巨噬细胞的补体受体3的表达(J.C.Cyong，1997， Nippon Yakurigaku Zasshi 110(增刊1)：87-92)。粉防已碱，一种由天然中草药分离的生物碱，抑制鼠肺泡巨噬细胞中诱导信号的NF-κB的活性(Chen等，1997 ，Biochem.Biophys.Res.Commun.(1)：99-102)。草药柴汤、泽泻(日本名为“Takusha ”)、茯岭(hoelen，日本名为“Bukuryou”)抑制患有抗肾小球基底膜肾炎的鼠中内皮素-1的合成及表达(Hattori等，1997，Nippon Jinzo Gakkai Shi39(2)： 121-128)。

mRNA水平的增加或减小也用作显示各种草本植物和草本植物组分的功效。腹膜内注射青羊参(Qingyangshen，QYS)(一种具有抗癫痫作用的传统中药) 和二苯乙内酰脲钠减小了在大鼠的红藻氨酸诱导的慢性发作过程中α、β管蛋白 mRNA和海马趾c-fos mRNA诱导(Guo等，1993，J.Tradit.Chin.Med.13(4) ：281-286；Guo等，1995，J.Tradit.Chin.Med.15(4)：292-296；Guo等，1996 ，J.Tradit.Chin.Med.16(1)：48-51)。用皂甙黄芪甲甙IV(一种由黄芪提纯的组分)处理培养人脐带静脉内皮细胞(HUVECs)降低了纤维蛋白溶酶原活化因子的抑制因子I(PAI-1)的特异性mRNA表达并增加了组织型纤维蛋白溶酶原活化因子(t-PA)的特异性mRNA(Zhang等，1997，J.Vasc.Res.34(4)：273-280 )。发现一种从人参的根部分离出的成分是由人单核细胞和由人单核细胞株产生的白细胞间介素-8(IL-8)的有效诱导剂，该诱导伴随着IL-8表达增强(Sonoda 等，1998，Immunopharmacology 38：287-294)。

最近在核苷酸微阵列技术方面的发展可以大量地平行挖掘关于基因表达的信息。该方法已用于研究细胞循环、生物化学路径、基因组在酵母中的广泛表达、细胞生长、细胞分化、细胞对单个化合物的响应以及遗传疾病，包括疾病的发作及发展(M.Schena等，1998，TIBTECH.16：301)。因为细胞是通过改变特定基因的表达水平来响应微环境的变化，细胞中所表达的基因特性可以确定细胞来源于什么及其中所涉及的生物化学和调控系统(Brown等，1999，Nature genet.，21(1)增刊：33)。这样，细胞的基因表达图谱描述了细胞的起源、细胞现在的分化以及细胞对外界刺激物的响应。即便是这样，现在还没有研究者试图将这些新技术应用于研究全部草本植物治疗和添加剂的分子功效。

一些研究者已试图鉴定由所选择的草药中分离出的主要活性组分的功效。例如，用由田七纯化而得的三七皂甙R1(NR1)处理HUVECs导致了TPA合成的剂量依赖性和时间依赖性的增加(Zhang等，1994，Arteriosclerosis and Thromobosis 14(7)：1040-1046)。用NR1处理不会改变尿激酶型纤维蛋白溶酶原活化因子和PAI-1的抗原合成，它也不会影响PAI-1在胞外基质上的沉积。当用 NR1处理HUVECs时，TPA mRNA增长了两倍，而PAI-1特异的mRNA表达受NR1 的影响不显著。由于大多数关于田七的研究涉及其与其它草本植物的混合物，研究者注意到很难评估当它用于人体中的治疗时其结果如何与体内状况相关( 同前面的文献，1045页，第二栏，第一段)。而且，由于研究者只研究草本植物中的一种主要成分，不可能从该研究中确定整个草本植物的功效或草本植物成分间的相互作用。

Dobashi等(1995，Neuroscience Letters 197：235-238)研究了柴胡试剂中的两种主要成分的功效，柴胡是用于治疗肾病综合征、支气管哮喘、慢性类风湿性关节炎的中药。SS-d给药提高了血浆促肾上腺皮质激素(ACTH)水平、胸垂体前叶中的阿片黑色mRNA水平以及具有剂量依赖性模式的鼠下丘脑CRF mRNA水平。相反的，用SS-a治疗不影响这些分子标记物的水平。虽然该研究显示了SS-d给药可能在柴胡试剂诱导的鼠下丘脑CRF释放及CRF基因表达中起到了重要作用，但它不能从整体上测定草药的分子效果。

Kojima等(1998，Biol.Pharm.Bull.4：426-428)描述了使用mRNA差异显示来分离和识别通过小柴胡汤转录调节的小鼠肝中基因，小柴胡汤是在日本用于治疗各种炎性疾病的草药。这些研究者局限于用mRNA差异显示技术研究草药的分子学机制。它也未提出在经治疗的动物的多器官中的功效，并且不能为质控、新的应用、效果的标准化提供任何指导。

Ma Ji等(1998，Chinese Medical Journa1111(1)：17-23)研究了草药蒙古黄芪对大鼠水钠储留的治疗作用，其中所述大鼠经历了主动脉腔静脉瘘引起的实验性充血性心力衰竭。对用黄芪治疗及不用黄芪治疗的慢性心力衰竭大鼠在以下方面进行比较：各种形态特征(例如体重、血清钠浓度)；生理特征(例如平均动脉压、心率、血细胞容量及血浆渗透压)；mRNA表达水平(例如下丘脑精氨酸抗利尿激素(AVP)、AVPV1a受体、肾AVPV2受体、水通道蛋白-2(AXP2 ))以及蛋白质分泌物(例如血浆心房单磷酸肽(ANP)及尿环鸟苷酸(cGMP )。研究者发现用黄芪治疗提高了心脏和肾的功能，部分矫正了AVP系统和AQP2 的异常mRNA表达，并提高了肾对ANP的反应。这种研究未使用所收集的数据来引导研究新的制剂或用于说明一个处方中各草药之间的协同或其他相互作用或为质量控制目的确认效果差异。

植物提取物的数学和统计学评价.在由相同一组参数组成的两个对象之间确定数字测量的相似性的概念常用于各种学科，例如心理学、生物地理学、化学及信息论。目前存在有大量的关于相似性测量的方法，这些方法在实用性和复杂性方面有所不同。最直接的相似性测量是具有欧几里得度量的两向量间的欧几里得距离。有关在化学基础范围中的相似性测量的综述参见：Willett等的 “Chemical Similarity Searching”J.Chem.Info.Comput.Sci.，Vol.38，983-996 页(1998)。

数字标志在各种行业中得到了发展，特别是在食品科学工业，用于确定样品质量的定量量度，通常称为“质量指标”。质量指标可作为数十至数百个生物及理化参数的函数而获得。例如葡萄酒可由芳香指标来表征葡萄酒不同的酿造年代，该芳香指标源于标记化合物的气相质谱峰浓度(Falque等， “Differentiation of white wines by their aromatic Index”，Talanta，第54卷，271-281 页(2001))，以及将葡萄酒根据不同的理化参数分成组来表征葡萄酒(Nogucira 等，“Anayltical Characterization of Madeira Wine”，J.Agric.Food Chem.)。最近，已得到由样品pH和标记化合物浓度的线性组合构成的质量指标来检测蓝烟鲑鱼的新鲜度(Jorgensen等，“Multiple Compound Quality Index for Cold-Smoked Salmon(Salmo Salar)Developed by Multivariate Regression of Biogenic Amines and PIP”，J.Agric.Food.Chem.，第48卷，2448-2452页(2000))，以及用于沙丁鱼新鲜度的质量指标是基于样品中的核酸降解(Vazquez-Ortiz等，“Application of the Freshness Quality Index(K Value for Fresh Fish to Canned Sardines from Northwestern Mexico”，J.Food Comp.Anal.，第10卷，158-165页(1997))。用源于荧光发射和与苹果褐色氧化有关的化学物质的吸收水平的指标量化苹果汁的变质(Cohen等，“A Rapid Method To Monitor Quality of Apple Juice During Thermal Processing”，Lebnsm-Wiss.U.-Technol.，第31卷，612-616页(1998)。用质子NMR来分析速溶咖啡并通过主成分分析和线性判别分析对其进行分类，从而根据生产商和咖啡类型对样品分类(Charlton，AJ等，“Application(1)h NMR and multivariate statistics for screening complex mixtures：quality control and authenticity of Instant coffee”，J.Agric.Food Chem，50(11)，3098-3103页(2002) )。制定了基于泰尼莫特(Tanimoto)系数的更具统计学形式的质量指标用于确定由气相色谱测定的各种桉树间的区别(Dunlop等，“Chemonetric anaylsis of gas chromatographic data of oils from Eucalyptus species”，Chemometrics and Intelligent Laboratory Systems，第30卷59-67页(1995))。为测定空气和水污染的质量指标已经由环境保护局(EPA)进行了标准化(水资源局，美国环境保护局，“Total Maximum Daily Load Program：National Overview”，2000年3月16日； http：//www.epa.gov/OWOW/TMDL/status.html；美国环境保护局，“Revised Requirements for Designation of Equivalent Methods for PM2.5 and Ambient Air Quality Surveillance for Particulate Matter；Final Rule”，第IV部分，1997年7月18日 )。

在食品和植物科学中，最多的质量和样品种类的统计度量是基于产品分类的。用于许多范围的最常用的分类规则是神经网络(Garcia等，“Sherry wine vinegars：phenolic composition during aging”，Food Research International，第32卷， 433-440页(1999)；Moshou等，“A neural network based plant classifier”， Computers and Electronics In Agriculture，第31卷5-16页(2001)；Martin等，“ Discrimination between arabica and robusta green coffee varieties according to their chemical composition”，Talanta，第46卷1259-1264页(1998)；“Application of pattern recognition to the discrimination ofroasted coffees”，Analytica Chimica Acta ，第320卷191-197页(1996)；“Classification of tea samples by their chemical composition using discriminate analysis”，第43卷415-419页(1996))，以及一般的多元统计分析，例如线性判别分析(Moshou等，“A neural network based plant classifier”，Computers and Electronics In Agriculture，第31卷5-16页(2001))和主成分分析(PCA)(Goodner等，“Orange，Mandarin，and Hybrid Classification Using Multivariate Statistics Based on Carotenoid Profiles”，J.Agric.Food Chem.，第49卷1146-1150(2001))。就所有情况而论，质量指标和分类规则是基于对作为描述符号的一组个体标记化合物的先验选择，并且不考虑在总体化学模式或全面生物响应中的化合物平衡或比率。

如上述相关科学论文所论述的，有效的统计学和计算方法并未用于检测含多种成分(如草药组合物)的植物提取物并使之标准化，也未用于改善及发展使用生物提取物进行治疗的方法。植物的治疗功能是配制提取物的多组分特征所固有的，这些提取物在人体内的多个生物路径上协同作用。这样，有效的生物学作用不仅需要单个的植物化学组分，而且需要这些不同组分间的平衡和比率。为理解这些混合物如何工作并全面评估植物化学混合物的特性，评估化学物的整体模式并同时使用多种高分辨率的化学检测器和有效用作生物检测器的生物检测是至关重要的。本发明体现了以下概念：如何将化学及生物指纹图谱的完整模式结合入单个复矩阵，并将该矩阵转换为少量值来进行定量比较和评估。

发明概述

本发明提供了以下用途所必需的计算方法：指导将草本植物组合物标准化；确定草药组合物中哪种特定成分是造成特定的生物活性的原因；预测草药组合物的生物活性；开发改进的草药治疗方法；调整或修改草药组合物；测定不同草药组合物的相关性；识别保留所需生物活性的一批草药组合物中的特定分子；确定已知草药组合物中哪种草药成分可以从已知草药组合物中除去而保留或改善已知草药组合物的所需生物活性；识别一批草药组合物的新用途和以前未知的生物活性；并且使用一批草药组合物的预测生物活性来帮助设计包含草药组分和合成化学药物的治疗剂，该设计包括使用组合化学方法来设计治疗剂

这些方法集中于使用所有可从高分辨率分析方法中收集的适用化学数据，所述分析方法包括与UV/VIS、MS、NMR、拉曼、IR等结合的色谱法，将这些数据数字化，并将数字数据转化为矩阵模式，该矩阵模式可通过不同的数学和/ 或统计学方法进行分析。也可将该方法扩大至还结合由生物检测器获得的数字数据，包括染色体组、蛋白质组、酶/受体阵列、细胞试验、动物试验及临床数据。然后可通过两种常用方式使用该生物数据。第一，它可以直接与化学数据结合以产生合并的全面(comprehensive)矩阵指纹图谱。第二，生物数据可用于筛选由化学数据产生的矩阵指纹图谱，以限定一种生物相关子集(sub-set)。使用这种方法，可以使用所有数据或数据子集，而不需要标记化合物的已有(priori) 知识，同时通过化学和生物响应结果以及化学和生物响应结果的比率来确定模式和分析。该方法的关键是使用多个化学和生物读数的全矩阵模式。

图表简述

图1是代表性的LC-MS(即液相色谱-质谱)数据三维图，描述了植物多组分提取物的标记概貌轮廓。沿一维标绘出在C18柱上的保留时间(分钟)，沿第二维标绘出高分辨率质量(原子质量单位)，在第三维标绘出MS强度(log(离子数))。图后面的二维迹线是UV/VIS吸收轮廓。注意，单个UV/VIS峰可能包括多个与混合物中不同的独特分子相联的独特质量。峰高和峰高比率限定了概貌的高低不平度，该高低不平度可以数字化、分级并编码为矩阵以便于进行进一步的分析。

图2描述了沿对角线的数据点强度(In)与单个强度的比率(Im/In)的矩阵式，其中该比率位于非对角线上。只需要使用非对角线峰值中的一半。将所有数据点对之间的非对角线强度比率编码用于研究这些数据点之间重要的协同作用或相互关系。由于只关注了单个的数据点强度丢失了数据点之间的关系。在概念上，通过检查其他数据内部联系信息可以使该矩阵方法扩展至更高的维数。为清楚起见，我们只使用两维矩阵来进行说明。

图3用植物制剂PHY906从上到下以四种不同剂量(0.0、0.02、0.10、1.0mg/ml )处理Jurkat细胞24小时后所表达的捕获于IMAC表面芯片上的蛋白质 SELDI/TOF(Ciphergen)光谱。在5000-20000的分子量范围内不同光谱之间存在多种定量变化。这些数据可以数字化、分级(indexed)并编译为矩阵进行进一步分析。

图4(A)比较两批黄芩(Scute1与Scute2)之间单独峰值的常规线性相关 (从软件SPLUS获得的LSQ)，即矩阵对角线的线性相关。虚线显示了95％的置信水平。该线性拟合的相关系数是0.95。然而，大部分数据点聚集于低强度，因此难于判断异常值。(B)比较两批黄芩(Scute8与Scute9)之间单独峰值的常规线性相关，即只是矩阵对角线的线性相关。虚线显示了95％的置信水平。该线性拟合的相关系数是0.995，其显著优于4A中所观察到的线性相关，但仍然显示有可能的异常值。然后也用矩阵方法通过这些数据点来计算相似性指标(植物组学相似性指标(Phytomics Similarity Index，PSI)，参见方程#7)。参见表4。

图5(A)采用图4A(Scute1与Scute2)中相同的数据点由单独数据点的强度比率矩阵计算而得的加权R值的直方图。虽然峰是围绕0.9分布，明显有单个数据点为异常点，其小于0.6。作为PSI(方程#7)，加权R值的平均值为0.89。 (B)是加权R值的直方图，该加权R值使用图4B(Scute8与Scute9)中相同的数据点由对单独数据点的强度比率矩阵而计算得来。峰值的分布围绕0.94，只有一个单个数据点是异常点，小于0.6。作为PIS，加权R值的平均值为0.97。注意，由于计算R值所用的方法，异常点较易确定，并具有较高的数字分步，也就是说若非整个比较在性质上类似，则采用针对特定数据点的完整比率组。注意，如此计算PSI值使得平均值落在0.0-1.0之间，其中0.0是完全不同，1.0是完全相同。

图6(A)是未加权R值直方图，该未加权R值由两批植物提取物黄芩(Scute5 和Scute6)之间单独数据点(LC/MS峰)的强度比率矩阵计算而得。(B)加权 R值的直方图，该加权R值由与图6A(Scute5和Scute6)中相同的数据点的强度比率矩阵计算而得，其中权重与涉及数据点原始强度值的比例因子相关，并将该权重用于如方程#7中限定的比率矩阵的相关性R值(参见实施例)。虽然未加权PSI与加权PSI是相同的值(0.97)，在加权PSI中单个数据点R值的分布在较宽范围内，使异常点的识别更加可靠。

图7是从LC/MS数据获得的加权PSI值的直方图，用于将表4中列出的9批黄芩提取物进行成对比较。用常见的46个峰值组构成该矩阵。PSI值的分布明显被这些数据的截点区分，这些数据接近0.95。

图8是用于计算矩阵和PSI值的软件Phyto ViewerTM的屏幕图片，用于显示结果及询问数据。该软件用JAVA编写，在PC或其他计算机平台上运行。在该屏幕图片中，我们看到对于黄芩Scute5和Scute6的LC/MS数据单个数据点的矩阵相关直方图，说明了如何选择单个数据集并将它们结合为矩阵数据集，相互反应的直方图和查询窗口显示了从该直方图获得的单个数据点(LC/MS峰)。以这种方式，能马上识别异常峰并进一步进行查询。

图9(A)是加权PSI值的直方图，将未处理和经处理后的9批表5中所列的黄芩提取物(模仿消化过程)之间进行比较。在植物提取物中有两个清楚的分类，一个对后处理强烈敏感，一个只是轻度地敏感。基于材料对后处理的敏感性，对高度易感的数据点(单个化合物的LC/MS峰)进行询问可用于对材料批次进行分级和分类。(B)是成对的未经处理和经过处理的黄芩(9批)间在加权PSI 值上的差异直方图，其显示了小于0.2的PSI值差值可用于将敏感的批次从不敏感的批次中区分出来。

图10是用于计算矩阵和PSI值的软件Phyto ViewerTM的第二个屏幕图片，用于显示结果及询问基因表达数据。在该屏幕图片中，我们看到对基因组数据的单个数据点的矩阵相关直方图，将两个选择自位于左手滚动框的菜单的分离试验(SB和SB)进行比较并强调在两个试验之间基因(增码)一致性较差。总的加权PSI值为0.91，大部分数据点(基因)围绕着0.9。该图显示了对于化学和生物响应数据可以使用相同的软件和方法，从而比较两个多组分混合物。

发明详述

除非另有限定，本文所用的所有技术和科学术语与通常本发明所属领域普通技术人员所理解的意义相同。虽然与本文所述的方法和材料相类似或等同的任何方法和材料可用于本发明的实践或试验，但所述方法和材料是优选的。

发明概论

如上所阐明的，本发明所针对的是表征和/或预测生物提取物(如草药组合物 )的生物响应的软件工具和计算方法。更具体的是，本发明提供了从对多组分化学样品(例如植物或草药提取物)及所述提取物(或单个化合物)的多因子生物效应的分析研究中产生矩阵指纹图谱的方法。而且，本发明也提供了使用上述指纹图谱来测定模式的相似性/差异(如从不同批次植物提取的分子的不同模式)或生物响应模式中的差异的方法，并将该方法用来指导对化学或生物等效物的评估及指导改进基于治疗方法的有效植物或多组分的设计。本发明的目的是全面设计、产生、改进并使用矩阵指纹图谱，以进行草本植物组合物的制备、试验和给药，并指导开发新的草本植物组合物和现存草本植物组合物的新用途。该方法可应用于以下情况：(1)数据可以量化并数字化和(2)在单个数据点之间有重要的相互关系。

植物组学(phytomics)：根据它所使用的上下文，本文所用的“植物组学” 是指将生物信息学和统计学方法用于草本植物组合物的成分的定性及定量方面或指用于这些方面所开发出的实际数据库。

矩阵指纹图谱：本文所用的术语“矩阵指纹图谱”是指描绘出某种物质的特征轮廓，尤其是植物提取物例如草本植物组合物的特征轮廓(profile)。为产生矩阵指纹图谱，将来自化学和/或生物学分析的数据数字化并沿矩阵指纹图谱的对角线放置，每个数据点对每一个其他数据点的比值放在矩阵的非对角线位置。矩阵指纹图谱非对角线位置上的数字化数据点的使用符合生物提取物的多组分与它们的生物作用之间协同相互关系的概念，并限定了一种模式概貌(pattern landscape)，该模式概貌描述了多组分混合物的化学指纹图谱，或一种或多种化学组分对生物系统的影响的多因子生物响应。可以使用各种化学和生物学试验来获得用于矩阵指纹图谱的数字化数据点。示例包括但不限于最终形成可分辨的多个峰值的化学分析数据，例如LC-MS、MS-MS、GC-MS、电泳、UV-VIS、IR 、RAMAN、MALDI、SELDI、ICP-MS和最终产生离散数字化数据的生物分析数据，例如基因组微阵列、蛋白质组微阵列、酶检测组、化学激活检测组、受体检测组、代谢物检测组，其中检测组解释为一组相关的试验。

生物提取物/草药：术语“生物提取物”和“草本植物”在本公开物中是可以互换使用的。从技术上说，草本植物是小的、非木本的(即有肉质茎的) 、一年生或在每个生长季结束时所有暴露于空气的枝叶枯萎的多年生产种植物。由于它们的医药功能、滋味良好、气味芳香，草本植物是有价值的。当该词被一般性地使用并在本文使用时，“草本植物”是指具有食品添加剂、医疗、药物、治疗或增强体质用途的任意植物或植物部分。这样，在本文使用时，草本植物不限于草本植物的植物学定义，而是指任何用于上述目的的植物学药材、植物或植物部分，包括有胚植物界的任何植物种或亚种的任何植物或植物部分，包括草本植物、灌木、亚灌木、和树。用于草药植物组合物的植物部分包括但不仅限于：种子、叶片、茎、嫩枝、枝条、芽、花、鳞茎、球茎、块茎、根状茎、匍匐茎、根、果实、球果、浆果、形成层、树皮。

草本植物组合物：本文所用的“草本植物组合物”是指任何包括草药、草本植物、草本植物部分的组合物。因此，本文所用的草本植物组合物是任何草本植物制备物，包括草本植物食品添加剂、草药、草本植物药物、药物食品。草本植物组合物的示例包括但不仅限于以下成分：单个植物种的全部植物或一部分植物；多个植物种的全部植物或一部分植物；源于单个植物种的多个成分；源于多个植物种的多个成分；或这些不同成分的任意组合。对各种草本植物组合物的详细综述，例如参见Kee Chang Huang，The Pharmacology of Chinese Herbs ，CRC出版社(1993)，在此全文引用。在以下段落中提供了各种草本植物组合物的具有代表性的示例。

标准化草本植物组合物：本文所使用的“标准化草本植物组合物”或“表征的草本植物组合物”指选作标准草本植物组合物的特定草本植物组合物，用于评价具有与该标准化草本植物组合物的成分相同或类似或不同成分的一批草本植物组合物。标准化草本植物组合物一般是已经被良好表征并在特定生物系统中显示所需生物响应的草本植物组合物。常常通过本领域技术人员公知的化学实验对标准化草本植物组合物进行标准化，并且将它适当储存以便于较长时期的使用和参照。基于对所述植物的观察和测定(即植物相关数据)、标记物和生物响应，采用该标准化草本植物组合物建立标准化HBR阵列，以便于表征草本植物组合物。

一批(batch)草本植物组合物：本文所用的“一批草本植物组合物”是指任何基于生物提取物的化学和生物试验而用于建立矩阵指纹图谱的试验草本植物组合物。有时本文也称为“试验”草本植物组合物。可以包括或不包括生物响应的观察和测定。用于建立标准化草本植物组合物的草本植物组合物也可称为“ 一批草本植物组合物”，直至指定为“标准化草本植物组合物”。

一批：本文所使用的“一批”指特定量的草本植物组合物，其可被确认具有某种特定属性从而将它从任何其他特定量的相同草本植物组合物中区分开。例如，由于与另一批相比由于在不同时间或不同地理位置收获一批，因此一批的草本植物组合物可与另一批相同草本植物组合物不同。其他区分特定批次的差异可包括但不仅限于以下：1)所使用的特定植物部分(例如在一批中使用草本植物的根而在另一批中使用相同草本植物的叶)；2)对单独的草本植物或草本植物组合物的收获后处理(例如一批可用蒸馏水处理而另一批可用盐酸处理以刺激人的胃酸)；和3)在草本植物组合物中单个草本植物的相对比例(例如一批具有的三种不同草本植物其重量或体积是相同的，而另一批一种草本植物比另两种在比例上更多)。

生物系统：本文所使用的“生物系统”是指可对其观察或测定生物响应的生物实体。因此，生物系统包括但不仅限于：任何细胞、组织、器官、整个有机体或体外试样。

生物活性：本文所使用的草本植物的“生物活性”是指对给定生物系统草本植物组合物所特有的特定生物效应。

化学数据：化学表征一般可以通过本领域技术人员所公知的任何化学分析方法来完成。可应用的化学分析示例包括但不仅限于：GC(气相色谱)、HPLC (高压液相色谱)，TLC(薄层色谱)、电泳，结合以下一种或多种组合进行的化学指纹识别：UV/VIS、MS、ELSD、IR、NMR或其他分析。

其他植物相关数据：本文所使用的“植物相关数据”是指关于草本植物组合物所收集的数据，包括但不仅限于：关于该植物的数据、它们的生长条件及在收获时和收获后对该植物的处理。该植物相关数据也包括草本植物组合物中各成分的相对比例的，其中所述成分可以是不同的植物部分、不同的植物种、其他非植物成分(例如昆虫部分、化学药物)或这些变量的任何组合。

对草本植物组合物可收集的植物相关数据包括但不仅限于以下方面：1) 用在组合物中的植物种(并且如果可得到的话，是特定植物变种、培养变种、无性系、品系等等)和特定植物部分；2)该草本植物的地理起源，包括经度/纬度和海拔；3)该草本植物的生长条件，包括肥料种类和数量、降雨及灌溉的数量和时间、每天接受的平均微能量(microEinsteins)、杀虫剂的使用(包括除草剂、杀虫剂、杀螨剂和杀真菌剂)，以及耕作方法；4)用于处理草本植物的方法和条件，包括草本植物的年龄/成熟度、浸湿时间、干燥时间、提取方法和研磨方法；及5)对草本植物成分及最终的草本植物组分的储存方法和条件。

生物信息学：本文所使用的“生物信息学”是指使用和组织感兴趣的生物信息。生物信息学包括以下方面：(1)数据获得和分析；(2)数据库的开发；(3 )集中和链接；和(4)最终数据库的进一步分析。直到20世纪90年代早期，几乎所有的生物信息学来源都作为公共领域的免费软件来发展，在互联网上许多仍然可以免费获得。一些公司已开发了专有数据库或分析软件。

基因组或基因组学：本文所使用的术语“基因组学”是指基因及其功能的研究。基因组学强调将基础和应用研究集中于比较基因图谱、分子克隆、大规模限制性酶切图谱，和DNA测序及计算分析。用基础技术来提取基因信息，如 DNA测序、蛋白质测序和PCR。

通过以下方式确定基因功能(1)分析基因中DNA突变对细胞、组织或有机体的正常发展和健康的影响；(2)分析DNA序列中多个编码信号；和(3) 研究由基因或相关基因系统产生的蛋白质。

蛋白质组和蛋白质组学：本文所用的术语“蛋白质组学”也称“蛋白质组研究”或“表型组”，是指在限定条件下，基因组的定量蛋白质表达模式。作为一般使用，蛋白质组学是指使用蛋白质生物化学的高通量自动分析方法。

由于许多原因，除基因组研究之外进行蛋白质组研究是必须的。首先，基因表达水平不一定代表细胞中活性蛋白质的数量。而且，基因序列未描述转译后的修饰，该修饰对蛋白质功能和活性是重要的。另外，基因组本身未描述动态细胞过程，该过程向上或向下改变蛋白质的水平。

蛋白质组计划寻求表征细胞中的所有蛋白质，识别所分离的蛋白质的至少一部分氨基酸顺序。通常，首先用2D胶或HPLC分离蛋白质，然后用高通量质谱对肽或蛋白质测序。使用计算机分析质谱的输出，从而连接基因和由其编码的特定蛋白质。所述的全部过程有时称为“功能性基因组学”。许多商业企业现在提供蛋白质组服务(例如Pharmaceutical ProteomicsTM，Ciphergen Biosystem 的ProteinChipTM系统；PerSeptive Biosystems)。

关于蛋白质组研究的一般信息参见，例如J.S.Fruton，1999，Proteins， Enzymes，Genes：The Interplay of Chemistry and Biology，耶鲁大学出版社；Wilkins 等，1997，Proteome Research：New Frontiers In Functional Genomics(Principles and Practice)，Springer Verlag；A.J.Link，1999，2-D Proteome Analysis Protocols (Methods In Molecular Biology，112，Humana出版社；Kamp等，1999，Proteome and Protein Analysis，Springer Verlag。

信号转导：本文所使用的“信号转导”也理解为细胞信号转导，是指细胞用于接受外部信号并将它们进行内部传递、放大、控制的路径。发信号的路径需要蛋白质的相互联系链，该链逐步传递信号。由于许多信号转导包括接受细胞外化学信号，蛋白激酶常参与反应级联，引发了细胞质蛋白的磷酸化从而放大该信号。

转译后修饰：本文所用的“转译后修饰”是总括性的术语，包括蛋白质作为初级多肽合成后发生在该蛋白质上的变化。上述转译后修饰包括但不仅限于糖化作用、除去N端甲硫氨酸(或N-甲酰化甲硫氨酸)、除去信号肽、乙酰化、甲酰化、氨基酸修饰、肽链内部断裂以释放小的蛋白质或肽、磷酸化、以及甲硫氨酸修饰。

阵列或微阵列：本文所使用的“阵列”或“微阵列”是指每个位点或探针单元由限定的核苷酸片段占据的格栅(grid)系统。该阵列本身有时称为“芯片” 、“生物芯片”、“DNA芯片”或“基因芯片”。高密度核酸微阵列常以多种格栅结构具有成千的探针单元。

一旦该阵列制成，则将源于生物系统的DNA或蛋白质分子加入，在该DNA 或蛋白质分子与该阵列之间发生某种形式的化学反应从而产生某种特定于该阵列和生物系统的识别模式。放射性同位素标记批次的放射自显影是传统的检测策略，但其他选择也适用，包括荧光法、比色法及电信号转导。

数据点：术语“数据点”指基于化学或生物学的任何测定结果，它们是用于计算矩阵指纹图谱的离散定量值。结合入数据点的信息包括但不仅限于：保留时间、波长、吸收强度、NMR化学漂移、质量值、质量强度、基因名称/数量、蛋白质名称/数量、基因表达水平、蛋白质强度等等，即从多组分样品、或从试验方法中的单个或多组分样品的多个生物效应、或从这些数据的计算值中收集的任何数据。只要数据与每一数据点相关联，不需要了解峰值的精确识别 (即分子名称/结构、蛋白质或基因名称等等)。数据点也不仅包括植物组合物的特征，而且包括在这些不同定义中体外、基于细胞、基于动物、或基于人的生物响应数据。

数据点数据库可构成列举、定量、表征化学或生物信息的数据集。

标记物：本文所使用的“标记物”是单个的化学或生物体，其用作试验数据校准或量化的内或外参考标准。示例可包括：作为甘草和人参植物化学标准的甘草皂苷和人参皂苷Pg1、Rb1，以及在微阵列中作为恒定标记物的大量看家基因。根据美国植物委员会(美国得克萨斯的Austin)，“一种其存在和水平用作植物材料一致性和质量的指示剂的化合物。标记化合物也可以是(但不必须是)特性指示剂。可以认为或不认为标记化合物具有药理学活性。”(美国德克萨斯Austin的美国植物委员会)。

生物响应：在此使用的“生物响应”是指生物系统暴露于草本植物组合物之后，对生物系统的生物响应的任何观察和测定。有时本文也称为“生物效应” 。生物响应是对特定草本植物组合物的生物活性的定性或定量数据点。生物响应数据包括剂量和时间信息，其中这样的信息对于本领域普通技术人员是公知的，本领域是指测量生物系统对各种治疗的响应的领域。因此，生物响应数据包括关于特定生物系统的特定生物响应信息，该响应是针对特定剂量的草药组合物在特定时期以特别的方式给药的情况。

生物响应包括但不限于：生理响应、形态响应、认知(cognitive)响应、动机 (motivational)响应、自体响应和转译后修饰，如信号转导测定。许多草本植物z’hw 显示了多于一种的生物响应(参见例如Kee Chang Huang，The Pharmacology of Chinese Herbs，CRC出版社(1993))。一些特定的生物响应可能包含在多于一种的描述组中，或具有包括多于一个组的响应的方面或成分。可应用于本发明的生物响应是本领域技术人员所公知的。以下参考文献代表了本领域的技术状态：Kee Chang Huang，The Pharmacology of Chinese Herbs，CRC出版社(1993)； Earl Mindell，Earl Mindell’s Herb Bible，Simon & Schuster(1992)；Goodman & Gilman的The Pharmacological Basis of Therapeutics，第9版，Joel G.Hardman等 (eds.)，McGraw Hill，Health Professions Division(1996)；P.J.Bentley，Elements of pharmacology，A primer on drug action，剑桥大学出版社(1981)；P.T.Marshall 和G.M.Hughes，Physiology of mammals and other vertebrates，第二版，剑桥大学出版社(1980)；Report of the Committee on Infectious Diseases，美国儿科科学院(1991)；Knut Schmidt-Nielsen，Animal Physiology：Adaptation and Environment，第5版，剑桥大学出版社(1997)；Elain N.Marieb，Human Anatomy&Physiology(第18版)，Appleton&Lange(1997)；Arthur C.Guyton和 John E.Hall，Textbook of Medical Physiology，W.B.Saunders公司(1995)。

“生理响应”是指任何与生物系统生理或机能有关的特征。关于细胞、组织或器官水平的生理响应包括但不限于：温度、血流速度、脉率、氧浓度、生物电位、pH值、胆固醇水平、感染状态(例如病毒、细菌的)及离子流。基于整个有机体的生理响应包括：肠胃机能(例如溃疡、肚子痛、消化不良、胃灼热)、生殖系统机能(如生理性阳萎、子宫痉挛、痛经)、排泄功能(例如尿道问题、肾病、腹泻、便秘)、血液循环(例如高血压、心脏异常)、耗氧、骨骼健康(例如骨质疏松症)，软组织和结缔组织状况(例如关节痛和炎症)、运动、视力(近视、失明)、肌紧张性(例如消耗综合症、肌肉劳损)、存在痛或缺少痛、表皮和真皮健康(例如皮肤刺激性、皮肤瘙痒、皮肤受伤)、内分泌系统机能、心脏机能、神经协调、与头相关的健康(例如头痛、头晕)、年龄(寿命、长寿)、以及呼吸(例如充血、呼吸系统疾病)。

“形态学响应”指生物系统暴露于草本植物组合物之后，任何关于形态学或形式和结构的特征。不论生物系统的类型，形态响应包括但不限于：大小、重量、高度、宽度、颜色、炎症程度、一般外观(例如不透明性、透明性、苍白 )、湿度或干度、存在或不存在癌症生长、以及存在或缺少寄生虫或害虫(例如鼠、虱子、跳蚤)。基于整个有机体的形态响应包括但不限于：毛发生长的数量及位置(例如多毛症、脱发)、有或没有皱纹、指甲和皮肤生长的类型和程度、污迹凝结程度、存在或不存在痛处或伤口、以及存在或不存在痔疮。

“认知响应”是指生物系统暴露于草本植物组合物后，任何有关认知或精神状态的特征。认知响应包括但不限于：感觉、识别、设想、判断、记忆、推理及想象。

“动机响应”是指生物系统暴露于草本植物组合物后，任何有关动机或诱导行为的特征。动机响应包括但不限于：情感(例如快乐)、欲望、学习动力、特定的生理需要(例如食欲、性冲动)或起到动作刺激物作用的类似冲动( 例如耐力、性冲动)。

“自体响应”是指生物系统暴露于草本植物组合物后，任何有关自体响应的特征。自体响应与生物系统的自主神经系统相关。自体响应示例包括但不限于无意识机能(例如神经过敏、惊恐刺激)或生理需要(例如呼吸、心率、激素释放、免疫响应、失眠、嗜睡)。

用各种草本植物组合物或草本植物成分处理的细胞、组织、器官和整个有机体的生物响应在草本植物领域是公知的。例如，发现草本植物组合物柴汤(TJ-114) 、泽泻(日本名称为“Takusha”)和茯岭(日本名称为“Bukuryou”)均抑制大鼠中的内皮素-1的合成和表达(Hattori等，Sairei-to may Inhibit the synthesis of endothelin-l In nephritic glomeruli，Nippon Jinzo Gakkai Shi 39(2)，121-128(1997))。通过用草药小柴胡汤处理培养的人表皮角质化细胞，明显促进白细胞介素(IL )1-α的产生(Matsumoto等，Enhancement of Interleukin-1 alpha mediated autocrine growth of cultured human keratinocytes by sho-saiko-to，Jpn J.Pharmacol73(4)， 333-336(1997))。在从健康志愿者获得的外周血单核细胞培养物上加入小柴胡汤导致了粒细胞集落刺激因子(G-CSF)的产生具有剂量依赖性增加(Yamashiki 等，Herbal medicine“sho-saiko-to”Induces In bitro granulocyte colony-stimulating factor production on peripheral blood mononuclear cells，J Clin Lab Immunol37(2)，83-90 (1992))。这些研究者认为小柴胡汤给药对慢性肝脏疾病、恶性疾病和急性传染病的治疗是有用的，在这些疾病中G-CSF是有效的。在用由中药蒙古黄芩纯化而得的皂甙黄芩甲甙IV(AS-IV)处理人脐静脉内皮细胞(HUVECs)之后，纤维蛋白溶酶原活化因子抑制剂型1(PAI-1)特异性mRNA表达降低，而组织型血纤维蛋白溶酶原活化因子(t-PA)特异性mRNA增加(Zhang等，Regulation of the fibrinolytic potential of cultured human umbilical vein endothelial cells： astragalodide IV down regulates plasminogen activator expression，J Vasc Res 34(4)， 273-280(1997))。发现人参的四种分离成分中的一种是人单核细胞和THP-1细胞所产生的IL-8的强诱导剂，这种诱导作用伴有IL-8表达的增加(Sonoda等， Stimulation of Interleukin-8 production by acidic polysaccharides from the root of panax ginseng，Immunopharmacology 38(3)，287-294(1998))。通过流式细胞检测分析，发现经汉方医学草药(kampo-herbal medicine)Toki-shakuyakusan (TSS)处理后巨噬细胞的Fcγ11/111受体和补体受体3(CR3)表达增加了(Cyong ，New BRM from kampo-herbal medicine，Nippon Yakurigaku Zasshi 110补充1， 87P-92P(1997))。使用计算机成像分析，Chen等人(Image analysis for Intercellular adhesion molecule-l expression In MRI/lpr mice：effects of Chinese herb medicine， ChungHua I Hsueh Tsa Chih 75(4)，204-206(1995))发现在用中药黄芩处理后MRL/Ipr鼠的细胞间粘附分子(ICAM-1)、免疫球蛋白和C3的分布强度都明显降低。Western印迹分析法显示从天然中药分离的粉防己碱抑制大鼠肺泡巨噬细胞中信号诱导的NFκB的活性(Chen等，Tetrandrine Inbibits signal-Induced NF-kappa B activation In rat alveolar macrophages，Biochem Biophys Res Commun 231(1)，99-102(1997))。细胞遗传学参数包括但不限于：染色体组型分析( 例如相关染色体长度、着丝点位置、存在或不存在二级缢痕)、表意文字(即有机体染色体组型的图形表示)，染色体在有丝分裂和减数分裂期间的行为、染色体染色和显带方式、DNA-蛋白质之间的相互作用(也称作核酸酶蛋白试验)、中子散射研究、滚环(A.M.Diegelman和E.T.Kool，Nucleic Acids Res 26 (13)：3235-3241(1998)；Backert等，Mol.Cell.Biol.16(11)：6285-6294(1996 )；Skaliter等，J.Viol.70(2)：1132-1136(1996)；A.Fire和S.Q.Xu，Proc.Natl. Acad.Sci.USA 92(10)：4641-4645(1995))、以及用放射性标记核糖核苷酸进行孵育后整个胞核的放射自显影。生物化学参数包括但不限于：特定路径的分析，如信号转导、蛋白质合成及转运、RNA转录、胆固醇合成和降解、葡萄糖生成及糖酵解。

算法：本文所用的“算法”是指逐步解决问题的过程，特别是一种已建立有限数量步骤的回归计算过程。对关于算法的一般信息，参见例如，Jerrod H.Zar， Biostatistical Analysis，第二版，Prentice Hall(1984)；Robert A.Schowengerdt， Techniques for Image processing and classification In remote sensing，科学出版社( 1983)；Steven Gold等，New Algorithms for 2D and 3D Point Matching：Pose Estimation and Correspondence，Pattern Recognition，31(8)：1019-1031(1998)；Berc Rustem，Algorithms for Nonlinear Programming and Multiple-Objective Decisions， Wiley-Interscience Series In Systems and Optimization，John Wiley&Sons(1998)； Jeffrey H.Kingston，Algorithms and Data Structures：Desing，Correctness，Analysis， Intemational Computer Science Series，Addison-Wesley出版公司(1997)；Steven S.Skiena，The Algorithm Design Manual，Springer Verlag(1997)；和Marcel F.Neuts ，Algorithm Probability：A Collection of Problems(Stochastic Modeling)，Chapman &Hall(1995)。对于更特定的将算法应用于基于基因的数据信息，参见例如， Dan Gusfield，Algorithms on Strings，Trees，and Sequences：Computer Science and Computational Biology，剑桥大学出版社(1997)；Melanie Mitchell，An Introduction to Genetic Algorithms(Complex Adaptive Systems)，MIT出版社(1996)；David E.Goldberg，Genetic Algorithms In Search，Optimization and Machine Learning， Addison-Wessley出版公司(1989)；Zbigniew Michalewicz，Genetic Algorithms+Data Structures＝Evolution Programs，Springer Verlag(1996)；Andre G.Uitterlinden和Jan Vijg，Two-Dimensional DNA Typing：A Parallel Approach to Genome Analysis，Ellis HorwoodSeries In Molecular Biology，Ellis Horwood有限公司(1994)；和Pierre Baldi和Soren Brunak，Bioinformatics：The Machine Learning Approach(Adaptive Computation and Machine Learning)，MIT出版社(1998)。

集合操作(Set Operations)：本文所用的“集合操作”指对数据集的数学“ 交集”、“并集”和“差”操作，其中数据集中的每一个成分都用分类符标记。例如，LC-MS数据点由峰值数列组成，其中每一峰值具有测定强度并通过LC 保留时间和精确的质量坐标分类。类似地，基因组数据点由强度数列构成，每一个由独特的基因识别标记表示。因而两个LC-MS数据集的交集简单地为具有相同双态(binned)的时间和质量的峰值组。对基因组数据，交集操作选出具有相同基因识别标记的数据点集。两个数据集的并集是所有可识别的数据点集，数据点的差是两个数据集单独具有的所有数据点集。

统计学分析：本文所用的“统计学分析”是指任何在同等参考统计学文献中所记录的统计学操作。本文所提到的大多数统计学方法在以下文献中详细给出：D.A.Wichem，和D.W.Wichern，Applied Multivariate Statistical Analysis，Prentice Hall(1983)。用符号R表示的术语“线性相关”和“Pearson系数”是指两个数据集之间Pearson相关系数的计算结果。

如果我们用每个数据点在数据集的所有其他数据点中的秩代替该数据点的值，我们可以确定Spearman秩相关系数。Spearman秩相关系数的公式与Pearson 系数公式是相同的，除了用它们各自的秩代替数据点值。该分析的好处是可以确定与无效假设相比其系数数值的显著性，参见E.L.Lehmann，Nonparametrics： Statistical Methods Based on Ranks，旧金山：Holden-Day(1975)。

组合化学：本文所用的“组合化学”指用于产生成百或成千化合物的多种技术，其中每一种化合物由于一种或多种特征而不同，例如它们的形状、电荷、和/或疏水特性。可以利用组合化学来产生化合物，所述化合物是草本植物或草本植物组分的化学变体。使用本发明方法可以评价所述化合物。

基础组合化学概念是化学领域技术人员所公知的，也可以在以下文献中发现：Nicholas K.Terrett，Combinatorial Chemistry(Oxford Chemistry，Masters)，牛津大学出版社(1998)；Anthony W.Czarnik和Sheila Hobbs Dewitt(编辑)，A Practical Guide to Combinatorial Chemistry，美国化学社团(1997)；Stephen R.Wilson(编辑)和Anthony W.Czamik(投稿人)，Combinatiorial Chemistry： Synthesis and Application，John Wiley&Sons(1997)；Eric M.Gordon和James F. Kerwin(编辑)，Combinatorial Chemistry and Molecular Diversity In Drug Discovery ，Wiley-Liss(1998)；Shmuel Cabilly(编辑)，Combinatorial Peptide Library Protocols( Methods In Molecular Biology)，Human出版社(1997)；John P.Devlin，High Throughput Screening，Marcel Dekker(1998)；Larry Gold和Joseph Alper，Keeping pace with genomics through combinatorial chemistry，Nature Biotechnology 15， 297(1997)；Aris Persidis，Combinatorial chemistry，Nature Biotechnology 16，691- 693(1998)。

实施例

实施例1.使用化学数据产生矩阵指纹图谱

经多个试验分析方法可以收集多成分植物药物的特定一维、二维、或更高维的化学指纹图谱。检测方法可以包括UV/VIS、ELSD、红外、NMR、折射率、质谱等等。只要产生的数据可以被分级和数字化就可以使用任何检测方法。我们举例说明了用含有四种植物的复杂植物制剂进行LC-MC而获得的高分辨率数据产生了矩阵指纹图谱。图1显示了关于所述植物制剂的液相色谱-质谱(LC-MS )化学指纹图谱的三维图形中的一个小区域。沿图一维的是随记录的保留时间沿色谱分离轴分离的单个成分，所述保留时间可以与水/仲辛醇分配系数(logP )或从特定结构识别中计算而得的logP相关联。沿质谱轴描述的是在多成分混合物中单个化学成分特定的质量。如图1所示，第三维描述的是与每种化学成分所测定的分子数量成比例的峰值强度。

可以清楚地分离多种化合物并且所产生的数据点可以如表1进行数字化( 如下)。因而在此情况下，对应于单个分子的每一数据点(峰值)具有三个坐标(保留时间(或计算的logP)、质量、信号强度)。

表1：从如图1的光谱中提取或计算(clogP)所得的代表性数据子集(保留时间、质量、强度)，对其进行分级并用作矩阵方法的输入。单位包括分钟(保留时间)和原子质量单位(质量)。峰数保留时间(分钟) ClogP 质量 (原子质量单位) 强度 58 13.31 0.75 419.1316 5356 299 17.8 0.96 461.1077 126700 348 18.35 1.21 461.1074 215464 510 22.12 2.84 823.4122 44575 374 19.75 2.93 271.0591 8263 408 20.25 3 271.0579 198204 527 23.13 3.08 285.0733 150195 453 21.14 3.11 257.079 1036 591 23.88 3.33 285.0723 45016 551 23.53 3.56 255.062 7476

假定表示特定植物的N、LC-MS峰值数列如表1所示，我们可以计算沿对角线的每一个数据点峰值强度的全部矩阵，以及同等重要的如图2所示矩阵中在非对角线位置上的每一个峰值强度与所有其它峰值的比率。

尽管所希望的是对单个分子具有分析响应，但是并不要求所述的矩阵方法。例如，即使一种以上的化合物是造成UV/VIS强度的可能原因(参见图1)，但是在特定保留时间处的UV/VIS峰值综合强度在矩阵方法中是完全可接受的。非对角线峰值为各种单独化学成分的协同平衡作用的重要性进行了编码。相信不仅仅任何单个峰的强度对质量控制和生物功能是重要的，而且峰值平衡也提供了总体优势和生物活性。这些比率存储在矩阵指纹图谱中，其中矩阵指纹图谱允许多个数学操作。清楚地，在上述矩阵中有N(N-1)/2个特定的非对角线元素，使用并需要存储这些元素用于下面的计算。计算全部数据点比率矩阵并使用该矩阵进行数据的编码和描述是本发明的关键所在。

实施例2.使用生物数据产生矩阵指纹图谱

单个分子和分子的多成分混合物都可以通过由不同生物分子检测方法构成的组引导体内、细胞培养基内或体外的多种生物响应。总体生物响应的单个部分之间常常存在联系或模式联系，例如一种蛋白质水平可能由于两种其它蛋白质水平的下降而上升并平衡。其他示例包括单独信使RNA水平、单独蛋白质表达水平、内源性代谢产物的生物响应水平、细胞因子响应、酶活性、细胞通路等等之间的相关变化。我们使用基因组和蛋白质组数据作为示例描述了由多成分混合物构建生物响应矩阵。

基因组响应指纹图谱：

通过各种方法来收集基因组生物响应数据。最整体的方法包括使用微阵列或芯片技术来测定mRNA水平，其表达所有已知基因序列的单个基因。现在，本领域的现有技术是具有～35000以上的基因特征。核酸微阵列技术的快速发展导致了基因表达数据的蓬勃发展(Eisen等，(1998)，Golub等，(1999)，Schena M.，Shalon D.，Davis R.W，和Brown P.O.(1995)Quantitative monitoring of gene expression patterns with a complementary DNA microarray.Science270：467-470， Eisen M.B.，Spellman P.T，Brown P.O.，和Botstein D.(1998)Cluster analysis and display of genome-wide expression patterns.Proc.Natl.Acad.Sci.美国95：14863- 14868，Perou C.M.，Jeffrey S.S.，van de Rijn M.，Rees c.A.，Eisen M.B.，Ross D.T， Pergamenschikov A.，Williams C.F.，Zhu S.X.，Lee J.C.，Lashkari D.，Shalon D.， Brown P.O.，和Botstein D.(1999)Distinctive gene expression patterns In human mammary epithelial cells and breast cancers.Proc.Natl.Acad.Sci.美国96：9212-9217， Tamayo P.，Slonim D.，Mesirov J.，Zhu Q.，Kitareewan S.，Dmitrovsky E.，Lander E.S.，和Golub t.R.(1999)Interpreting patterns of gene expression with self-organizing maps：Methods and application to hemotopoietic differentiation.Proc.Natl.Acad.Sci. 美国96：2907-2912，Golub TR.，Slonim D.K.，Tamayo P.，Huard C.，Gaasenbeek M.， Mesirov J.P.，Coller H.，Loh M.L.，Downing J.R.，Caligiuri M.A.，Bloomfield C.D.，和 Lander E.S.(1999)Molecular classification of cancer：class discovery and class prediction by gene expression monitoring.Science286：531-537，和Ramaswamy S.， Tamayo P.，Rifkin R.，Mukherjee S.，Yeang C.H.，Angelo M.，Ladd C.，Reich M， Latulippe E.，Mesirov J.P.，Poggio T，Gerald W.，Loda M.，Lander E.S.，和Golub T. R.(2001)Multiclass cancer diagnosis using tumor gene expression signatures.Proc. Natl.Acad.Sci.美国98：15149-15154)。

基因表达的四种特征解释了使用核酸微阵列研究基因表达轮廓的重要价值： (i)核酸微阵列使一次测定成千基因的转录变得更容易；(ii)基因产物功能和它的表达模式之间的紧密联系使基因功能可以预测；(iii)通过改变特定基因的表达水平细胞响应于微环境变化；和(iv)细胞中表达的基因组确定了该细胞的来源，所涉及的生物化学和调节系统，等等(Tamayo等，1999；Ramaswamy 等，2001)。通过使用微阵列系统，可以整体方式研究以上特征。用核酸微阵列技术可检测任何所需数量的基因表达。例如，现在技术允许上至大约25000 个基因放置在一个阵列中。而且，人们可以使用实时定量PCR(RT-qPCR)方法进行基因选择以提供更高质量的数据。用于识别表达基因水平的其他方法无疑将会在未来给出。在任何情况下，对经处理和基线系统进行数据收集从而评估那些表达水平已发生变化的基因的相关比较。将基因限定为不同种类：诱导基因(上调节、更高表达)、抑制(下调节、更低水平表达)、表达但不被调节或不变化的基因、及不表达的基因。表2显示了编码基因的mRNA的特定识别码以及与对照相比的相对强度。

表2：由基因组芯片试验获得的典型数据子集，显示了单独的基因名称( 参照网址所示的基因库编号)和经处理试样和对照样品之间的校正log比率数据(在该情况下，Jurkat 细胞用单个PHY906剂量进行处理)，然后将这些数据作为矩阵方法的输入进行分级并使用。峰值编号基因名称校正Log比率 1 201266_at 0.4 2 200881_s_at -0.3 3 204286_s_at 0.8 4 200779_at 0.6 5 203474_at -0.5 6 201690_s_at 0.6 7 214390_s_at 0.4 8 219014_at -1 9 202146_at 1 10 201791_s_at 0.3 11 212816_s_at 2.6 12 207076_s_at 2.8 13 208964_s_at 0.3 14 209368_at 0.8 15 207826_s_at -1 16 200748_s_at 1.2 17 212501_at 1.1 18 203814_s_at 0.4 19 202672_s_at 1.1 20 201000_at 0.7

这些数据从Jurkat细胞株收集，通过使用AffymetrixTM芯片将该细胞株用植物制剂PHY906(含有四种植物)用3天的IC50剂量处理了一天，原本含有超过 18000个不同基因特征中只有～100个基因基本并恒定地发生变化。如图2所示，我们可以计算由以下因素构成的矩阵：沿对角线的每个基因的校正log比率强度，及矩阵非对角线位置上的每个峰值与其它峰值的强度比。将这些比率储存在矩阵指纹图谱M(I，j)中，其中该矩阵指纹图谱允许多种数学操作。该矩阵不仅包括构成对角线矩阵元素的各个基因的相对表达强度，而且同样重要的是，包括构成非对角线矩阵元素的所有观察或选择基因的强度比率。非对角线基因对细胞内维持生命过程的各种基因产物的协同平衡重要性进行编码。相信不仅各个基因强度对监控生物功能是重要的，而且是基因集合的平衡赋予了总体生物响应。

蛋白质组学

蛋白质组学是一组快速发展的技术，用于识别和定量由mRNA编码的实际蛋白质。在这一点上，它是更直接监控蛋白质水平和测定转译后修饰(磷酸化、糖化等等)的方式，该修饰作用常改变蛋白质分子的功能性特征。现有技术包括：2-d胶电泳及多种质谱(MS)方法，质谱方法包括LC-电喷MS和MALDI或 SELDIMS。在任一情况下，可将数据量化并分级用于计算矩阵。我们采用通过SELDI方法和金属结合芯片(IMAC)Hutchens(T.W.，Yip，T.T.)在标准的可商业获得的Protein Chip SystemTM(Ciphergen生物系统公司)上收集到的数据来进行说明(参见以下文献：1993，Rapid Comm.Mass Spea.(7)，P576；Fung，E.T， Thulasiraman，V.，Weinberger，S.R.Delmaso，E.A.(2001)，Curr.Opion.Biotech，(12)， p65.)。在该实验中，用植物制剂PHY906处理Jurkat细胞从而分离得到蛋白质谱。将这些蛋白质加到芯片的包被表面上，该芯片通过金属结合亲和力选择性吸收蛋白质。然后用MALDI-TOF仪器分析该芯片，产生结合到芯片表面上的表达蛋白子集的质谱。TOF-MS谱的典型例子见图3，其中Jurkat细胞用不同剂量的植物提取物PHY906处理。

用Ciphergen软件处理这些数据，如表3所示产生峰值、峰编码、质量、背景及内标校正强度的数列。然后用这些数据构成图2所示的矩阵，以类似于 LC/MS数据的方式，将校正峰值强度沿对角线放置，而将峰值强度比率放置在适合的非对角线位置。

表3：通过蛋白质组学试验(在此情况下用不同剂量的PHY906处理Jurkat 细胞)从如图3所示的谱图获得SELDI/MS数据从而提取到代表性的数据子集( 质量和校正强度)，将这些数据进行分级用作矩阵方法的输入。单位是原子质量单位(mass或amu)。峰值编码蛋白质质量(amu) 校正强度 1 1087 32 2 1134 21.5 3 1145 31.4 4 1185 14 5 1333 14.5 6 1396 17.6 7 3057 1.6 8 3307 2.4 9 4575 6.9 10 5257 1.5 11 5552 0.7 12 6172 5.6 13 6437 3.3 14 6541 2.2 15 6672 6.8 16 8162 2.3 17 8451 4.4 18 9035 2.5 19 9297 3.4 20 9398 7.5

其他生物响应

以类似的方式将可进行数字化、分级及定量的来自一组试验方法或观察的生物响应数据与矩阵形式结合，其中沿对角线放置响应值，将两个响应的相对比率数据放置于非对角线的适当Mij位置。上述生物响应数据的范围可以是：分子(例如细胞因子模式)、生物通路响应(例如信号转导)、转录因子、同功酶/ 同功受体等等，直至宏观响应例如行为水平、睡眠时间、游泳时间、甩尾测痛、饮食水平等等。

更高维的矩阵

原则上，通过检测任一数量的更复杂比率，例如用M(i，j，k...)表示的(I1+I2)/I3 等，该矩阵方法可投射至更高(n)维数。对于相似性，我们仅集中于二维矩阵以说明其效用。而且，虽然我们只关注成对数据，该方法可对多组数据进行同时比较。

实施例3.使用矩阵指纹图谱计算样品间的相似指数

当检查不同植物样品间的相似性时，人们可以比较每一样品的强度矩阵而不是只比较各峰值的强度。由于以此方式产生的强度矩阵代表所有光谱间比率，即将遇到的问题是比较两个矩阵之间的比率模式。这些模式的统计相关性是关键的成分，体现为植物组相似性指数(PSI)。我们举例说明PSI的两个示例：未加权及加权。

该示例的过程如下：假设有两个样品，首先找出两个样品共有的所有数据点(交集)，并用这些共有数据点计算每个样品的强度矩阵(数据点例如可以表示为LC/MS峰值、UV/VIS峰值、基因强度、蛋白质水平、细胞因子水平等等，这些数据点已在该矩阵中结合)。一旦构成矩阵，可以用种类繁多的统计学过程比较这两个矩阵的模式。人们可以进一步进行大量的已知的数学和统计学操作来分析和定量这些模式。本文所讨论的最简单的分析是两个矩阵之间的矩阵列的线性相关。为确定该线性相关，比较矩阵A和B(称为MA和MB)中所有的列，忽略不计对角线元素。矩阵A、B中的每一列由向量表示：

$x_{i}^{A} = (M_{i 1}^{A}, M_{i 2}^{A}, M_{i 3}^{A}, M_{i 4}^{A}, M_{i 5}^{A}, Λ M_{ij}^{A}, Λ M_{ij}^{A} | i \neq j)$

$x_{i}^{B} = (M_{i 1}^{B}, M_{i 2}^{B}, M_{i 3}^{B}, M_{i 4}^{B}, M_{i 5}^{B}, Λ M_{ij}^{B}, Λ M_{ij}^{B} | i \neq j)$

此处i＝j的矩阵元素忽略不计(方程#1)。

如果人们寻求标准化得分，可以用常用的Pearson系数或使用Spearman秩系数获得每一列即数据点的相关强度R(方程#2)。

$R = \frac{nΣ x_{A} x_{B} - Σ x_{A} Σ x_{B}}{\sqrt{(nΣ x_{A}^{2} - {(Σ x_{A})}^{2}) (nΣ x_{B}^{2} - {(Σ x_{B})}^{2})}}$

该分析的结果是R得数(scores)的向量，其中每一个向量元素对应于两个数据集共有的一个数据点(峰值、值等)。当每个数据点都有自己的相关得数Rn 时，植物组相关性指数或PSI的一个可能定义是所有未加权R得数的平均值以产生单个的值。在该示例中，R得数的范围在0.0(全部不相关)到1.0(完全相同 )之间，类似于用来计算化学指纹图谱特征的相似性的Tanimoto指数。

由于如上述限定的R仅测定两个进行比较的样品所共有的光谱峰值的相关性，也可以对PSI得数进行调整用于解释并不是在两个光谱中都出现的峰值。例如，假设有两个LC/MC谱图，A、B对应于样品A、B，其中一种上述调整需要用关联系数α乘以R，该关联系数α是根据存在峰值的最小集限定的(方程#3 )：

$α = Min (\frac{A \cap B}{A}, \frac{A \cap B}{B}) .$

因此，通过用系数α乘以系数R的平均值构成校正的未加权PSI值(方程#4)：

$PSI = \frac{α}{N} Σ_{i = 1}^{N} R_{i}$

当比较两个光谱时，人们可以简单地获得两个光谱峰值的交集，并研究它们强度的线性相关或进行常用的统计分析，例如PCA或LDA。这是现在的现有技术，尽管它提供了对两个光谱之间总体相关性的测定，但未能提供对样品内或样品间的峰值之间关系的任何测定。排除该信息的结果是丢失了在相同光谱峰值中的趋势或模式。现在方法的这种定量缺陷在图4中有说明，图4显示了同样植物不同批次间所共有的峰值强度图。

虽然总体线性相关是非常明显的，说明了两批植物的相似性，但由于大部分峰值聚集在低强度区域，因此，不幸地是很难检测各点之间的模式。而且，在许多情况下很难确定哪些峰值为异常点。

当结合强度比率矩阵方法时，这些缺点就易于克服了。图5显示了当比较单个植物(黄芩根)的B1与B2批次及B8与B9批次之间的强度矩阵时，对各数据点的比率集的R得数的分布。

对B1、B2批次的分布，虽然峰值围绕着0.9，具有几个显然的异常峰值，这些异常峰值与植物提取物中一小部分未充分代表性的化合物相关。相反，批次B8、B9几乎没有异常峰值，显示了这些批次经过了较好的校正。显然，当比较图4、5的结果时，比率矩阵的相关性提供了更有利的工具来确定异常峰值，这有助于建立关于质量控制的更精确的说明。这种比率的比较趋于加强差异并考虑了内部比率差异的重要性。

根据其他信息(例如结果的可信度、数据的重要性等等)可以将该矩阵关联方法扩展并推广为加权各个项。加权矩阵相关性(加权PSI)的一个示例是通过沿矩阵对角线的LC-MS强度信息的简单线性相关将系数进行加权。如果我们也使用如图4所示的简单线性相关，该矩阵相关方法变得更加有力。然后可以用这种信息对由矩阵方法确定的Pearson(或Spearman)系数分布进行加权。例如，假定图4中的拟合曲线的斜率给定为b，那么

$I_{i}^{A} = b I_{i}^{B} + ϵ_{i},$

其中IA和IB为样品A、B峰值i的强度，εi为余项(方程#5)。为比较矩阵A 对B，我们如下定义权数w：

$w_{i} = 1 - {(\frac{b_{i} - b}{b_{i} + b})}^{2},$

其中bi＝IAi/IBi。每一个Pearson系数用wi进行加权(方程#6)。因此加权植物组相似性指数(PSI)的第二种定义同时也是优选定义，如下(方程#7)：

$PSI = α \frac{Σ_{i = 1}^{N} R_{i} w_{i}}{Σ_{i = 1}^{N} w_{i}},$

此处α的限定如上所述。

PSI值的计算只是矩阵数据的多个处理中的一种，并由于其易于产生用作比较的单个数字，因而用于举例说明。

在图6A中，对典型样品Scute5和Scute6的Pearson分布进行绘图。在图6B中也描绘了“加权”Pearson分布，wiRi。

如所示的，加权分布在更大范围内延伸，这样使相关性不好(线性地)的异常点更加接近于零。以此方式，在矩阵相关中关联性很好而线性关联性较差的任何峰值可以非常容易地被识别为异常值。而且，由于此处对总PSI值进行加权，因此，预计其对异常值、关联性的峰值敏感性较低。

矩阵方法和传统方法的比较

在已制定了一种新方法来评估两种草本植物组合物之间的相似性后，显示在传统线性相关和矩阵方法之间的比较产生相似定量结果是重要的。再次考虑代表草本植物组合物Scute1和Scute2的测定的LCMS峰值数列所共有的集，其中 Scute1和Scute2是相同植物(黄芩根)的两个批次，但它们是从不同制造商那里购买的。对Scute1和Scute2所共有的峰值的强度测定其p值为0.074，清楚地显示它们选自同样的分布。由Scute1对Scute2(图4)的强度的对数曲线与线性最小二乘方拟合的结果是相适的。该线性相关大约为0.95，说明在Scute1和Scute2 之间具有较高水平的相关。可目视出最大的异常值为以下(时间，质量)对：(27.53 ，315.01)、(21.29，446.64)、(2428，313.03)、(18.42，446.64)、(20.41，446.636)、及(21.87，271.09)。在图5A和图5B中，显示了使用如上所述的加权方法的相关系数分布，该分布的加权PSI为0.89。Scute1和Scute2之间相关性最差(wiRi＜0.5 )的峰值为上述列出的精确峰值组。在所有情况而论，矩阵方法至少与传统方法一样好，但其提供了更好的方法来识别异常值，而且在用强的内部相关性进行更细的测定数据之间的比较中，矩阵方法是更优的。

实施例4.矩阵指纹图谱和PSI量度的使用

本文所讨论的矩阵指纹图谱的比较可以用于许多数值比较目的，包括但不仅限于以下：1)评价草本植物组合物之间的化学成分的相似性；2)评价草本植物组合物的生物响应；3)确定与草本植物组合物的特定生物响应相关性最高的那些数据点；4)确定哪些信息组(即相关植物数据、化学数据、生物响应数据)与草本植物组合物的特定生物响应最相关；5)确定哪种生物系统对评价草本植物组合物的生物活性是最好的；6)调整或改变草本植物组合物的成分，以便所述草本植物组合物的矩阵指纹图谱对应于相同或基本相同的草本植物组合物的标准化矩阵指纹图谱；7)调整或改变草本植物组合物的成分以便于草本植物组合物具有所需的生物活性；8)测定不同草本植物组合物的相似性；9)产生或更新标准化矩阵指纹图谱；10)识别特定的组分(如植物部分、蛋白质、分子)，它们保留了草本植物组合物所需的生物活性；11)确定草本植物组合物中哪种成分可以去除同时还保留或提高了草本植物组合物的所需生物活性；12)对草本植物组合物识别一种或更多种以前未知的生物活性； 13)帮助设计治疗方法，该治疗方法包括草本植物或非草本植物成分，如化学合成药品或成药，及14)使用矩阵指纹图谱作为补充设计治疗方法的组合化学方法的工具。通过通用的或本文所提供的方法和工具，可应用领域中的技术人员可以完成本发明的每一个实施例。

实施例5.质量控制(化学指纹图谱)

矩阵指纹图谱和相关的分析方法可用于将植物组合物的特定批次(单个草本植物或某一制剂的多种草本植物)与相同或基本类似的草本植物组合物的标准化主批次相互关联或确定该草本植物组合物特定批次的定量等效物。而且它可以用来快速识别相关性差的数据点(化合物或生物响应)，并探究相关性差的基础。我们使用作为示例的九个批次的比较，这些批次源于不同中国产地和台湾的黄芩并用LC/MS进行分析。使用一致的包括46个LC/MS峰值的组，可以计算配对的平均PSI值。发现这些值的范围在0.86-0.99之间，参见表和图7所示的配对比较。

表4：成对比较黄芩标准提取物的9个不同批次的加权PSI值表。在比较中用到了46个共同峰值，PSI值下至0.86上至0.99。查询数据的各个直方图来找出异常点、确定分类、识别数据点的子集，将数据点之间内部关系进行关联等等。 SCUTE- 1 SCUTE- 2 SCUTE- 3 SCUTE- 4 SCUTE- 5 SCUTE- 6 SCUTE- 7 SCUTE- 8 SCUTE- 9 SCRTE-1 0.86 0.89 0.93 0.92 0.89 0.93 0.91 0.89 SCUTE-2 0.97 0.95 0.95 0.92 0.94 0.96 0.98 SCUTE-3 0.96 0.96 0.94 0.97 0.97 0.99 SCUTE-4 0.98 0.94 0.97 0.96 0.96 SCUTE-5 0.97 0.98 0.97 0.97 SCUTE-6 0.97 0.95 0.94 SCUTE-7 0.97 0.97 SCUTE-8 0.97 SCUTE-9

应注意植物同一批多次注射产生了接近0.99的PSI得数，几乎完全相配。从这些曲线中，人们可以开始分析截点标准，该标准应用于形成能将可接受组从不可接受组中分离的规格标准。用有限数量的样品，我们可为所述特定植物选择0.9的PSI得数。采用加权功能，基于数据点的重要性、数据点值的可信度等，人们可以限定哪些数据点对PSI比较的贡献最多。更详细的测定这些植物对的任何一个披露了各数据点(LC/MS峰值)的PSI值直方图。然后查询该直方图以识别哪个LC/MS峰值对应于图8所示的低相关性。

实施例6.质量控制(原料植物和加工处理)

基于生成季节、地理位置、植物年龄、植物部分、降雨情况、施肥、光照量等，原料植物可以有非常大的不同。而且，通过各种已形成的传统及现代方法可以从植物的原始状态进行加工，包括预处理(浸湿、烘烤、干燥、煎、蜜制等等)、储存条件(时间、温度等等)、提取溶剂(水(冷热)、酒精、酸、液化气体、有机溶剂等等)、提取条件(时间、混合、温度等等)、提取后处理 (喷雾干燥、旋转蒸发、酸处理、添加赋形剂等等)等等。在制造工程中这些方法都可以并确实改变化学组合物，以及可能改变生物活性。矩阵方法提供了用于监控上述变化的一种综合方法。作为说明(表5)给出了专有的后处理示例，使用了处理前和处理后的9种黄芩样品。

表5：列出了比较黄芩未处理和处理后的提取物的加权PSI值。后处理模拟了正常的消化过程，它能改变多个混和植物提取物中的化学特性和平衡。该数据显示了一些批次比另一些批次更敏感，并且可识别导致敏感性的分子组。样品 PSI值 SCUIE-1 0.78 SCUTE-2 0.95 SCUTE-3 0.93 SCUTE-4 0.86 SCUTE-5 0.94 SCUTE-6 0.92 SCUTE-7 0.60 SCUTE-8 0.68 SCUTE-9 0.75

对食用产品，这种处理设计与正常的组分消化过程类似。在我们的情况下，该专有处理显著改变了化学组合物并大大降低了相似性。当用PSI方法分析时，我们用专用的Phyto Viewer软件识别分子子集，以及样品对所述处理的整体敏感性，所述分子是不变量。PSI值差的范围为0.1-0.4，当作直方图(参见图9及它的附加说明)时，显示截点位于敏感和非敏感批次的PSI差为0.2处。

实施例7.质量控制(生物响应)

任何生物试验的临界状态(危险性)评价是试验本身的再现性。PSI分析可用于评价单独批次的植物(或单独分子)对生物响应的影响。例如，考虑用单独批次的草本植物制剂PHY906对Jurkat细胞株进行六种独立处理后的上调和下调基因列表(AffymetrixTMU133A芯片在耶鲁大学和Stony Brook的核心设备中进行处理)。从数据中挑选出70个基因的一致组(55个向上调节，15个向下调节)，并用于计算矩阵并确定PSI值(表6)。

表6：经过以下成对比较得到的加权PSI值表：用同样的PHY906提取物处理Jurkat细胞的六种不同基因组阵列试验或未经处理，产生用于矩阵中的信号log 比率值。该PSI值显示不同细胞培养基、基因阵列设备及芯片在总体基因表达模式中可变性的精确水平。在该比较中使用了6组重复数据之间的共70个共同基因。重复-1 重复-2 重复-3 重复-4 重复-5 重复-6 重复-1 0.91 0.942 0.951 0.912 0.913 重复-2 0.883 0.912 0.907 0.903 重复-3 0.913 0.925 0.856 重复-4 0.881 0.915 重复-5 0.845 重复-6

如果仅有的变量是细胞培养基变化、芯片再现性和试验设备精确性，该结果可用于限定PSI值为0.85或更高位于试验误差以内，其可用于建立生物等价物的基准以保持一致性。而且，单个基因的PSI值直方图上的异常点(参见图10 和所附说明)显示了一小组基因在与其他基因的内比率平衡中具有显著偏差。

这有助于确定在与所有其他基因的基因响应图谱进行比较时哪个一直观察的基因最稳定，因此应将该基因从对特定植物的标记基因生物响应组中包含或除去。类似于化学指纹图谱示例(图5)及其应用于确定植物之间化学组合物的相似性，生物响应矩阵指纹图谱也可用作化学成分对基因组水平的影响的质量控制读数。例如，细胞集(每一个细胞的特征在于它们对植物的活性)可以设置为向量形式。因此，每一种植物具有与之相关的独特的具有生物显著性的向量。基因组数据也提供了关于一种植物物质的生物响应的强有力信号。DNA微阵列使人们可以将细胞活性的基因表达图谱与特定的植物药物活性相关联。可以基于植物和基因来评价关联程度。该分析的结果是，对于每一种植物，相关性矢量与数据集中的每一个基因有关。用基因表达相关性的矢量代表每种植物提供了关于该植物的高度特异性的生物响应指纹图谱。作为示例，Jaccard相似性指数可基于植物的生物响应确定两种植物的相似性。以此方式，可很快将植物的较大数据集删剪成生物相关子集，来进一步与其他指纹图谱方法进行比较，如LC/MS。

蛋白质组学应用于细胞中蛋白质水平的精确表达水平，是对基因组描述有价值的补充。SELDI-MS试验测定结合到特定表面基底上的蛋白质数量，它用于说明蛋白质生物响应图谱中的深刻变化可用矩阵方法和PSI值进行定量。用植物提取物PHY906的三种不同剂量处理Jurkat细胞，24小时后检测蛋白质响应。PSI值矩阵(表7)显示了更低剂量的PHY906可引起显著变化(0.83-0.85)，而主要变化发生在PHY906的剂量为0.1-1.0mg/ml(0.38-0.49)。

表7：加权PSI值表，对Jurkat细胞用不同剂量的PHY906(0.0、0.02、0.1、 1.0mg/ml)进行处理的四种蛋白质模式(使用SELDI方法和IMAC芯片得到的 Ciphergen数据)进行成对比较。PSI值显示各种处理之间表达蛋白的模式和比率模式定量差异，并显示蛋白质表达水平的最大剂量响应变化发生在0.1-1.0 mg/ml之间。对照剂量0.02mg/ml 剂量0.1mg/ml 剂量1.0mg/ml 对照 1 0.85 0.83 0.49 剂量0.02mg/ml 1 0.71 0.38 剂量0.1mggml 1 0.4 剂量1.0mg/ml 1

由于蛋白质水平在活细胞中趋于相关以提供动态稳定状态水平，包括非对角线比率项的方法允许包括蛋白质变化关联及更快地确定蛋白质变化种类 (clusters)。

实施例8.改进草本植物组合物或确定草本植物组合物的新治疗用途

矩阵方法也可用于使生物响应指纹矩阵与化学成分指纹图谱矩阵相关联，以确认分子种类模式，该分子种类可能导致一复杂的生物响应模式。所述用于分析复杂多成分混合物的系统生物学方法观念需要模式识别和内依赖数据分析，例如矩阵方法中所体现的。用将化学和生物响应指纹图谱结合起来的方法，可以确定生物不活跃或无活性分子及生物相关化学成分的模式，从而有助于改进混合物的生物活性特征。通过产生植物类似物(替代品、已存在制剂的删除或比率调节)，该信息可引导改进植物组合物或新的制剂。类似地，用未知或声称具有多种功能(常常是这种情况)的植物处理细胞培养基或动物，然后对生物响应模式进行分析，可以引导发现新的功能。例如，声明治疗腹泻的植物药物PHY906显示在宽的筛选化学动力响应试验组中，具有向下调节生物活素IL-5 的作用，该生物活素与哮喘炎症过程强烈相关。该发现(测定矩阵指纹图谱的结果)进一步将这些效果与IL-6和其他生物活素相关联，并开创了PHY906药物的新应用方法。

实施例9.表征一种未知的草药

传统中药(TCMs)常含有多种植物并作为家庭或商业秘密保存。通过矩阵指纹图谱分析样品可以披露化学成分并用于识别植物原料、原料比率甚至是制造过程。简单评估各个化学成分对识别各个原料就足够了。然而，原料比率和更细的植物原料来源及制造过程可能会以一种更加复杂的非线性的方式极大地改变成分平衡。这种比率平衡和成分内部关系模式可用作一种优良的方式来全面表征产物的特性。应注意，通过这种方法分析化学指纹图谱可以建立样品间的化学等价物。模拟模式匹配可用于确定用在最终产物中的植物比率。一旦建立起来，在最终组合物中的植物比率可以系统方式选择提取方法从而推动并指导优化制造过程，使两种植物化学模式相一致。只有通过集中于总体植物化学模式(与根据一小组单个化合物相反)才能有效完成上述过程。除了化学成分矩阵分析，生物响应模式也可用于确定生物相关性更强的比较。在此情况下，通过匹配酶/受体、趋化因子、蛋白质组、基因组、动物响应和/或行为响应，经植物提取物、植物原料的系统采样和制造方法，可建立生物等价物。

上述详细说明仅是为了清楚理解，由于修改对本领域技术人员是显然的，上面的说明不应理解为必需的限定。

虽然本发明结合特定实施例进行描述，应理解它可以进行进一步修改，本申请包括对本发明的变化、使用、或改变，它们都遵循本发明的原理并包括对本发明这样的背离：在本发明所属领域已知或惯例的范围内并可应用于在此前阐述的重要特征，它们在所附权利要求的范围内。

标题	发布/更新时间	阅读量
一种通信网络的性能优化方法	2020-05-08	166
基于便携终端信息的险态驾驶场景辨识系统及其辨识方法	2020-05-11	533
一种基于等值排列网络的心率非平衡性分析方法	2020-05-13	801
一种工地安全调度监管方法及系统	2020-05-08	996
用于重复性运动活动的增强性音乐	2020-05-13	99
一种基于知识点关联性量化分析的课时规划方法	2020-05-11	285
一种基于事故风险的城市动态预警系统及方法	2020-05-11	431
一种配电网接纳分布式电源能力评估方法和装置	2020-05-11	143
一种基于迁移学习的电力通信网故障检测方法	2020-05-12	507
一种基于多用户行为的神经网络推荐方法	2020-05-12	521

用于定量分析并评估植物样品性质的矩阵法

发明领域

该功能需要专业版企业版VIP权限，您可以：