所公开的是方法、表示和
算法,其用于在使受血者和预期供血者的输 血抗原基因型(也是血型基因型)交叉匹配的基础上来建立两种血型之间 的相容性,也称为遗传交叉匹配(“gXM”)的过程。为了确定相容性,血 型基因型根据与基本的等位基因组合的集合相关的表达状态来比对相应 的表现型,且相容性通过建立由组成表现型构成的血型的相容性来建立。
因此,公开了一种用于在预置严紧性的选定的交叉匹配规则下快速地 计算评估两种血型,即,受血者(R)和候选供血者(D)的血型之间的相 容性的方法。例如,相容性可在精确的规则下建立,以便供血者和受血者 表达相同集合的抗原;可选地,相容性可在不精确的规则下建立,例如, 以便由供血者表达的输血抗原集合形成由受血者表达的抗
原子集(即,供 血者不表达受血者不表达的任何抗原,且在那种意义上具有限制的抗原清 单)。为了允许有效的计算实现,血型以二进制串的形式表示(也是“代 码”,以包括八进制和十六进制的几种表示法中的一种的形式),以便该串 内的位的子集反映血型系统内限定个别表现型的抗原的存在(“1”)或不 存在(“0”),有助于血型的规范。根据本发明的交叉匹配规则被转录成在 计算上实现为快速布尔串匹配操作的逻辑表达式,以确定R串和D串之间 的相容性。例如在给定群体中最普遍地观察到的血型的第一集合和第二集 合之间的相容性关系方便地显示在相容性矩阵中,例如“1”的条目指示 相容性,而“0”的条目指示不相容性。部分相容性的测量还根据与R串 和D串内的个别错配位相关的分数的乘积来提供,每个错配分数设定为0 和1之间的值,以反映相对应的抗原之间错配的临床重要性。在涉及次要 血型系统Duffy、Kell、Kidd、MNS、Dombrock等的报导的血清表现型频 率的基础上,在这里对非裔美国人中最普遍观察到(或预期)的25个16- 抗原血型提供了相容性和部分相容性矩阵。
此外公开的是基因型与血型比对和遗传交叉匹配的算法和实现。该算 法允许通过比对基因型与表现型来建立已知输血抗原基因型的候选供血 者和受血者之间的相容性。优选地,基因型包括在控制选定输血抗原的表 达的基因内多个多态性
位置中的每个处的正常(N)和变异(V)的等位基 因
指定的组合。所公开的是通过直接比较在一组标记范围内限定的基因型 来允许确定相容性的该组多态性输血抗原标记。更一般地,该比对引起基 因型分解成为组成点突变集合,在这里称为“单倍型”,其在已建立的遗 传规则下合并,以确定限定特定表现型的编码抗原的表达状态。如果在表 现型指定中产生模糊度,这一般在基因型包括未知配子相(gametic phase) 的多个位置杂合二倍体时发生,则算法允许部分表现型相容性的评估,如 在这里的第一部分中描述的,并可提供与使供血者和受血者
配对相关的风 险的定量评估;此外,该算法允许通过应用统计的单倍型分析来减少模糊 度,或通过应用确定未知配子相(也为“定相(phasing)”)的方法来求解模 糊度。
附图和表格的简要描述
图1是示出血型的基因型与表现型的比对以及血型中的交叉匹配的图 示。
图2示出说明在不同交叉匹配规则下受血者和供血者的表达抗原集合 之间的关系的维恩图解。
图3是在输血抗原基因分型的基础上识别对受血者相容的供血者血液 的过程的
流程图。
图4示出通过分析显示在
颜色编码的微粒上的延长产品的配子定相。
图5比较在80个(自我识别的)非裔美国人供血者的群体中由单倍 型衍生的16-抗原次要血型
频率与通过公布的血清测定的抗原频率的随机 组合衍生的频率。
图6以散点图示出图5所示的相关性。
图7(表1)列出对输包含错配抗原的血液的有害反应的严重性和相 关的相容性(也是“错配”,MM)分数。
图8(表2)示出通过应用指定等位基因显性关系的遗传规则而确定 的抗原表达状态。
图9(表3)示出基因型与抗原表现型的“一对一”比对。
图10(表4)为Dombrock血型系统的
实施例示出基因型与抗原表现 型的“多对一”比对。
图11(表5)为Duffy血型系统的实施例示出基因型与抗原表现型的 “一对多”比对。
图12(表6)是与给定受血者表现型相容的表现型的部分列表。
图13(表7)示出Dombrock血型系统和相应的抗原状态的单倍型。
图14(表8)示出对基因型DOB/HY和相应的表现型Do(a-b+)的 基于基因型的交叉匹配。
图15(表9)是与基因型DOB/HY相容的基因型的总结。
图16(表10)示出通过检查基因型频率的单倍型分析。
图17A(表11)列出非裔美国人的十个最普遍的单倍型及其频率。
图17B(表12)列出非裔美国人的十个最普遍的基因型及其频率。
图18(表13)比较在80个(自我识别的)非裔美国人的群体中20 个最普遍的16-抗原次要血型及其由基因型得到的频率与通过公布的血清 测定的抗原频率的随机组合得到的频率。
图19(表14)比较由单倍型衍生的表现型频率与公布的血清测定的 抗原频率。
图20(表15)是在非裔美国人中25个最普遍的16-抗原次要血型的 相容性矩阵。
图21(表16)是在非裔美国人中25个最普遍的16-抗原次要血型的 部分相容性矩阵(
阈值=0.5)。
图22(表17)示出基因型交叉匹配。
图23(表18)是在非裔美国人中25个最普遍的16-抗原次要基因型 的相容性矩阵。
图24(表19)示出为非裔美国人群体中已知基因型的患者选择相容 的供血者基因型。
图25(表20)是从80个自我识别的非裔美国人供血者中估计的50 个最普遍的16-抗原次要血型的部分相容性矩阵。
图26(表21)示出由DNA分析得到的两个高加索个体的抗原分型和 交叉匹配预测以及在实际三态供血者库中的实践。
详细描述
I.血型相容性的确定。交叉匹配的实际实现的一个前提是对建立血型的数 学表示和相容性计分系统以评估变应抗原的影响的需要,变应抗原可能在 严重性的不同水平处引起有害的输血反应。还应考虑同种抗体的影响,其 可能由于包括变应抗原(或直接从供血者得到的抗体)的前面输血的结果 而引起。
I.1血型(bT)的表示-在列表中总结的表达(或弱表达)抗原的组合提 供了血型以二进制串的形式的方便表示,每个位指示特定输血抗原的存在 (“1”)或不存在(“0”)。例如,如果已知的抗原以Fya、Fyb、Lua、Lub、 M、N、S、s、K、k、Jka、Jkb、Doa、Dob、Hy、Jo(a)的顺序列出,则血型 代码c0101110101100111表示血型(Fya-、Fyb+、Lua-、Lub+、M+、N+、 S-、s+、K-、k+、Jka+、Jkb-、Doa-、Dob+、Hy+、Jo(a)+),其以抗原Fyb、 Lub、M、N、s、k、Jka、Dob、Hy和Jo(a)的存在以及抗原Fya、Lua、S、 K、Jkb和Doa的不存在为特征。该代码也可以十六进制的形式,即,c5F67 来表示。
个体血型的定义还可包括通过列出同源抗原作为“虚”抗原来记录对 输血抗原而不是该个体自己的抗原的同种抗体。例如,如果供血者前面输 了仅部分匹配的血液,没有被供血者表达的所有或一些抗原显示在输血的 红细胞上,则血型串被扩充以包括那些“虚”抗原的“0”项目。例如, 如果来自先前输血者的样本可用于基因分型,则不同于供血者的抗原可包 括在扩充的受血者血型中。特别地,也许作为早些时候输仅部分匹配的血 液的结果,如果发现供血者形成抵抗显示在输血的红细胞上的一个错配抗 原的同种抗体,则血型为变应抗原增加了“0”的项目。虚抗原的“1”的 项目可用于指示特定同种抗体的缺乏。此增加的表示法确保下面描述的相 容性计分和交叉匹配过程对全部增加的血型保持正确。
I.2建立相容性-给定已知血型的受血者,对相容的供血者的搜索需要相 容性标准的定义,在这里也称为交叉匹配规则。
在这里称为精确交叉匹配规则的第一交叉匹配规则规定,如果供血者 和受血者表达为比较而选择的相同集合的输血抗原,则供血者与给定的受 血者相容。在这里称为不精确交叉匹配规则的第二交叉匹配规则规定,如 果供血者不表达受血者不表达的抗原,则供血者与给定的受血者相容,即, 该标准增强了限制的供血者抗原清单。在该规则下,限定供血者血型的选 定抗原的集合为限定受血者血型的子集。缺乏除了显示在受血者细胞上的 那些抗原的任何血型在原则上是相容的,因为没有反应的抗体出现在受血 者的血清中以引起输血反应(只要受血者没有形成自身抗体,一种在任何 情况下都将被供血者的输血恶化的罕见情形,如所预期的)。与精确交叉 匹配比较,不精确交叉匹配规则相当大地扩大了与给定受血者相容的供血 者的数量,如实施例3和实施例5所示的。第三规则,即,不精确交叉匹 配规则的
变形规定,假定供血者只表达与受血者“弱”反应的抗原,则供 血者被考虑为与给定的受血者部分相容。指定了反映那些“变应”抗原的 免疫原性和相应的临床重要性、反映在错配情况下的有害反应的速度和严 重性的分数。在输血中目前的实践以交叉匹配规则为基础,该规则基于抗 原的缺乏(抗原阴性)来选择相容的供血者,抵抗该抗原的抗体已经在受 血者的血液中形成。该规则不必允许在受血者体内的临床上重要的抗原和 相应的免疫原性的反应之间的可能的不相容性。图2示出说明在不同交叉 匹配规则下受血者与供血者的表达抗原集合之间的关系的维恩图解。
在不精确交叉匹配规则下,预期供血者的抗原清单被限制(与在精确 交叉匹配规则下选择的供血者的抗原清单比较),因为表达抗原的供血者 清单形成给定受血者的表达抗原的子集。该限制的供血者清单标准可能看 起来似乎限制预期供血者库,因为它要求具有较少数量的表达抗原的供血 者(或以常规术语,较大数量的“抗原阴性”)。然而事实上,因为可接受 的供血者抗原子集可为受血者抗原的任何组合,在不精确交叉匹配下与给 定受血者相容的候选供血者的数量大于在精确交叉匹配下可得到的数量 (也见实施例6)。
为了有效的实现,交叉匹配规则被转录为包括例如以二进制、八进制 或十六进制形式的串的逻辑表达式,表示受血者和预期供血者的血型。对 于对确保在标记的扩展集合范围内的供血者-受血者相容性特别重要的不 精确交叉匹配规则,逻辑表达式为{[βd]iAND NOT[βr]i}EQ 0,指数列举血 型串中的位。当供血者血型串中的位为“1”AND受血者血型串中的位为 “0”时,该表达式产生真值(“1”),指使不相容性。
部分相容性-为了建立对部分相容性的定性评估的基础,范围例如从 0到1的相容性分数在错配情况下以有害反应的严重性递减的顺序被指定 给抗原。也就是说,给非免疫原性的抗原指定分数“1”,而给最高免疫原 性的抗原指定分数“0”。例如,给ABO抗原指定分数“0”,当错配时该 抗原反映其产生“立即;轻微到严重”的有害输血反应的临床重要性。相 反,给Lutheran抗原指定分数0.75,当错配时该抗原反映其产生“延时” 的有害输血反应的临床重要性。“查寻”表1根据定性的临床反应级别 (Hillyer,C.D.et al.,同上)示出如果错配时一些常见输血抗原的相容性分 数。其它定义是可能的,例如,以具有特定抗原的出现频率和所引起的临 床反应的严重性的免疫原性分数的组合的形式。总的相容性分数通过乘错 配位的相容性分数来计算,这在多个免疫抗原实体存在时导致增加了有害 反应。该假设与观察是一致的,而不管免疫风险对特定的抗原变化相当大 的事实,额外的抗体形成被显示为独立地与最近20年回顾性的多个中心 的研究(Schonewille et al,Transfusion,46,630-635(2006))中输血事件的数 量相关联,假定目前的输血实践包括使用具有对识别的抗体特有的抗原阴 性的血液,而不是首先阻止免疫的血液。因此,通过{si}表示个别抗原的 相容性分数,血型相容性矩阵中的元素根据下列表达式计算:
e(βd,βr)=1
其中[βd]和[βr]分别表示供血者和受血者的血型代码,指数i指指示血型中 个别抗原存在或不存在的位。作为所有变应抗原的分数的乘积,相容性分 数si因此被限制在0和1之间。如果集合{i}是空的,没有变应抗原;则结 果为1且供血者的血液被考虑为与受血者完全相容;如果结果为0,则供 血者的血液被考虑为不相容的。e的小数值表达部分相容性:该值越大, 相容度就越高。在一个实施方式中,部分相容性分数被定限,即,如果 e(βd,βr)<eth,则设置为e(βd,βr):=0,以便为了输血的目的而不予考虑被认为 太危险的那些血型。
相容性矩阵-要在群体中被观察的所观察或预期的第一血型和第二 血型之间的相容性分数可以矩阵的形式紧凑地显示。由特定的第一血型编 索引的每行以及例如通过递减选定血型的出现频率来排序的行包括由指 示选定集合中第一血型和第二血型之间的相容度的分数组成的串。根据精 确交叉匹配规则,血型与其本身相容-在这里也称为“e匹配”的情况- 由对
角矩阵元素“1”表示。在不精确交叉匹配规则下,每种第一血型可 与几种第二血型相容,且矩阵的相应(非对角)元素也包括元素“1”- 在这里称为“r匹配”的情况,或如所述的显示通过评估部分相容性来获 得的值的元素-在这里也称为“p匹配”的情况。包括零值的矩阵元素指 示不相容的第一血型对和第二血型对。一般来说,在不精确交叉匹配规则 下,表示受血者血型的第一血型可与表示候选供血者血型的几种第二血型 相容,而相反的情况不成立:矩阵不是对称的。
评估供血者库-通常,如果输血者以前是可能导致同种免疫的输血的 受血者,则他们可能丧失资格。然而在紧急情况下,这样的供血者在目前 的交叉匹配规则下可能是可接受的,只要相容性分数根据更改的供血者和 受血者代码来计算,在每个“虚”抗原位置处受血者位被复制到供血者位, 并接着设定为“0”。
II:输血抗原基因型相容性的确定
II.1基因型的表示-为了当前的目的,我们将输血基因型限定为在所关心 的一个或多个基因内的特定的可变位置(“基因座”)处给出目标核酸的配 置(“等位基因”)的值串。优选地,每个指定的位置用一对低核苷酸探针
访问,其中一个设计成探测正常的(N)等位基因,另一个探测特定的变 异(V)等位基因。优选地,延长的探针在确保聚合酶催化的探针延长是 为了匹配的探针而不是为了错配的探针而出现的情况下使用,匹配的探针 是其3’末端与相应的标记等位基因匹配的探针。根据eMAPTM格式表示个 别探针延长反应的产生(见美国申请序列号10/271,602,同上)的化验信 号强度的模式转变为分立的反应模式,通过预置阈值的应用转变为与一对 内的探针相关联的化验信号强度的比率(或其它组合)。
基因型接着由串G={(NV)i,k}表示,其中i列举所关心的选定基因的 集合内的基因,以及k列举第i个基因内指定的多态性位置。N和V采取 表示等位基因状态的值:在本公开内容中,野生型(或正常)和突变(或 变异)等位基因优选地分别由字母“A”和“B”表示。例如,在MNS系 统中的多态性位置GYPB 143T>C处,“A”表示正常等位基因T,而“B” 表示变体等位基因C。在只有两个等位基因的基因座,双等位基因组合 (NV)因而采取AA、AB(或BA)和BB的值。其它字母可用于表示等 位基因状态,例如,字母“D”代表删除。在优选实施方式中,与指向相 同标记的一对探针相关的、优选地通过除去非特定(“背景”)的成分来纠 正的信号强度,和探测正常等位基因的探针相关的一个这样的强度IN,以 及与探测同一样本中变体等位基因的探针相关的另一个这样的强度IV合 并来形成辨别参数Δ=(IN-IV)/(IN+IV),即,在-1和1之间变化的一个量。 对于给定的样本,低于预置的下限的值Δ指示纯合变异,高于预置的上限 的值Δ指示纯合正常,以及高于下限而低于上限的值Δ指示杂合配置。输 血抗原基因型也可接着由串G={Δik}表示,其中与前面一样,i列举所关心 的选定基因的集合内的基因,以及k列举第i个基因内指定的多态性位置。 因此,在这里输血抗原基因型在表示法AA、AB(或BA)和BB中或等 效地在表示法1、0、-1中被指定。基因型表示在这里称为单倍型的两个组 成串的组合,每个组成串都表示在所有标记位置的等位基因状态的特定组 合-每个标记有一个等位基因。
II.2标记的选择-受血者和候选供血者的相容性的测试,例如下面较详细 描述的同一性或近似同一性被限制为相关基因内的标记集合,当该基因被 表达时,将显示在携带血液的细胞上的某些人类红细胞抗原(HEA)编码, 受血者已经产生(在早些时候暴露的基础上)了抵抗该红细胞抗原的抗体 (“同种抗体”)或可产生该红细胞抗原的抗体。在在输血的受血者体内和 候选供血者体内识别的选定标记等位基因之间的匹配或近似匹配通常最 小化了受血者免疫的危险以及被免疫的受血者体内同种抗体介导的有害 输血反应的危险,所述标记相应于位于编码血型抗原并特别包括次要血型 抗原的基因内的多态性位置。也就是说,如果标记的集合选择成探查与这 样的反应有关的相关等位基因,则受血者与供血者的标记等位基因的比较 可提供用于选择相容的候选供血者的基础。在共同未决的申请序列号 11/257285(也见实施例2)中公开了标记的集合;这些标记可被扩展以包 括控制表达如使突变沉默的额外标记和检测删除、插入或重新组合的标 记。
为了在一般情况中选择供血者,期望有在比较与临床上重要的输血抗 原的表达有关的基因型的基础上确定供血者和受血者的相容性的过程,以 便确保所有临床上相关的血型抗原的匹配。
II.3基因型与血型的比对-为了根据本发明实现基因的交叉匹配,基因型 在过程(与“基因型不是表现型”的普遍原理有关)中以处理模糊度的方 式与血型比对;接着使用部分I中公开的方法来评估血型相容性。与包括 血清分型的当前实践相反,通过基因型与表现型比对的相容性的测定提供 了优良的可靠性,因为两种可能“变应”的实体,即,输血引起的抗体和 “外来”抗原对供血者的红细胞有影响,只要它们被表达,不管是强地还 是弱地。在很多情况下,表现型由基因型直接和明确地识别(Hashmi et al., 同上)。本发明处理的一个问题是与基因型与表现型比对的恶化有关的风 险的定性评估和求解由该恶化产生的模糊度。
给定由等位基因的指定集合组成的基因型,在血型测定中的第一个步 骤是确定由那些等位基因编码的个别输血抗原的表达状态。对于每个标 记,让(Ee)表示基因型(NV)中等位基因N和V的显性特征,且让E 和e采取三个值-D(显性基因)、R(隐性基因)和N(非表达基因)之 一。反映操作遗传模式的相应抗原表达状态(AgN AgV)接着由一对布尔 变量(Xx)方便地表示,其中“1”(或“真”)和“0”(或“假”)的值分 别指示抗原的存在和不存在,如部分I中描述的。
(Xx)的值通过评估下列逻辑表达式来确定:
X=(E EQ“D”)OR((E EQ“R”)AND状态),
X=(e EQ“D”)OR((e EQ“R”)AND状态),
其中
状态=(Ee NEQ“DR”)AND(Ee NEQ“RD”)AND(Ee NEQ“NN”)。 在这里,OR、AND、EQ和NEQ是返回布尔值“1”(“真”)或“0”(“假”) 的逻辑操作符,分别取决于相应的“或”、“和”、“等于”和“不等于”关 系的有效性。
“一对一”比对:SNP标记(也见实施例2A)-在几个重要的血型 系统中的等位基因包括相应于编码的抗原中的单
氨基酸变化的单核苷酸 多态性。在这样的情况下,抗原表达状态(Xx)因而表现型从上面的表达 式容易和明确地评估,如表2和表3所示的;在所关心的大多数情况下, 等位基因是共显性的,而独亲的抗原是表达的。例如,Kidd系统中的单核 苷酸多态性(SNP)JK 838G>A相应于将正常抗原Jka改变为独亲抗原Jkb 的单氨基酸置换。
“多对一”比对(也见实施例2B)-在其它例子中,等位基因包括多 个可变的基因座。例如,如表4所示,在Dombrock系统内位置DO-793、 DO-624、DO-378、DO-350和DO-328处的五个可变的基因座限定基因型 的多态性,在一些情况下,该基因型表示单倍型的多个组合。显著地,根 据已知的遗传模式(Reid,M.and Lomas-Francis,C,″The Blood Group Antigen Facts Book″,Academic Press,2nd ed.,2004),个别单模组合的抗原 表达状态的评估表明,不同的单模组合(“双模”)与相同的表现型比对: 例如,DOB/DOA和HA/SH都与表现型Do(a+b+)比对,而多个不同的基 因型与四个(已知)的表现型中的每一个比对。这种情况在这里称为“多 对一”(也是“衰弱的”)比对。
明确的比对可由下列方程表示:
fgT->βT:gr(d)->βr(d)。
如果涉及限定血型的所有抗原都由包括相应于独亲抗原的单核苷酸 多态性的共显性等位基因编码,则存在交叉匹配的特殊情况-“g匹配”, 即,完全相容的匹配,如果受血者和供血者具有相同的基因型。例如,在 “一对一”比对的这种情况下,基因型的同一性意味着在精确交叉匹配规 则下的相容性。
“一对多”比对:模糊度-更一般地,在具有未确定的配子相的2-基 因座(多基因座)杂合基因型内固有的模糊度容许有模糊的表现型。例如 (表5),根据配子相,在Duffy系统中在基因座对FY-33和FY125处的杂 合组合编码抗原Fya或独亲抗原Fyb。也就是说,在位置Duffy-Fy(Fy125) 处具有“G”的正常等位基因编码抗原Fya,而在该位置处具有“A”的变 体等位基因编码独亲抗原Fyb,但表达由分离的标记Duffy-GATA(FY-33) 控制:如果Duffy-GATA(FY-33)突变,则它破坏基因的转录并使FYA/B 的表达沉默。杂合等位基因的2-基因座组合,即,在{GATA,FY}处的(AB, AB)在表现型预测中引起模糊,因为单倍型组合可为编码Fy(a+b-)的 A-A/B-B或编码Fy(a-b+)的A-B/B-A。因为当在输血中错配时,Duffy抗原 可引起“轻微到严重”的输血反应,如e=0.375的部分相容性分数所示的, 基因型中的模糊度需要进一步的说明。通过单倍型分析来减少或消除模糊 度的方法在实施例3或4中示出。
模糊度的比对可由下列方程描述:
fgT->βT:gr->{βrv}。
II.4与比对模糊度相关的风险的评估-由“一对多”比对产生的多个可能 的(“假想的”)血型通常在表示特定抗原的位不同,例如,三个假想的血 型c1001、c0001和c1000在第一和最后一位不同。与比对模糊度相关的风 险及其可能的临床结果因而表现在错配的位中和在相应的可能的变应抗 原的不同表达状态中。特别是在紧急情况下,在特定的“一对多”比对中 有与模糊度有关的定性风险评估是有用的,特别是当对受血者进行测定 时。风险评估被公开,以根据在图3中绘制的程序来提供用于决定是否接 受在特定的假想血型的模糊度中固有的剩余风险的基础,并继续进行或寻 求额外的
净化。
一个策略是在“最坏病例”情况的假设下继续进行。也就是说,假设 假想血型为受血者的血型,计算所有假想血型与所有可得到的候选供血者 的(部分)相容性,并采用最低部分相容性分数作为决定是否继续进行的 基础。然而,如果可能变应的抗原是临床上重要的,则受血者的假想血型 与候选供血者的血型之间的相容性分数可能非常不同,且最坏病例情况可 能产生过度保守的评估。此外,假想血型的出现频率通常不是相同的。因 此,最坏病例情况可能与具有低频率的假想血型有关。在评估所有假想血 型和可得到的候选供血者的相容性分数之前,根据这里公开的策略,更详 细地检查假想血型因此是合理的。首先,指定给可能的(“假想”)血型的 概率{cv}与比对一致,以便评估一个或多个假想血型是否可能是次要的。 接着,根据{cv}来排列可行的假想血型,以限定反映遇到具有不可接受的 低相容性分数的血型的可能性的风险阈值。风险分数可以{cv}和相容性分 数的几种可能组合中的一种形式来限定。
估计血型频率-在这里限定为免疫原性实体的组合的血型一般包括 多于10个的抗原,其中大多数与基因中高度多态性的点突变相关。例如 在血液中心的
数据库中,估计出现频率对大规模地给供血者和患者交叉匹 配是重要的;然而,通过直接计数的准确估计很难,因为这些抗原的大量 组合指示样本具有不实际的大数量,以便结果有统计重要性。这里描述的 合乎需要的方法包括沿着相同的DNA链-等位基因或单倍型-分组使用 在紧密间隔的点突变中的联接,以及在不同的基因或
染色体上的那些联接 状态中使用统计联系。
对于包括多个点突变的等位基因,特别是当沉默突变与抗原决
定子联 接时,所识别的单倍型在得到抗原表达方面是有用的。例如,在实施例9 中提到的大规模研究中,GPB-int5沉默突变被确认为总是与S确定点突变 等位基因GYPBS联接,但永远不与突变等位基因GYPBs联接,换句话说, 只有单倍型GPB-int5″B″-GYPB存在,但GPB-int5″B″-GYPBS不存在。 我们将接着有较大的信心指定例如S-s+表现型的(AB的GPB-int5和AB 的GPB)的分型。
单倍型分析使用最大期望(EM)算法,以找到沿着短DNA链的点突 变的联接状态并估计其频率。一般用在群体遗传学中的特定方法是基因计 数,其为多项式数据的EM算法(Weir BS.Genetic Data Analysis II:Methods for Discrete Population Genetic Data.Sunderland,MA:Sinauer Associates; 1996;Dempster A,Laird N,Rubin D.Maximum likelihood from incomplete data via the EM algorithm.Jouranl of Royal Statistical Society 1977;39:1-38), 其中单倍型频率(基本的完整数据集合)可通过考虑在确立的参数中间的 相互依赖性知识的
迭代方法从基因型频率(在实验中确定的可能不完整的 数据集合)估计(Lange K.Mathematical and Statistical Methods for Genetic Analysis.2nd ed.New York:Springer;2002)。接着计算下面的双倍型频率 (Lange et al同上):
其中H和h表示特定双倍型的两个组成单倍型;2的倍增因数说明由两个 单倍型组成的两个等概率的双倍型,因为它们在遗传时转换位置。结果形 成一组双倍型频率对-{dk,ck}。当一个人从父母之一遗传时,这里在更广 泛的意义上称为“单倍型”,点突变的完整集合的出现频率接着被计算为 在不同基因上的等位基因/单倍型的出现频率的乘积,假定它们被无关联地 测试。如从受血者和/或供血者的单倍型分析中估计的,“假想”血型的概 率可接着写成形式:
fgT->βT:gr->{βrv,crv},以及
fgT->βT:gd->{βdμ,cdμ},
具有低于预置阈值的估计频率的假想血型可从进一步的考虑排除,而没有 过度的风险。血型频率可接着被计算为在每个血型或基因中抗原的组合的 出现频率的乘积,如果它们被无关联地测试,这在大多数情况下是正确的。 否则,人们需要考虑计算一种排列出现的条件概率,该排列以位于不同级 因或染色体上的另一种排列为条件。
下面分析小群体样本,如果新的基因型不能表示为建立的单倍型的组 合,则在新的单倍型的搜索中可尝试串匹配,新的单倍型可与任何一个建 立的单倍型结合而形成给定的基因型。这种方法实际上识别两个最近报导 的新单倍型,Dombrock系统(hashmi et al,同上)内的Ha和Sh(表4)。 新单倍型的频率通过乘基本上假定为随机组合的组成等位基因的频率来 估计,且其它单倍型的频率被适当地重正化。然后,根据上面给定的表达 式重新计算相应的假想血型及其频率。当随机供血者库累积了较多的基因 型病例时,可重复EM计算,以便精调频率。
计算风险分数-通过相互比较假想血型,优选地通过在所有串中的相 应位置上合计位可获得模糊度的分型测量。合计到除了“0”或假想血型 的数量“N”的值的任何总数识别一个位置,至少一个假想血型在该位置 不同于其它血型,且在这些位置中设置校验位。通过形成与所有校验位位 置相关的相容性分数的乘积(表1),以类似于部分I中描述的部分相容性 的评估的方法可接着获得模糊度的在临床上重要的定性测量。相关风险的 分数u通过将该乘积从单位元素中减去来确定:
u=0,
其中血型β对受血者或供血者可分别为βr或βd。如果该乘积接近于单位元 素且相应的风险分数u低于预置的阈值,则假想血型中间的差异被考虑为 在临床上重要的。在这样的情况下,寻找“最佳病例”情况是合理的,也 就是说,从产生最佳相容性分数的具有任何假想血型的供血者开始或通过 线性组合继续进行下去:
如超过预置阈值的值u所指示的,如果风险分数为“高”,则单倍型分析 (实施例2或3)和任选地定相(实施例4)可随血库管理员的意思进行。 在紧急情况下,假定这样的额外分析测量在有效时间内不容易得到,则通 过不予考虑具有低于预置截止点的估计频率的假想血型来减小模糊度可 能是合理的。
部分相容性-否则,对所有可行的假想血型计算部分相容性分数。假 定这些血型具有可比较的估计频率,且模糊度风险分数不高,则部分相容 性分数可被确定为频率加权的平均值。另一方面,如果模糊度风险分数高, 则根据上面考虑的“最坏病例”假设,通过在受血者的假想血型和最接近 地匹配的可得到的供血者血型之间的交叉匹配的所有可能的组合中挑选 可设定部分相容性分数,具有最低相容性分数的一个是:
III.相容的供血者搜索和交叉匹配算法
由于二进制(或等效的)血型表示被限定,预先调整的精确的交叉匹 配规则被建立并转录成逻辑表达式,以及与比对模糊度相关联的风险评估 的规定被完成,现在公开了实际算法,其合并这些概念并在基因分型的基 础上为给定的受血者提供用于快速选择候选供血者的方法和实现。
假定预先计算的相容性矩阵和供血者血型的数据库通过基因型与表 现型的比对得到,则可实现快速搜索算法以如下为给定的受血者识别候选 供血者。
首先,构造优先级列表,其中列举可能相容的血型。该列表有三个一 般的部分:e(“精确”)-匹配,r(“不精确”)-匹配和p(“部分”)-匹配 -以优先级递减的顺序。在e匹配和r匹配中,具有较高出现频率的血型 具有较高的优先级;在p匹配中,具有较高相容性分数的血型具有较高的 优先级。如果多个项目具有相同的相容性分数,则较频繁的类型具有较高 的优先级。接着,进行优先级列表的搜索以按照列表中的优先级顺序找到 候选供血者;显示所有可接受的相容的候选供血者,维持优先级顺序并为 “部分相容的”类别中的所有候选供血者添加相容性分数。
实现-优选地,
计算机程序用于根据下面的伪码概述来实现本发明的 交叉匹配过程。
#define Dominant 1
#define Null 0
#define Recessive-1
/*用于在所有标记处为给定的供血者基因-单倍型比对基因型与表现型的 子程序*/
Geno2Pheno(DonorType,mapGeno2Pheno)
{
for(index=all markers in DonorType)
{
position=mapGeno2Pheno.find(DonorType.genotype);
DonorType.marker(index).phenotype=mapGeno2Pheno(position).second;
}
}
/*用于在所有标记处为给定的供血者基因-单倍型检验和设置表达状态的 子程序*/
checkExpressionState(DonorType)
{
for(index-all markers in DonorType)
{
/*找到与每个表现型相关的表达*/
/*表现型具有通过在listPhenotypes中查寻来找到表达的子程序*/
e1=DonorType.marker(index).phenotype 1->
getExpression(listPhenotypes);
e2-DonorType.marker(index).phenotype2->
getExpression(listPhenotypes);
x1=(e1==Dominant)+(e1==Recessive)*((e1+e2)!=Null);
x2=(e2==Dominant)+(e2==Recessive)*((e1+e2)I=Null);
for(index2=all haplotypes in DonorType)
{
if(associated haplotype suggests silencing at x1or x2)x1or x2=0;
}
/*对在每个标记上的每个等位基因设置表达状态*/
DonorType(index).expression!=x1;
DonorType(index).expression2=x2;
}
}
/*用于比对供血者表现型与血型或抗原的列表的子程序*/
Pheno2Blood(DonorType,mapPheno2Antigen)
{
for(index=all markers in DonorType)
{
for(x1,x2 that is true or expressed)
{
/*找到表现型与抗原比对中的表现型*/
position=
mapPheno2Antigen.find(DonorType.marker(index).phenotype);
/*将所有找到的抗原插到现有列表;忽略重复的项*/
DonorType.antigens.insert(mapPheno2Antigen.(position).
second);
}
}
}
/*用于建立不重复的血型的子程序*/
EstablishListBlood(DonorType,listBloods)
{
for(index=all elements in listDonorTypes)
{
if(listDonorTypes(index),antigens,the combination is not listed in the
listBlood)
listBlood.insert(listDonorTypes(index),antigens);
}
}
/*用于预处理的子程序*/
Preprocess(listGenotypes,listphenotypes,mapGeno2Pheno,listDonorTypes,
listBloods)
{
/*在基因型的列表中设定ID和名称*/
listGenotypes=setListGeno(fileParameters);
/*在表现型的列表中设定ID、名称和表达状态*/
listPhenotypes=setPhenoExpression(fileParameters);
/*设置基因型与表现型比对*/
mapGeno2Pheno=isetMapGeno2Pheno(fileParameters);
/*设置表现型与抗原比对*/
mapPheno2Antigen=setMapPheno2Antigen(fileParameters);
/*比对和关联血型与每个供血者基因-单倍型*/
for(index=0to listDonorTypes.sizeQ)
{
/*与受血者的main()程序相同的所有供血者的比对过程*/
Geno2Pheno(listDonorTypes(index).DonorType,mapGeno2Pheno);
checkExpressionStateflistDonorTypes(index).DonorType);
Pheno2Blood(listDonorTypes(index).DonorType,
mapPhenol2Antigen);
}
EstablishListBlood(listDonorTypes,listBloods);
}
/*基于基因型的交叉匹配*/
main()
{
/*输入所有参数并比对供血者基因型与血型*/
/*以及列出所有的血型*/
Preprocess(listGenotypes,listPhenotypes,mapGeno2Pheno,
listDonorTypes,ListBloods);
/*从
请求读取受血者基因型并与血型比对*/
/*对每个供血者,基因型、表现型、表达状态和血型及代码在
″recipientType″数据结构中*/
input(recipientGenotype);
input(ruleState);
recipientType.genotype=recipientGenotype;
/*比对基因型与表现型*/
Geno2Pheno(recipientType,mapGeno2Pheno);
/*通过单模表本检验表达状态变更*/
checkExpressionStateζrecipientType);
/*比对表现型与血型并产生血型代码,该代码本身为二进制串或以十
六进制形式,位的相对位置按照抗原的预置顺序*/
Pheno2Blood(recipientType,mapPheno2 Antigen);
[βr]=recipientType.bTypeCode;
If(ruleState=EXACT)
for(index=listDonorTypes.size())
{
if(recipientType.bTypeCode==listDonorTypes(index).bTypeCod
e print(listDonorType(index));,/*打印出结果*/
}
else if(ruleState=RELAXED)
for(index=all listDonorTypes.size())
{
[βd]=listDonorTypes(index).bTypeCode;
/*根据相容性表达式检验相容性*/
matrix_element=([βd]&~[βr]==0);
if(matrix_element!=0)
print(listDonorType(index));/*打印出结果*/
}
else/*如果ruleState=PARTIAL*/
for(index=all listDonorTypes.size())
{
[βd]=listDonorTyρes(index).bTypeCode;
/*根据相容性表达式检验相容性*/
/*1.计算变应抗原的代码*/
res=[βd]&~[βr];
/*2.计算相容性矩阵元素*/
comp=1.0;
for(i=0;KbTypeLength;i++)
if(res&(1<<i))/*如果ith最低位为非零*/
comp*=s[i];/*乘变应抗原的所有s*/
matrix_element=comp;
/*如果是非零元素,打印出供血者血型和相容性值*/
if(matrix_element!=0)
print(listDonorType(index),matrix_element);
};
}
实施例1:精确和不精确的交叉匹配规则
考虑限定为表现型的组合(Fy(a-b+),Lu(a-b+),M+N+S-S+,K-k+, Jk(a+b-),Do(a-b+))的血型。根据一个引用(Reid,M.&Lomas-Francis,C, 同上)和通过随机组合的分析,该表现型在非裔美国人中以大约1.5%的频 率出现。表6示出根据精确和不精确匹配规则的相容的完整表现型。在精 确交叉匹配规则下,供血者具有与受血者完全一样的完整表现型。在不精 确交叉匹配规则下,人们期望零表现型Fy(a-b-)与具有表现型Fy(a-b+)的受 血者相容,因为既没有Fya也没有Fyb的红细胞对受血者的免疫系统可能 不显示变应的Duffy抗原。相同的推理适用于其它标记。因此,例如,组 合(Fy(a-b+),Lu(a-b+),M+N+S-S+,K-k+,Jk(a+b-),Do(a-b+))在不精确交 叉匹配规则下被考虑为相容类型,在该规则下相应于大约12.5%的可利用 的候选供血者的总共54个表现型是相容的,该比例实质上超过在精确交 叉匹配规则下可得到的比例。所以名称为不精确交叉匹配规则。
实施例2:基因型与表现型比对和基因型相容性
本实施例在将交叉匹配规则应用于表现型之后示出基因型与表现型 的比对以及表现型与血型的合并,以便得到相容基因型的集合。在Duffy、 Lutheran、MNS、KeIl、Kidd、Dombrock、Scianna、Diego、Colton和Landsteiner- Wiener血型系统中对与26个表现型有关的18个多态性基因座的特定选择 限定的基因型使用对分层为几个组的496个供血者的一系列等位基因特有 的探针对来识别,如在Hashmi et al(同上)中报导的。
2A-通过视觉检查的直接转录-限定选定系列但不是Dombrock和 Duffy血型系统中系列中的等位基因的单核苷酸多态性具有一对一的基因 型与表现型比对,允许相应抗原的组合从基因型中很快读出。例如,在 Colton,基因型AA、AB、BB分别相应于抗原状态(Coa+,Cob-)、(Coa+, Cob+)、(Coa,Cob+)。当A(“正常”)和B(“变体”)等位基因是共显性的 时,适用于基因型的交叉匹配规则如下:对于精确交叉匹配,所有三种类 型只与其本身相容,而对于不精确交叉匹配,AA和BB与其本身相容, 且所有三种类型都与AB相容。
2B-多基因座等位基因和统计单倍型分析:Dombrock-对于 Dombrock血型系统,根据五个多态性基因座DO-793、DO-624、DO-378、 DO-350和DO-323限定的等位基因给四个(来自五个已知的)抗原,即, Doa、Dob、Holley(Hy)和Joseph(Jo(a))编码。当表现型由多基因座等位基 因确定时,视觉检查通常不足以构成比对。为了继续下去,单倍型必须构 造成说明观察的基因型,并通过应用所建立的遗传规则来识别表现型。统 计单倍型分析为识别可能性最大的单倍型集合提供了充分确立的方法,以 说明观察到的基因型分布。
为Hardy Weinberg平衡产生的大于0.1的P值测试18个基因座(与 36对等位基因有关)的完整集合的公布的分型结果指示等位基因在群体中 是平衡的,且进一步指示该取样和分型误差是可忽略的。在可公开得到的 实现中,期望最大(EM)算法(见Dempster AP,et al.,″Maximum Likelihood from Incomplete Data via the EM Algorithm″,J.R.Stat.Soc.B 1997:39: 1-38)HAPLORE(Zhang K,et al.,″HAPLORE:a program for haplotype reconstruction in general pedigrees without recombination″,Bioinformatics 2005:21:90-103)用于估计单倍型频率,以说明报导的基因型频率。作为 对HAPLORE的输入,血统文件从遭遇的等位基因型集合,即,在每个多 态性基因座处的A或B构成,每个基因座都被指定给内部ID,即,1或2。 与连续EM迭代中单倍型频率估计的增量相关提高有关的收敛标准设定为 10-8,以及保持单倍型的频率阈值设定为10-6。该算法不仅识别以前报导的 (Hashmi et al,同上)六个单倍型,而且提供相应的估计频率。参考相关 的遗传规则的文献,所有的抗原状态容易从这些单倍型和所估计的表现型 频率(没有示出)构造。
表7列出结果,且表8概述了Dombrock基因型与其相应的表现型和 抗原状态的比对。例如,基因型DOB/DOB与表现型Do(a-b+)比对,然后 与具有抗原代码0111的(Doa-,Dob+,Hy+,Jo(a)+)的抗原状态比对。显著 地,如前面观察到的(Hashmi et al,同上),虽然在一些情况下,发现多个 不同的组合产生相同的基因型,发现所有这些组合连同其它基因型都与相 同的血型比对,在本例中允许从受血者和供血者基因型的同一性推断 Dombrock表现型的相容性。更系统地,相容性矩阵使用选定的交叉匹配 规则将受血者抗原代码与其相容的供血者抗原代码联系起来。例如,相容 性矩阵将供血者代码0111连接到受血者代码0111和1111。
逆比对和基因型相容性-给定表现型相容性矩阵,表8中的比对产生 供血者基因型的相容集合。例如,给定DOB/HY的基因型,相应的表现型 首先被识别为具有抗原代码0111的Do(a-b+)。如表中所示,为了识别相容 的基因型,开始搜索以将代码0111(由虚圆示出)连接到两个相容的供血 者抗原代码0111和0101。第一个代码0111相应于沿着矩阵的对角线的相 容性元素,表示精确的交叉匹配。找到五个相容的基因型DOB/DOB、 DOB/HY、DOB/SH、HY/SH和SH/SH;相容的基因型的完整集合在表9 中列出。第二个代码0101相应于相容性矩阵中的非对角线元素,表示不 精确的交叉匹配。只找到一个相容的基因型HY/HY。表4概述了所有相容 的基因型,以斜体字示出在不精确交叉匹配规则下相容的基因型。如果已 经知道受血者的表现型,则人们简单地跳过比对并从抗原代码开始。
实施例3:通过消除来减小模糊度:GATA-Duffy
在没有求解配子相的情况下,在两个双等位基因座处的杂合体一般意 味着模糊度。然而,在某些情况下,特别是当Hardy Weiberg平衡的缺乏 意味着非随机取样时,通过检查数据来求解模糊度也许是可能的。恰当的 例子是Fy-33的组合、Duffy的GATA盒中的沉默突变以及在FY125表示 FYA/FYB的标记。表10示出GATA突变和FYA/FYB的基因型频率,如 在未指明的种族起源的一组430个随机供血者中观察到的,在前述公布的 数据集合(Hashmi et al,同上)中,Hardy Weiberg平衡测试(在这里没有 示出)提议供血者群体被强烈地分层,排除了EM平衡的应用。然而,直 接检查提供了必不可少的判断力。因此,产生观察到的基因型的2-基因座 双等位基因组合{GATA,FY}连同观察到的频率(表10中下部的实验对象) 一起被列出(表10中的中间的实验对象)。容易指定表的所有元素,除了 (AB,AB)。沿着单倍型B-A的行和列检查观察到的基因型显示出没有 一个相应的组合(AB,AA)、(BB,AA)和(BB,AB)被观察到。这强 烈地指示单倍型B-A的缺乏和组合(A-A/B-B)的标识,以明确说明基因 型(AB,AB)。
实施例4:通过DNA定相来求解单倍型模糊度
本实施例示出定相的使用将模糊度减小到可接受的水平或将它完全 消除,当既不应用统计单倍型分析也不应用直接的视觉检查时,该定相求 解由在两个或多个双等位基因座处的杂合体产生的模糊度。如表4对前面 实施例的GATA-Duffy结构示出的,优选地以BeadChipTM形式(见美国申 请序列号11/257285;美国申请序列号10/271,602(″eMAP″))引起探针延长 的定相包括下列四个步骤:(a)在允许目标
退火到探针以便使两个探针的 3’末端与目标内的指定多态性位置对准的条件下,在颜色编码的念珠上提 供一对两个简并的探针;如对GATA-Fuffy(图4)所示的,一个探针(探 针W)的3’末端设计成互补于GATA野生型等位基因,而另一个探针(探 针M)的3’末端设计成互补于GATA突变的等位基因;(b)在适当的条件 下,允许目标(PCR
扩增子)杂交,以及DNA聚合酶如缺乏3’到5’核酸 外切酶活性的ThermoSequenase粘附并特别延长探针,该探针的3’末端互 补于目标,在本例中在FY-33处;(c)在严紧性条件下,分离DNA混合物; (d)任选地,清洗并去除目标绞合线;以及(e)通过混合到延长产物内所关 心的第二可变位置,本例中在FY125处来分析延长产物,两个检测探针, 一个例如以红
荧光色被标注为探针N并指向正常等位基因,另一个例如以 绿荧光色被标注为探针V并指向变体等位基因。探针优选地设计在分子标 志或环形探针(美国申请序列号10/032,657)的结构中,以便最小化溶液 中的荧光背景。图4示出可能的结果:如果显示探针W的念珠指示红色而 显示探针M的念珠指示绿色,则单倍型为W-N/M-V;相反,如果显示探 针W的念珠指示绿色而显示探针M的念珠指示红色,则单倍型为 W-V/M-N。两个杂合双等位基因单倍型的配子相因此被求解,且在观察到 的基因型与表现型的比对中的模糊度被消除。
实施例5:在非裔美国人供血者群体中从基因型得到的血型
本实施例介绍了在(自我识别的)非裔美国人供血者的小群体中输血 抗原基因型的未公布的数据集合的分析,并从群体遗传的观点证实了从基 因型得到的血型的正确性。
血液样本从纽约城的80个不相关的非裔美国人供血者收集,且DNA 分型使用18个等位基因特有的探针对来进行,以识别与Duffy、Lutheran、 MNS、KeIl、Kidd、Dombrock、Scianna、Diego、Colton和Landsteiner-Wiener 血型系统中的26个表现型相关的等位基因,以及与镰刀形红细胞疾病相 关的血色素突变,如前面报导的(Hashmi et al.,同上)。因为在Scianna, Diego,Colton,Landsteiner-Wiener系统和Hbs中没有观察到变体等位基因, 所以它们在本运用中被考虑为默认匹配的。
单倍型确定一通过使用程序PEDSTATS(Wigginton et al., Bioinformatics 200521(16):3445-3447)对SNP的选定集合执行准确的测 试,首先对Hardy-Weinberg平衡(HWE)测试所有标记的基因型数据。血 统文件构造成指示个体为不相关的。文件构造成包括标记名称。结果在所 有标记处显示平衡并显示p值<0.0005,p值范围从0.04到1,除GPA外, 其编码MNS组中的M/N抗原。来自HWE的可忽略的总偏差暗示来自取 样和基因分型的误差最小。然而相对于在实施例2中的数据集合中观察到 的超过300个的不同基因型,样本数量80很小,且实际实验总数在估计 从基因型得到的血型的频率中因此被预期为具有有限的可靠性。
本分析中的第一个步骤是重新构造基本的单倍型,并通过每个血型中 的基因计数和预期最大(″EM″)(Dempster et al,同上)来估计它们的频率。 EM算法适用于群体遗传,以通过考虑在确立的参数中间的相互依赖性知 识的迭代方法从基因型频率(在实验中确定的不完整的数据集合)估计单 倍型频率(基本的完整数据集合),在这种情况下,是通过基因计数;EM 的实现在程序HAPLORE(见实施例2中的引用)中提供。作为输入, HAPLORE使用从等位基因的可能组合构成的血统文件,该等位基因例如 用A表示正常(最普遍的)以及B表示变异。与连续EM迭代中单倍型频 率估计的增量相关提高有关的收敛标准设定为10-8,以及保持单倍型的频 率阈值设定为10-6。为了关联而测试不同基因中的单倍型和等位基因,发 现没有关联。十个最普遍的点突变集合或为非裔美国人这样建立的更广意 义的“单倍型”和基因型与其相关频率一起分别在表11和表12中列出。
从217个可能的组合中,发现在集合{GATA,FY,FY-265,GPA,GPB,K, Jk,DO-323,DO-350,DO-378,DO-624,DO-793,LU,SC,DI,CO,LW}范围 内限定的单倍型具有相当高的频率。发现具有23.2%的频率的最普遍的单 倍型为B-B-A-A-B-B-A-A-A-B-B-B~B~A~A~A~A,且发现10个最普遍的 单倍型占在试验群体中识别的所有单倍型的65%。代字号表示位于不同染 色体的SNP中的统计联系。发现具有6%的频率的最普遍的基因型为(BB, BB,AA,AB,BB,BB,AA,AA,AA,BB,BB,BB,BB,AA,AA,AA,AA)。10 个最普遍的基因型占试验群体中所有基因型的28%。
显著地,在所有44个识别的单倍型中,在FY-33T>C(Duffy GATA) 的突变与变体等位基因FY125G>A一起出现,暗示变体抗原Fyb(也见实 施例3)的沉默。也就是说,期望最大确认以前在血清分型(Reid & Lomas- Francis,同上)的基础上报导的观察,即,在非裔美国人中在{GATA,FY} 处的2-基因座GATA-Duffy基因型总是有相应于表现型Fy(a+b-)的双倍型 (A-A,B-B)。该观察解释了为什么都占Fy(a-b+)和Fy(a+b+)频率(Reid & Lomas-Francis,同上)在内的23%的编码抗原Fyb的血清上确定的频率比 变体FYA/FYB的91%的观察到的等位基因频率明显低。
比对-GATA-Duffy模糊度的求解允许表3和4中所示的明确的基因 型与表现性比对;在{GATA,FY}处的基因型(AB,AB)现在指定给在{Fya, Fyb}的抗原代码10。
血型表示法-依照表现型比对,每个血液样本接着被分匹配型代码, 在这种情况下优选地为16位串。抗原位按下列顺序排列:Fya,Fyb,Lua,Lub, M,N,S,s,K,k,Jka,Jkb,Doa,Dob,Hy,Jo(a)。如通过基因型与表现型和接着 通过表现型与血型比对导出的,20个最普遍的血型及其各自的频率在表 13中列出。检验导出的血型的准确性是比较通过目前的方法导出的表现型 频率与以前使用血清方法(Reid & Lomas-Francis,同上)通过直接表现分 型确立的表现型频率:如在表14中很明显,协定很好,特别是考虑到一 小群。确认的另一方法是比较从单倍型导出的频率与通过乘报导的表现型 频率导出的频率,假定通过纯随机的组合。图5以柱形统计图表表示法将 比较延伸到遇到的所有53个血型;以及图6显示两个频率集合之间的相 关性,进一步支持从基因型导出的血型的有效性;除反映区的小数量群的 统计
波动以外,在两个集合之间的其余差异可指示在选定实验对象中一些 等位基因中间的统计相关性。
由于本例中非常有限的样本数量,所识别的单倍型和频率在非裔美国 人中可能不是最有代表性的。事实上,我们在涉及超过在纽约地区的2000 个供血者的随后的大规模研究中得到组合和频率的稍微不同的集合。随 后,基因型与表现型比对易受一些微小变化的影响。这里公开的表格和例 子旨在说明本发明的原理。
实施例6:在非裔美国人群体中的交叉匹配
依照实施例5中的分析,通过评估在最频繁预测的血型中间的相容性 分数来构造相容性矩阵。表15示出在暂时过滤出部分相容的血型之后, 从非裔美国人的基因型导出的25个最普遍的血型的这样的矩阵。沿着对 角线的“1”指示自我相容的血型,表示根据精确交叉匹配规则的相容的 交叉匹配。如所讨论的,每种血型可相应于多个基因型,如结合表3-5讨 论的。非对角线的“1”表示根据不精确交叉匹配规则的相容交叉匹配。
例如,再次采用由十六进制代码c5D67或二进制代码 c0101110101100111识别的血型,即,(Fya-,Fyb+,Lua-,Lub+,M+,N+,S-,s+, K-,k+,Jka+,Jkb,Doa-,Dob+,Hy+,Jo(a)+),或表现型的组合(Fy(a-b+),Lu(a- b+),M+N+S-S+,K-k+,Jk(a+b-),Do(a-b+))。相容性矩阵识别三个相容的代 码,即,c1D67、c1967和c1567,其分别相应于血型,
(Fya,Fyb-,Lua-,Lub+,M+,N+,S-,s+,K-,k+,Jka+,Jkb-,Doa-,Dob+,Hy+,Jo(a)+),
(Fya-,Fyb-,Lua-,Lub+,M+,N-,S-,s+,K-,k+,Jka+,Jkb-,Doa-,Dob+,Hy+,Jo(a)+),
(Fya,Fyb-,Lua-,Lub+,M-,N+,S-,s+,K-,k+,Jka+,Jkb-,Doa-,Dob+,Hy+,Jo(a)+),
每个都分别以缺少一个抗原Fyb、缺少两个抗原Fyb和N以及缺少两个抗 原Fyb和M为特征。如通过合计相容血型的所有频率所示的,对于只有1.5% 的频率的血型,不精确交叉匹配规则的应用将找到相容供血者的几率增加 到22%,即使当仅仅考虑25个最频繁的供血者血型时。
部分相容性-部分相容性矩阵也使用范围从0到1的错配分数,为所 关心的抗原以如表1所示的递减的严重性程度的顺序构造。表16示出在 非裔美国人群体中25个最普遍的血型的矩阵,具有低于0.5的相容性分数 的所有元素设定为“0”(或仅仅保留空白)。注意,值为“1”的所有元素 与表11中的元素匹配;然而,在表11的矩阵中保留“空白”的几个域现 在显示相应于具有大于0.5的相容性分数的部分相容的供血者血型的有限 分数。此外,我们采用血液代码c5D67。在实施例5中,c5D67识别三个 相容的代码,即,c1D67、c1967和c1567。在本例中,除了那三个完全相 容的代码外,发现两个更多的代码,即,5F67和1F67是部分相容的,其 分别相应于血型,
(Fya,Fyb+,Lua-,Lub+,M+,N+,S+,s+,K-,k+,Jka+,Jkb-,Doa-,Dob+,Hy+,Jo(a)+),
(Fya,Fyb-,Lua-,Lub+,M+,N+,SH-,s+,K-,k+,Jka+,Jkb-,Doa,Dob+,Hy+,Jo(a)+);
与受血者代码c5D67相比,供血者代码c5F67包括适度变应的抗原S 和部分相容性分数0.625,暗示适度的可接受性。代码c1F67包括用于Duffy 的在不精确交叉匹配规则下相容的零表现型Fy(a-b-),并且还包括适度变 应的抗原S,使其受血者代码c5D67的总部分相容性变得可与c5F67的相 容性比较。
实施例7-在非裔美国人群体中快速搜索相容的供血者
假设具有血液代码c5D67的受血者对非裔美国人供血者库中相容的供 血者提出请求。可能相容的供血者血型的优先级列表首先通过在所建立的 相容性矩阵如表14中“查寻”来构造:指定给c5D67的行显示六个可能 相容的血型。接着,搜索列表被构造成包括最高优先级血液代码c5D67- 与受血者的血液代码相同,包含r匹配的按照其出现频率c1D67、c1967、 c1567和c5D67分类的中间优先级部分,以及包含c5F67和c1F67-部分 相容的血型的低优先级血型(p匹配)的第三部分。
实施例8:基因型交叉匹配和搜索
表17示出非裔美国人群体的基因型相容性矩阵,其从表16的血型相 容性矩阵得到并在实施例7和8中讨论。在新的矩阵中,行和列指定给基 因型,且在特定的行(受血者基因型)和列(供血者基因型)的交叉点处 的矩阵元素包括相应血型的相容性分数。表18示出非裔美国人群体中50 个最普遍的16-抗原次要血型基因型的基因型相容性矩阵。如表19所示, 对于具有给定基因型(0,-1,1,-1,0,-1,1,1,1,-1,-1,-1,-1,1,1,1,1)的患 者,在50个选择中相容的供血者基因型包括:一个e匹配,也就是相同的 代码,以及:
对于r匹配,也就是:
(-1,-1,1,-1,0,-1,1,1,1,-1,-1,-1,-1,1,1,1,1),;
(-1,-1,1,-1,1,-1,1,1,1,-1,-1,-1,-1,1,1,1,1),;
(-1,-1,1,-1,-1,-1,1,1,1,-1,-1,-1,-1,1,1,1,1);以及
(-1,-1,1,-1,0,-1,1,0,1,0,-1,-1,-1,1,1,1,1)
对于两个p匹配,也就是:
(0,-1,1,0,0,-1,1,1,1,-1,-1,-1,-1,1,1,1,1);以及
(-1,-1,1,0,0,-1,1,1,1,-1,-1,-1,-1,1,1,1,1)
实施例9:为纽约地区的实际高加索供血者库中的两个高加索个体找到相 容的血液
使用BeadChipTM平台来分析不同种族背景的多于2300个的可能供血 者的库。从DNA分析得到的表现型与由MNS、Lutheran、KeIl、Duffy、 Kidd、Dombrock和Colton血型系统的血凝确定的4,534对部分抗原中的 4,510对一致。在24个不一致的结果中,16个通过排序和有利于BeadChipTM 结果的RELP分析来求解。其它8个不一致的结果显示为由于GYPB的沉 默-相关的SNP随后被添加到HEA BeadChipTM系列的以后版本(见 Hashmi et al.,Determination of 24 Minor Red Blood Cell Antigens for More Than 2000 Blood Donors by High-Throughput DNA Analysis,Manuscript ID Trans-2006-0329,R 1,Transfusion,2006)。
两个高加索个体自愿让人分型其血液抗原。为了保持其匿名性,我们 将他们重新命名为“John”和“Cathy”。在集合{GATA,FY,FY-265,GPA,GPB, K,Jk,DO-323,DO-350,DO-378,DO-624,DO-793,LU,SC,DI,CO,LW}范 围内的DNA分型表明John具有类型(K-,k+,Fya+,Fyb+,M+,N-,S+,s+, Lua+,Lub+,Doa+,Dob+,Jo(a)+,Hy+,Lwa+,Lwb-,Dia-,Dib+,Coa+,Cob-, Sc1+,Sc2-)或二进制代码(c0111101111111110011010),而Cathy具有类型(K-, k+,Fya+,Fyb+,M+,N-,S-,s+,Lua-,Lub+,Doa-,Dob+,Jo(a)+,Hy+,Lwa+, Lwb-,Dia-,Dib+,Coa+,Cob-,Sc1+,Sc2-)或二进制代码 (c0101100101011110011010),John的血液是由于稀有正Lua抗原的稀有组 合,其相应的LUA等位基因只在3%的高加索人中观察到。如果匹配基于 8个抗原K、k、S、s、Fya、Fyb、Jka、Jkb,则John可从供血者库的1243 个高加索个体的子集中找到87个精确的匹配;然而,如果包括8个额外 的抗原M、N、Lua、Lub、Doa、Dob、Joa和Hy,则John可能在子集中只 找到一个精确的匹配。按照这里公开的方法,John的扩展类型的估计频率 在CAU区中仅为0.09%,与在CAU群中只找到一个匹配的观察一致。另 一方面,如果遵循不精确匹配规则,我们立即找到至少两个相容的血型, 其被预计在高加索人中以高频率出现,即,Lua为负的选项1(K-,k+,Fya+, Fyb+,M+,N-,S+,s+,Lua-,Lub+,Doa+,Dob+,Jo(a)+,Hy+,Lwa+,Lwb-,Dia-, Dib+,Coa+,Cob-,Sc1+,Sc2-,f=1.43%),或二进制代码 (c0111101101111110011010),以及Lua和Fy都为负的选项2(K-,k+,Fya-, Fyb+,M+,N-,S+,s+,Lua-,Lub+,Doa+,Dob+,Jo(a)+,Hy+,Lwa+,Lwb-,Dia-, Dib+,Coa+,Cob-,Sc1+,Sc2-,f=1.24%),或二进制代码 (c0101101101111110011010)。
表21通过使用在未决的
专利申请(Zhang et al,″A Transfusion Registry and Exchange Network,″US 11/412,667,Apr 27,2006,其通过引用被并入) 中公开的表达式来示出预测的交叉匹配概率,该申请在不同数量的随机征 集的供血者集合中找到至少一个交叉匹配的相容供血者。例如,在200个 随机选择的高加索供血者的组中找到任一血型的概率大于90%。在高加索 群组(N=1243)内的搜索为血型选项1和选项2分别产生10和7个匹配 的相容供血者,与预测一致。
Cathy的血型比具有0.53%的频率的John的血型更普遍。在200和400 个随机高加索供血者中预测的交叉匹配概率分别是66%和88%。在产生六 个16-抗原精确匹配的高加索子集中相容供血者的搜索再次与预测一致, 在取样波动的误差范围内。