首页 / 专利库 / 畜牧业 / 反刍动物 / 用于分析数据集的系统和方法

用于分析数据集的系统和方法

阅读:449发布:2020-05-11

专利汇可以提供用于分析数据集的系统和方法专利检索,专利查询,专利分析的服务。并且提供了用于分析数据集的系统和方法,其中获得表示多个克隆类型的数据集。所述数据集包含所述多个克隆类型中每个克隆类型的多个重叠群。每个重叠群包括链类型的指示、 条形码 (指示构建所述重叠群的多个细胞中的特定细胞)和共有序列。针对每个相应克隆类型,确定表示所述相应克隆类型的所述多个重叠群的百分比、绝对数或比例。在显示器的第一部分上提供第一二维 可视化 。所述可视化的一条轴线代表单独克隆类型,并且另一条轴线代表表示所述相应克隆类型的所述多个重叠群的所述百分比、所述绝对数或所述比例。在所述第一可视化的同时,还显示所述多个克隆类型的列表。,下面是用于分析数据集的系统和方法专利的具体信息内容。

1.一种系统,其包括一个或多个处理核、存储器和显示器,所述存储器存储用于执行用于使用所述一个或多个处理核分析一个或多个数据集的方法的指令,所述方法包括:
获得表示来自单个第一对象的第一多个细胞的第一数据集,其中
所述第一数据集表示第一多个克隆类型,
所述第一数据集包含所述第一多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:
所述相应重叠群的链类型的指示;
来自多个条形码的针对所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第一多个细胞中的相应细胞相关联;以及
所述相应细胞的mRNA的重叠群共有序列;
使用所述第一数据集确定所述第一多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例;
在所述显示器的第一部分上提供第一二维可视化,其中所述第一二维可视化的第一轴线代表所述第一多个克隆类型中的单独克隆类型,并且所述第一二维可视化的第二轴线代表表示相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例;以及在所述显示器的第二部分上提供所述第一多个克隆类型的列表。
2.根据权利要求1所述的系统,其中所述第一可视化为条形图。
3.根据权利要求1或2所述的系统,其中所述第一多个克隆类型中的相应克隆类型在所述二维可视化的所述第二轴线上按具有所述相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例排序。
4.根据权利要求1到3中任一项所述的系统,其中所述第一多个克隆类型中的相应克隆类型在所述列表中按具有所述相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例排序。
5.根据权利要求1到4中任一项所述的系统,其中所述第一多个细胞中的多于一个细胞具有所述第一多个克隆类型中的同一克隆类型。
6.根据权利要求1到5中任一项所述的系统,其中所述第一多个细胞中的多于十个细胞具有所述第一多个克隆类型中的同一克隆类型。
7.根据权利要求1到6中任一项所述的系统,其中所述第一多个克隆类型包括25个克隆类型,并且其中所述第一多个细胞包含所述第一多个克隆类型中的每个克隆类型的至少一个细胞。
8.根据权利要求1到6中任一项所述的系统,其中所述第一多个克隆类型包括100个克隆类型,并且其中所述第一多个细胞包含所述第一多个克隆类型中的每个克隆类型的至少一个细胞。
9.根据权利要求1到8中任一项所述的系统,其中所述第一多个细胞由来自所述单个第一对象的B细胞组成。
10.根据权利要求9所述的系统,其中所述列表包含所述第一多个克隆类型中的第一克隆类型的所述多个重叠群中的第一重叠群的以下各项:
所述第一重叠群中的V片段的标识符;
所述第一重叠群中的J区的标识符;和
所述第一重叠群中的C区的标识符。
11.根据权利要求10所述的系统,其中所述第一重叠群用于α链或γ链。
12.根据权利要求10所述的系统,其中所述第一重叠群用于β链或δ链,并且其中所述第一重叠群进一步包含所述第一重叠群中的D区的标识符。
13.根据权利要求1所述的系统,其中所述方法进一步包括:
在所述显示器上提供可供性(affordance),所述可供性允许用户将在所述第一二维可视化和所述列表中显示的克隆类型的数量限制为小于所述第一数据集中的所述第一多个克隆类型的数量。
14.根据权利要求1所述的系统,其中所述方法进一步包括提供第一可供性,其中当用户切换所述第一可供性时,所述第一二维可视化的显示被第二二维可视化代替,同时保持所述第一多个克隆类型的所述列表,
所述第二二维可视化提供用于选择由所述第一数据集表示的淋巴细胞受体的一个或多个基因的第一过滤器
所述第二二维可视化提供用于一个或多个链类型的第二过滤器,
所述第二二维可视化的第一轴线表示所述一个或多个单独基因,并且所述第二二维可视化的第二轴线表示所述第一数据集中存在的包含所述一个或多个单独基因——不论所述一个或多个单独基因如何结合到克隆类型中——的所述多个重叠群的所述百分比、所述绝对数或所述比例,
当用户切换所述第一过滤器时,选择所述一个或多个基因的同一性,并且
当用户切换所述第二过滤器时,选择一个或多个链类型,由此将所述第一数据集中存在的包含所述一个或多个单独基因的所述多个重叠群的所述百分比、所述绝对数或所述比例限制为由所述第二过滤器标识的所述一个或多个链类型中包含所述一个或多个单独基因的那些重叠群。
15.根据权利要求14所述的系统,其中
所述第一多个细胞由来自所述单个第一对象的B细胞组成,并且
所述一个或多个基因为V基因、D基因、J基因和C基因的任意组合。
16.根据权利要求1所述的系统,其中
所述第一多个细胞中的相应细胞的所述第一数据集中的所述第一多个克隆类型中的第一克隆类型的所述多个重叠群中的第一重叠群的长度介于600与800个基之间,并且通过覆盖所述第一重叠群的多个序列读段来确定,
所述多个序列读段的平均读段长度小于600个碱基,并且
所述多个序列读段中的每个序列读段具有相同的唯一分子标识符。
17.根据权利要求1到8中任一项所述的系统,其中所述第一多个细胞由来自所述单个第一对象的B细胞组成。
18.根据权利要求1到17中任一项所述的系统,其中所述单个第一对象为哺乳动物
19.根据权利要求1到17中任一项所述的系统,其中所述单个第一对象为哺乳动物、爬行动物、类、两栖动物、鱼类(fish)、有动物、反刍动物科动物、科动物、山羊类、绵羊类、猪、骆驼科动物、猴、猿、熊科动物、家禽、狗、猫、大鼠、鱼(fish)、海豚、鲸或鲨鱼。
20.根据权利要求1所述的系统,其中所述方法进一步包括提供第一可供性,其中当用户切换所述第一可供性时,所述第一二维可视化的显示被第二二维可视化代替,同时保持所述第一多个克隆类型的所述列表,
所述第二二维可视化提供用于选择由所述第一数据集表示的淋巴细胞受体的基因对的第一过滤器,
所述第二二维可视化提供用于一个或多个链类型的第二过滤器,
所述第二二维可视化的第一轴线表示所述基因对中的第一单独基因,并且所述第二二维可视化的第二轴线表示所述基因对中的第二单独基因,并且其中所述第二二维可视化中的多个二维单元格中与所述第一轴线和所述第二轴线相交的每个相应单元格指示由所述第一数据集中的所述第二过滤器指定的所述一个或多个链类型的重叠群的数量,所述第一数据集包含所述相应二维单元格的所述第一轴线上的所述相应基因和所述第二轴线上的所述相应基因。
21.根据权利要求20所述的系统,其中
所述第二二维可视化为热图,并且
所述热图提供以颜色编码格式提供由所述第一数据集中的所述第二过滤器指定的所述一个或多个链类型的重叠群的数量的数字指示的量表,所述第一数据集包含所述第二二维可视化的所述多个二维单元格中的每个二维单元格的所述第一轴线上的所述相应基因和所述第二轴线上的所述相应基因。
22.根据权利要求1所述的系统,其中所述方法进一步包括:
在所述显示器上提供一个或多个可供性,其中所述一个或多个可供性被配置成接收用户指定的选择标准;以及
响应于接收到所述用户指定的选择标准,将所述列表限制为所述第一多个克隆类型中与所述选择标准匹配的那些克隆类型,其中所述选择标准为至少一个重叠群、至少一个条形码、至少一个基酸序列或至少一个核酸序列。
23.根据权利要求22所述的系统,其中所述方法进一步包括:
响应于接收到所述用户指定的选择标准,进一步将所述第一二维可视化限于显示所述第一多个克隆类型中与所述选择标准匹配的那些克隆类型。
24.根据权利要求22所述的系统,其中所述选择标准包含通配符,由此匹配多于一个重叠群、条形码、氨基酸序列或核酸序列。
25.根据权利要求1所述的系统,其中
所述列表包含多个行,并且
所述多个行中的每个相应行指定所述第一多个克隆类型中的克隆类型的所述多个重叠群中的重叠群的链类型的指示,并且
所述方法进一步包括:
响应于用户对所述多个行中的某一行的选择,用由所选行表示的链的汇总信息板代替所述第一二维可视化的显示,同时保持所述列表的显示。
26.根据权利要求25所述的系统,其中所述汇总信息板包括:
参考序列,所述参考序列为所选链类型的公开精选序列,
来自所述第一数据集中包含所述所选链类型的所有重叠群的共有序列,
所述第一数据集中包含所述所选链类型的每个相应重叠群的表示,并且
所述板中的所述参考序列、所述共有序列、每个相应重叠群的每个表示占据所述板中的不同行,并且彼此按顺序对齐。
27.根据权利要求26所述的系统,其中相应重叠群的表示包含一个或多个指示符,其中所述一个或多个指示符包含所述相应重叠群的起始密码子、所述相应重叠群与所述共有序列之间的错配、所述相应重叠群中相对于所述共有序列所引起的缺失、所述相应重叠群的终止密码子或所述相应重叠群的编码区。
28.根据权利要求26所述的系统,其中响应于选择所述共有序列,所述方法进一步包括以被配置成供用户剪切并粘贴到在所述系统上运行的单独分开的应用中的格式显示整个共有序列。
29.根据权利要求26所述的系统,其中响应于选择在所述汇总信息板中显示的重叠群的表示,所述方法进一步包括显示关于所选重叠群的信息,所述信息包含以下中的一个或多个:所述重叠群的条形码、所述重叠群的标识符、支持所述重叠群的唯一分子标识符的数量、支持所述重叠群的序列读段的数量、所述重叠群的V基因的参考同一性、所述重叠群的D基因的参考同一性、所述重叠群的J基因的参考同一性和所述重叠群的C基因的参考同一性。
30.根据权利要求26所述的系统,其中
所述方法进一步包括显示切换键,并且
用户对所述切换键的选择将所述数据集中包含所述所选链类型的每个相应重叠群的所述表示
从(i)每个相应重叠群的图形表示和(ii)每个相应重叠群的序列中的一个切换到(i)每个相应重叠群的图形表示和(ii)每个相应重叠群的序列中的另一个。
31.根据权利要求26所述的系统,其中响应于选择在所述汇总信息板中显示的第一重叠群的表示,所述方法进一步包括显示多个序列读段中的每个序列读段与所述第一重叠群的比对,其中所述多个序列读段中的每个序列读段具有与所述第一重叠群相关联的唯一分子标识符。
32.根据权利要求31所述的系统,其中
多个唯一分子标识符与所述第一重叠群相关联,并且
所述方法进一步包括显示提供在(i)选择所述多个唯一分子标识符中的所有唯一分子标识符与(ii)选择所述多个唯一分子标识符中的单个唯一分子标识符之间进行选择的唯一分子标识符可供性,
当选择所述单个唯一分子标识符时,在多个序列读段中的每个序列读段与所述第一重叠群的所述比对中仅显示所述第一重叠群的具有所述单个唯一分子标识符的那些序列读段。
33.根据权利要求1所述的系统,其中所述方法进一步包括:
获得表示来自单个第二对象的第二多个细胞的第二数据集,其中
所述第二数据集表示第二多个克隆类型,
所述第二数据集包含所述第二多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:
所述相应重叠群的链类型的指示;
所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第二多个细胞中的相应细胞相关联;以及
所述相应细胞的mRNA的重叠群共有序列;
使用所述第二数据集确定所述第二多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第二多个细胞的百分比、绝对数或比例;
在成对克隆类型单细胞层面执行所述第一数据集与所述第二数据集的比较,所述比较对具有所述第一数据集中的给定克隆类型的与具有所述第二数据集中的同一克隆类型的细胞的克隆类型匹配的细胞数量进行评估,由此标识所述第一数据集与所述第二数据集之间的成对克隆类型共通性。
34.根据权利要求33所述的系统,其中所述第一数据集与所述第二数据集之间的所述成对克隆类型共通性为森下-霍恩(Morisita-Horn)度量。
35.根据权利要求33所述的系统,其中所述方法进一步包括显示所述第一多个克隆类型的子集中的每个克隆类型的以下各项:
表示所述第一数据集中的所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例,以及
表示所述第二数据集中的所述相应克隆类型的所述第二多个细胞的百分比、绝对数或比例。
36.根据权利要求35所述的系统,其中所述第一多个克隆类型的所述子集为所述第一多个克隆类型中各自至少由所述第一多个细胞的阈值百分比、绝对数或比例表示的那些克隆类型。
37.根据权利要求33所述的系统,其中所述方法进一步包括显示多个克隆类型元件中的每个相应克隆类型元件的以下各项:
所述第一数据集中包含所述相应克隆类型元件的所述重叠群的百分比、绝对数或比例,以及
所述第二数据集中包含所述相应克隆类型元件的所述重叠群的百分比、绝对数或比例。
38.根据权利要求37所述的系统,其中所述多个克隆类型元件中的每个克隆类型元件为不同的V基因序列。
39.根据权利要求37所述的系统,其中所述多个克隆类型元件中的每个克隆类型元件为不同的D基因序列。
40.根据权利要求37所述的系统,其中所述多个克隆类型元件中的每个克隆类型元件为不同的J基因序列。
41.根据权利要求37所述的系统,其中所述多个克隆类型元件中的每个克隆类型元件为不同的C基因序列。
42.根据权利要求33所述的系统,其中
所述第一多个细胞由来自所述单个第一对象的B细胞组成,并且
所述第二多个细胞由来自所述单个第二对象的B细胞组成,并且
所述方法进一步包括显示多个B细胞同种型中的每个相应B细胞同种型的以下各项:
所述第一数据集的具有所述相应B细胞同种型的百分比、绝对数或比例,以及所述第二数据集的具有所述相应B细胞同种型的百分比、绝对值或比例。
43.根据权利要求33到42中任一项所述的系统,其中所述单个第一对象和所述单个第二对象为同一对象。
44.根据权利要求33到42中任一项所述的系统,其中所述单个第一对象和所述单个第二对象为不同对象。
45.根据权利要求1所述的系统,其中所述方法进一步包括:
(A)获得表示来自单个第二对象的第二多个细胞的第二数据集,其中
所述第二数据集包括所述第二多个细胞中的每个相应细胞的多个基因中的每个基因的mRNA的对应离散属性值,
所述第二多个细胞中的每个相应细胞的多个基因中的每个基因的mRNA的每个相应离散属性值由所述多个条形码中的一个或多个条形码支持,并且
由所述第一数据集表示的所述第一多个细胞中的单独相应细胞存在于所述第二多个细胞中,并且能够通过所述多个条形码在所述第一数据集与所述第二数据集之间映射;
(B)使用所述第二多个细胞中的每个相应细胞的所述多个基因中的每个基因的mRNA的所述离散属性值或由此导出的主分量对所述第二数据集进行聚类,由此将所述第二多个细胞中的每个相应细胞分配给多个集群中的对应集群,其中
所述多个集群中的每个相应集群由所述第二多个细胞的唯一不同子集组成;
(C)通过选择所述第一多个细胞中映射到从所述多个集群中选择的集群中的所述第二多个细胞中的所述细胞上的那些细胞来选择所述第一多个细胞的子集;以及
(D)显示来自所述第一多个细胞的所述子集的所述第一数据集的克隆类型信息,而不显示所述第一多个细胞中处于所述第一多个细胞的所述子集之外的细胞的克隆类型信息。
46.根据权利要求45所述的系统,其中所述显示克隆类型信息包括提供第二二维可视化,其中
所述第二二维可视化的第一轴线代表在所述第一多个细胞的所述子集中表示的单独克隆类型,并且
所述二维可视化的第二轴线代表表示所述第一多个细胞的所述子集中的相应克隆类型的所述第一多个细胞的所述子集的百分比、绝对值或比例。
47.根据权利要求45所述的系统,其中所述单个第一对象和所述单个第二对象为同一对象。
48.根据权利要求45所述的系统,其中所述对所述第二数据集进行聚类包括层次聚类、使用最近邻算法进行的凝聚聚类、使用最远邻算法进行的凝聚聚类、使用平均联动算法进行的凝聚聚类、使用质心算法进行的凝聚聚类或使用平方和算法进行的凝聚聚类。
49.根据权利要求45所述的系统,其中所述对所述第二数据集进行聚类包括应用鲁汶(Louvain)模度算法、k-均值聚类、模糊k-均值聚类算法或Jarvis-Patrick聚类。
50.根据权利要求45所述的系统,其中所述对所述第二数据集进行聚类包括将所述离散属性值数据集k均值聚类成预定集群数量。
51.根据权利要求50所述的系统,其中所述预定集群数量为介于2与50之间的整数。
52.一种用于分析一个或多个数据集的方法,所述方法包括:
在包括存储器、处理器和显示器的计算机系统处:
使用所述处理器获得表示来自单个第一对象的第一多个细胞的第一数据集,其中所述第一数据集表示第一多个克隆类型,
所述第一数据集包含所述第一多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:
所述相应重叠群的链类型的指示;
来自多个条形码的针对所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第一多个细胞中的相应细胞相关联;以及
所述相应细胞的mRNA的重叠群共有序列;
使用所述第一数据集和所述处理器确定所述第一多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例;
在所述显示器的第一部分上提供第一二维可视化,其中所述第一二维可视化的第一轴线代表所述第一多个克隆类型中的单独克隆类型,并且所述第一二维可视化的第二轴线代表表示相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例;以及在所述显示器的第二部分上提供所述第一多个克隆类型的列表。
53.一种非暂时性计算机可读存储介质,其中所述非暂时性计算机可读存储介质存储指令,所述指令当由具有显示器的计算机系统执行时使所述计算机系统执行用于分析一个或多个数据集的方法,所述方法包括:
获得表示来自单个第一对象的第一多个细胞的第一数据集,其中
所述第一数据集表示第一多个克隆类型,
所述第一数据集包含所述第一多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:
所述相应重叠群的链类型的指示;
来自多个条形码的针对所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第一多个细胞中的相应细胞相关联;以及
所述相应细胞的mRNA的重叠群共有序列;
使用所述第一数据集确定所述第一多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例;
在所述显示器的第一部分上提供第一二维可视化,其中所述第一二维可视化的第一轴线代表所述第一多个克隆类型中的单独克隆类型,并且所述第一二维可视化的第二轴线代表表示相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例;以及在所述显示器的第二部分上提供所述第一多个克隆类型的列表。

说明书全文

用于分析数据集的系统和方法

[0001] 相关申请的交叉引用
[0002] 本申请要求于2017年5月19日提交的题为“用于分析数据集的系统和方法(Systems and Methods for Analyzing Datasets)”的美国临时专利申请号62/508,947和于2017年11月7日提交的题为“用于分析数据集的系统和方法”的美国临时专利申请号62/582,866的优先权,所述专利申请中的每一个通过引用结合在此。

技术领域

[0003] 本说明书描述了与分析数据集有关的技术。

背景技术

[0004] 数据集中模式的发现促进了许多技术应用,如在生物学领域对RNA提取协议的验证和使得在单个细胞中对mRNA进行mRNA测序的相关方法。此类技术使得在单个数据集中的数百甚至数千个单个细胞中进行高通量转录物鉴定和基因测序。因此,在本领域中,已经产生了包含属性值(例如映射到特定细胞中的单独基因的转录物读段(transcript read))的数据集。尽管这是本领域的重大进步,但是需要解决许多技术问题以使此类数据更加有用。
[0005] 特别是,适应性人类免疫系统由B细胞和T细胞构成。在T细胞和B细胞发育过程中,这些细胞表达用于识别病原体的独特异二聚体受体。这些受体链中的每一条都是通过体细胞重新布置过程产生的,体细胞重新布置过程将TCR基因和BCR基因的不同片段连接并产生新型基因。这种连接过程是不精确的,因为在连接位点插入了非模板核苷酸(N核苷酸),以及参与重新布置的种系基因中3'-和5'-核苷酸缺失。这种随机核苷酸插入或缺失的区域称为第三互补决定区(CDR3)。所得的CDR3具有对所述特定B细胞或T细胞及其所有子代具有特异性的独特核苷酸序列。因此,所述受体的克隆类型性质。CDR3为这些受体中与完整可溶性抗原(B细胞)或细胞内加工抗原相互作用最密切的部分,这些抗原以在MHC分子(T细胞)中加载的免疫原性肽的形式存在。见Yassai等人,2009,“T细胞受体克隆类型命名法(A clonotype nomenclature for T-cell receptors)”,《免疫遗传学(Immunogenetics)》,61,第493-502页。考虑到产生大量数据的能,本领域需要用于分析此类数据的改进的系统和方法。
发明内容
[0006] 在本公开中提供了用于解决上述分析数据集存在的问题的技术解决方案(例如,计算系统、方法和非暂时性计算机可读存储介质)。
[0007] 下文呈现了本发明的概述,以便提供对本发明的一些方面的基本理解。此概述不是本发明的广泛概要。此概述并不旨在标识本发明的关键/关键要素或描绘本发明的范围。此概述的唯一目的是以简化的形式呈现本发明的概念中的一些作为对之后所呈现的更加详细的说明的序言。
[0008] 本公开的一个方面提供了一种系统,其包括一个或多个处理核、存储器和显示器,所述存储器存储用于执行用于使用所述一个或多个处理核分析一个或多个数据集的方法的指令。所述方法包括获得表示来自单个第一对象的第一多个细胞的第一数据集。所述第一数据集表示第一多个克隆类型。所述第一数据集包含所述第一多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:所述相应重叠群的链类型的指示;来自多个条形码的针对所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第一多个细胞中的相应细胞相关联;以及所述相应细胞的mRNA的重叠群共有序列。在所述方法中,使用所述第一数据集确定所述第一多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例。在所述显示器的第一部分上提供第一二维可视化。所述第一二维可视化的第一轴线代表所述第一多个克隆类型中的单独克隆类型,并且所述第一二维可视化的第二轴线代表表示相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例。在所述显示器的第二部分上提供所述第一多个克隆类型的列表。
[0009] 在一些实施例中,所述第一可视化为条形图。
[0010] 在一些实施例中,所述第一多个克隆类型中的相应克隆类型在所述二维可视化的所述第二轴线上按具有所述相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例排序。
[0011] 在一些实施例中,所述第一多个克隆类型中的相应克隆类型在所述列表中按具有所述相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例排序。
[0012] 在一些实施例中,所述第一多个细胞中的多于一个细胞具有所述第一多个克隆类型中的同一克隆类型。在一些实施例中,所述第一多个细胞中的多于十个细胞具有所述第一多个克隆类型中的同一克隆类型。
[0013] 在一些实施例中,所述第一多个克隆类型包括25个克隆类型,并且所述第一多个细胞包含所述第一多个克隆类型中的每个克隆类型的至少一个细胞。
[0014] 在一些实施例中,所述第一多个克隆类型包括100个克隆类型,并且所述第一多个细胞包含所述第一多个克隆类型中的每个克隆类型的至少一个细胞。
[0015] 在一些实施例中,所述第一多个细胞由来自所述单个第一对象的B细胞组成。
[0016] 在一些实施例中,所述列表包含所述第一多个克隆类型中的第一克隆类型的所述多个重叠群中的第一重叠群的以下各项:所述第一重叠群中的V片段的标识符;所述第一重叠群中的J区的标识符;和所述第一重叠群中的C区的标识符。在一些此类实施例中,所述第一重叠群用于α链或γ链。在一些实施例中,所述第一重叠群用于β链或δ链,并且所述第一重叠群进一步包含所述第一重叠群中的D区的标识符。
[0017] 在一些实施例中,所述方法进一步包括在所述显示器上提供可供性(affordance),所述可供性允许用户将在所述第一二维可视化和所述列表中显示的克隆类型的数量限制为小于所述第一数据集中的所述第一多个克隆类型的数量。
[0018] 在一些实施例中,所述方法进一步包括提供第一可供性,其中当用户切换所述第一可供性时,所述第一二维可视化的显示被第二二维可视化代替,同时保持所述第一多个克隆类型的所述列表。在此类实施例中,所述第二二维可视化提供用于选择由所述第一数据集表示的淋巴细胞受体的一个或多个基因的第一过滤器,所述第二二维可视化还提供用于一个或多个链类型的第二过滤器。所述第二二维可视化的第一轴线表示一个或多个单独基因。所述第二二维可视化的第二轴线表示所述第一数据集中存在的包含所述一个或多个单独基因——不论所述一个或多个单独基因如何结合到克隆类型中——的所述多个重叠群的所述百分比、所述绝对数或所述比例。当用户切换所述第一过滤器时,选择所述一个或多个基因的同一性。当用户切换所述第二过滤器时,选择一个或多个链类型,由此将所述第一数据集中存在的包含所述一个或多个单独基因的所述多个重叠群的所述百分比、所述绝对数或所述比例限制为由所述第二过滤器标识的所述一个或多个链类型中包含所述一个或多个单独基因的那些重叠群。在一些此类实施例中,所述第一多个细胞由来自所述单个第一对象的B细胞组成,并且所述一个或多个基因为V基因、D基因、J基因和C基因的任意组合。
[0019] 在一些实施例中,所述第一多个细胞中的相应细胞的所述第一数据集中的所述第一多个克隆类型中的第一克隆类型的所述多个重叠群中的第一重叠群的长度介于600与800个基之间,并且通过覆盖所述第一重叠群的多个序列读段来确定,所述多个序列读段的平均读段长度小于600个碱基,并且所述多个序列读段中的每个序列读段具有相同的唯一分子标识符。
[0020] 在一些实施例中,所述第一多个细胞由来自所述单个第一对象的B细胞组成。
[0021] 在一些实施例中,所述单个第一对象为哺乳动物
[0022] 在一些实施例中,所述单个第一对象为哺乳动物、爬行动物、类、两栖动物、鱼类、有动物、反刍动物科动物、科动物、山羊类、绵羊类、猪、骆驼科动物、猴、猿、熊科动物、家禽、狗、猫、大鼠、鱼、海豚、鲸或鲨鱼。
[0023] 在一些实施例中,所述方法进一步包括提供第一可供性,其中当用户切换所述第一可供性时,所述第一二维可视化的显示被第二二维可视化代替,同时保持所述第一多个克隆类型的所述列表,所述第二二维可视化提供用于选择由所述第一数据集表示的淋巴细胞受体的基因对的第一过滤器,所述第二二维可视化提供用于一个或多个链类型的第二过滤器,所述第二二维可视化的第一轴线表示所述基因对中的第一单独基因,并且所述第二二维可视化的第二轴线表示所述基因对中的第二单独基因,并且其中所述第二二维可视化中的多个二维单元格中与所述第一轴线和所述第二轴线相交的每个相应单元格指示由所述第一数据集中的所述第二过滤器指定的所述一个或多个链类型的重叠群的数量,所述第一数据集包含所述相应二维单元格的所述第一轴线上的所述相应基因和所述第二轴线上的所述相应基因。在一些此类实施例中,所述第二二维可视化为热图,并且所述热图提供以颜色编码格式提供由所述第一数据集中的所述第二过滤器指定的所述一个或多个链类型的重叠群的数量的数字指示的量表,所述第一数据集包含所述第二二维可视化的所述多个二维单元格中的每个二维单元格的所述第一轴线上的所述相应基因和所述第二轴线上的所述相应基因。
[0024] 在一些实施例中,所述方法进一步包括在所述显示器上提供一个或多个可供性,其中所述一个或多个可供性被配置成接收用户指定的选择标准。响应于接收到所述用户指定的选择标准,将所述列表限于所述第一多个克隆类型中与所述选择标准匹配的那些克隆类型。此外,所述选择标准为至少一个重叠群、至少一个条形码、至少一个基酸序列或至少一个核酸序列。
[0025] 在一些实施例中,响应于接收到所述用户指定的选择标准,进一步将所述第一二维可视化限于显示所述第一多个克隆类型中与所述选择标准匹配的那些克隆类型。
[0026] 在一些实施例中,所述选择标准包含通配符,由此匹配多于一个重叠群、条形码、氨基酸序列或核酸序列。
[0027] 在一些实施例中,所述列表包含多个行,并且所述多个行中的每个相应行指定所述第一多个克隆类型中的克隆类型的所述多个重叠群中的重叠群的链类型的指示。在此类实施例中,所述方法进一步包括:响应于用户对所述多个行中的某一行的选择,用由所选行表示的链的汇总信息板代替所述第一二维可视化的显示,同时保持所述列表的显示。在一些此类实施例中,所述汇总信息板包括:参考序列,所述参考序列为所选链类型的公开精选序列,来自所述第一数据集中包含所述所选链类型的所有重叠群的共有序列,所述第一数据集中包含所述所选链类型的每个相应重叠群的表示,并且所述板中的所述参考序列、所述共有序列、每个相应重叠群的每个表示占据所述板中的不同行,并且彼此按顺序对齐。在一些实施例中,相应重叠群的表示包含一个或多个指示符,其中所述一个或多个指示符包含所述相应重叠群的起始密码子、所述相应重叠群与所述共有序列之间的错配、所述相应重叠群中相对于所述共有序列所引起的缺失、所述相应重叠群的终止密码子或所述相应重叠群的编码区。在一些此类实施例中,响应于选择所述共有序列,所述方法进一步包括以被配置成供用户剪切并粘贴到在所述系统上运行的单独分开的应用中的格式显示整个共有序列。
[0028] 在一些实施例中,响应于选择在所述汇总信息板中显示的重叠群的表示,所述方法进一步包括显示关于所选重叠群的信息,所述信息包含以下中的一个或多个:所述重叠群的条形码、所述重叠群的标识符、支持所述重叠群的唯一分子标识符的数量、支持所述重叠群的序列读段的数量、所述重叠群的V基因的参考同一性、所述重叠群的D基因的参考同一性、所述重叠群的J基因的参考同一性和所述重叠群的C基因的参考同一性。
[0029] 在一些实施例中,所述方法进一步包括显示切换键,用户对所述切换键的选择将所述数据集中包含所述所选链类型的每个相应重叠群的所述表示从(i)每个相应重叠群的图形表示和(ii)每个相应重叠群的序列中的一个切换到(i)每个相应重叠群的图形表示和(ii)每个相应重叠群的序列中的另一个。
[0030] 在一些实施例中,响应于选择在所述汇总信息板中显示的第一重叠群的表示,所述方法进一步包括显示多个序列读段中的每个序列读段与所述第一重叠群的比对,其中所述多个序列读段中的每个序列读段具有与所述第一重叠群相关联的唯一分子标识符。在一些实施例中,多个唯一分子标识符与所述第一重叠群相关联,并且所述方法进一步包括显示提供在(i)选择所述多个唯一分子标识符中的所有唯一分子标识符与(ii)选择所述多个唯一分子标识符中的单个唯一分子标识符之间进行选择的唯一分子标识符可供性,当选择所述单个唯一分子标识符时,在多个序列读段中的每个序列读段与所述第一重叠群的所述比对中仅显示所述第一重叠群的具有所述单个唯一分子标识符的那些序列读段。
[0031] 在一些实施例中,所述方法进一步包括获得表示来自单个第二对象的第二多个细胞的第二数据集,其中所述第二数据集表示第二多个克隆类型,所述第二数据集包含所述第二多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:所述相应重叠群的链类型的指示;所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第二多个细胞中的相应细胞相关联;以及所述相应细胞的mRNA的重叠群共有序列。在所述方法中,使用所述第二数据集确定所述第二多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第二多个细胞的百分比、绝对数或比例。此外,在所述方法中,在成对克隆类型单细胞层面执行所述第一数据集与所述第二数据集的比较,所述比较对具有所述第一数据集中的给定克隆类型的与具有所述第二数据集中的同一克隆类型的细胞的克隆类型匹配的细胞数量进行评估,由此标识所述第一数据集与所述第二数据集之间的成对克隆类型共通性。在一些此类实施例中所述第一数据集与所述第二数据集之间的所述成对克隆类型共通性为森下-霍恩(Morisita-Horn)度量。在一些此类实施例中,所述方法进一步包括显示所述第一多个克隆类型的子集中的每个克隆类型的以下各项:表示所述第一数据集中的所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例,以及表示所述第二数据集中的所述相应克隆类型的所述第二多个细胞的百分比、绝对数或比例。在一些实例中,所述第一多个克隆类型的所述子集为所述第一多个克隆类型中各自至少由所述第一多个细胞的阈值百分比、绝对数或比例表示的那些克隆类型。
[0032] 在一些实施例中,所述方法进一步包括显示多个克隆类型元件中的每个相应克隆类型元件的以下各项:所述第一数据集中包含所述相应克隆类型元件的所述重叠群的百分比、绝对数或比例,以及所述第二数据集中包含所述相应克隆类型元件的所述重叠群的百分比、绝对数或比例。在一些此类实施例中,所述多个克隆类型元件中的每个克隆类型元件为不同的V基因序列。在一些实施例中,所述多个克隆类型元件中的每个克隆类型元件为不同的D基因序列。在一些实施例中,所述多个克隆类型元件中的每个克隆类型元件为不同的J基因序列。在一些实施例中,所述多个克隆类型元件中的每个克隆类型元件为不同的C基因序列。
[0033] 在一些实施例中,所述第一多个细胞由来自所述单个第一对象的B细胞组成,所述第二多个细胞由来自所述单个第二对象的B细胞组成,并且所述方法进一步包括显示多个B细胞同种型中的每个相应B细胞同种型的以下各项:所述第一数据集的具有所述相应B细胞同种型的百分比、绝对数或比例,以及所述第二数据集的具有所述相应B细胞同种型的百分比、绝对值或比例。
[0034] 在一些实施例中,所述单个第一对象和所述单个第二对象为同一对象。
[0035] 在一些实施例中,所述单个第一对象和所述单个第二对象为不同对象。
[0036] 在一些实施例中,所述方法进一步包括获得表示来自单个第二对象的第二多个细胞的第二数据集,其中所述第二数据集包括所述第二多个细胞中的每个相应细胞的多个基因中的每个基因的mRNA的对应离散属性值,所述第二多个细胞中的每个相应细胞的多个基因中的每个基因的mRNA的每个相应离散属性值由所述多个条形码中的一个或多个条形码支持,并且由所述第一数据集表示的所述第一多个细胞中的单独相应细胞存在于所述第二多个细胞中,并且能够通过所述多个条形码在所述第一数据集与所述第二数据集之间映射。在所述方法中,使用所述第二多个细胞中的每个相应细胞的所述多个基因中的每个基因的mRNA的所述离散属性值或由此导出的主分量对所述第二数据集进行聚类,由此将所述第二多个细胞中的每个相应细胞分配给多个集群中的对应集群,其中所述多个集群中的每个相应集群由所述第二多个细胞的唯一不同子集组成。在所述方法中,通过选择所述第一多个细胞中映射到从所述多个集群中选择的集群中的所述第二多个细胞中的所述细胞上的那些细胞来选择所述第一多个细胞的子集。在所述方法中,显示来自所述第一多个细胞的所述子集的所述第一数据集的克隆类型信息,而不显示所述第一多个细胞中处于所述第一多个细胞的所述子集之外的细胞的克隆类型信息。在一些此类实施例中,所述显示克隆类型信息包括提供第二二维可视化,其中所述第二二维可视化的第一轴线代表在所述第一多个细胞的所述子集中表示的单独克隆类型,并且所述二维可视化的第二轴线(例如正交于第一轴线)代表表示所述第一多个细胞的所述子集中的相应克隆类型的所述第一多个细胞的所述子集的百分比、绝对值或比例。
[0037] 在一些实施例中,所述单个第一对象和所述单个第二对象为同一对象。
[0038] 在一些实施例中,对所述第二数据集进行聚类包括层次聚类、使用最近邻算法进行的凝聚聚类、使用最远邻算法进行的凝聚聚类、使用平均联动算法进行的凝聚聚类、使用质心算法进行的凝聚聚类或使用平方和算法进行的凝聚聚类。
[0039] 在一些实施例中,所述对所述第二数据集进行聚类包括应用鲁汶(Louvain)模度算法、k-均值聚类、模糊k-均值聚类算法或Jarvis-Patrick聚类。
[0040] 在一些实施例中,所述对所述第二数据集进行聚类包括将所述离散属性值数据集k均值聚类成预定集群数量。在一些此类实施例中,所述预定集群数量为介于2与50之间的整数。
[0041] 本公开的另一方面提供了一种用于分析一个或多个数据集的方法。所述方法包括在包括存储器、处理器和显示器的计算机系统处:使用所述处理器获得表示来自单个第一对象的第一多个细胞的第一数据集,其中所述第一数据集表示第一多个克隆类型,所述第一数据集包含所述第一多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:所述相应重叠群的链类型的指示;来自多个条形码的针对所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第一多个细胞中的相应细胞相关联;以及所述相应细胞的mRNA的重叠群共有序列。在所述方法中,使用所述第一数据集和所述处理器确定所述第一多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例。此外,在所述方法中,在所述显示器的第一部分上提供第一二维可视化。所述第一二维可视化的第一轴线代表所述第一多个克隆类型中的单独克隆类型,并且所述第一二维可视化的第二轴线代表表示相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例。此外,在所述方法中,在所述显示器的第二部分上提供所述第一多个克隆类型的列表。
[0042] 本公开的又另一方面提供了一种非暂时性计算机可读存储介质。所述非暂时性计算机可读存储介质存储指令,所述指令当由具有显示器的计算机系统执行时使所述计算机系统执行用于分析一个或多个数据集的方法,所述方法包括:获得表示来自单个第一对象的第一多个细胞的第一数据集,其中所述第一数据集表示第一多个克隆类型,所述第一数据集包含所述第一多个克隆类型中的每个相应克隆类型的多个重叠群。所述多个重叠群中的每个相应重叠群包括:所述相应重叠群的链类型的指示;来自多个条形码的针对所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第一多个细胞中的相应细胞相关联;以及所述相应细胞的mRNA的重叠群共有序列。在所述方法中,使用所述第一数据集确定所述第一多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例。此外,在所述方法中,在所述显示器的第一部分上提供第一二维可视化,其中所述第一二维可视化的第一轴线代表所述第一多个克隆类型中的单独克隆类型,并且所述第一二维可视化的第二轴线代表表示相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例。此外,在所述方法中,在所述显示器的第二部分上提供所述第一多个克隆类型的列表。
[0043] 所附权利要求范围内的系统、方法和装置的各个实施例各自均具有若干个方面,其中并非仅靠任何单一方面来负责本文所述的期望的属性。在不限制所附权利要求的范围的情况下,本文描述了一些突出的特征。在考虑了这一讨论之后,特别是在阅读了题为“具体实施方式”的部分之后,人们将理解如何使用各个实施例的特征。
[0044] 通过引用结合
[0045] 本说明书中所提到的所有出版物、专利和专利申请均通过引用其全文结合在此,其程度就如同明确且单独地指明了每一个单独的出版物、专利或专利申请通过引用结合。附图说明
[0046] 在附图的图中,通过实例而非限制的方式示出了本文公开的实施方案。贯穿附图的若干视图,相似的附图标记指代对应的部分。
[0047] 图1是展示根据一些实施方案的计算装置的示例框图
[0048] 图2展示了根据一些实施例的用于获取数据集的用户接口
[0049] 图3展示了根据一些实施例的用于将克隆类型丰度可视化为细胞群中克隆类型频率的函数的示例显示。
[0050] 图4展示了根据一些实施例的用于将克隆类型丰度可视化为细胞群中克隆类型比例的函数的示例显示。
[0051] 图5展示了根据一些实施例的用于可视化细胞群中跨T细胞受体α链和T细胞受体β链的V区使用情况的示例显示。
[0052] 图6展示了根据一些实施例的用于可视化由克隆类型数据集表示的细胞群中个体T细胞受体α链和T细胞受体β链的特定V区/J区对的数量的示例显示。
[0053] 图7展示了根据一些实施例的用于输入用于筛选数据集的搜索标准的示例显示。
[0054] 图8展示了根据一些实施例的用于输入用于筛选数据集的搜索标准的示例显示。
[0055] 图9展示了根据一些实施例的重叠群共有序列的比对,从而为所选克隆类型的所选链形成链共有序列。
[0056] 图10展示了根据一些实施例的重叠群共有序列与参考序列或所选克隆类型的所选链的链共有序列的比对。
[0057] 图11展示了根据一些实施例的关于所选克隆类型的所选链的链共有序列的附加信息的显示。
[0058] 图12展示了根据一些实施例的关于所选克隆类型的所选链的所选重叠群的重叠群共有序列的附加信息的显示。
[0059] 图13展示了根据一些实施例的使用可供性选择特定CDR3氨基酸序列的用户输入,从而获得或突出显示包含输入的CDR3氨基酸序列的重叠群。
[0060] 图14展示了根据一些实施例的通过选择可供性用户可以如何切换到核酸序列视图,在所述视图中,在选择所述可供性之后,支持所选克隆类型的所选链的每个重叠群的重叠群共有序列与所述链的链共有序列一起显示。
[0061] 图15展示了根据一些实施例的在所述链的共有序列下方的支持所选克隆类型的所选链的六个重叠群中的每一个的重叠群共有序列,其中所述链的共有序列由六个重叠群共有序列形成。
[0062] 图16展示了根据一些实施例选择可供性以将重叠群的所述重叠群共有序列呈现到序列视图中,并将其放大到关注的特定特征。
[0063] 图17展示了根据一些实施例的可供性的选择,从而使得显示跳转到所选克隆类型的所选链的各个区,如所述链的V部分、D部分、J部分、C部分或CDR3部分。
[0064] 图18展示了根据一些实施例如何显示所选克隆类型的所选链的所选重叠群的重叠群共有序列的读段支持。
[0065] 图19展示了根据一些实施例如何获得比对文件,以便显示所选克隆类型的所选链的所选重叠群的读段支持。
[0066] 图20展示了根据一些实施例如何通过提供比对文件的统一资源位置来获得所述比对文件,以便显示所选克隆类型的所选链的所选重叠群的重叠群共有序列的读段支持。
[0067] 图21展示了根据一些实施例在逐唯一分子标识符的基础上所选克隆类型的所选链的所选重叠群的重叠群共有序列的读段支持。
[0068] 图22进一步展示了根据一些实施例,如何在逐唯一分子标识符的基础上为所选克隆类型的所选链的所选重叠群的重叠群共有序列选择读段支持。
[0069] 图23展示了根据一些实施例,如何获得关于支持所选克隆类型的所选链的所选重叠群的重叠群共有序列的特定序列读段的更多信息。
[0070] 图24展示了根据一些实施例如何同时检索多个克隆类型数据集以进行比较分析。
[0071] 图25展示了根据一些实施例,如何选择图24的检索到的克隆类型数据集以进行比较分析。
[0072] 图26展示了根据一些实施例的图25的四个克隆类型数据集的成对比较,所述比较示出了使用森下-霍恩度量的四个克隆类型数据集中的单个克隆类型数据集对之间的成对克隆类型共通性。
[0073] 图27展示了根据一些实施例的图25的四个克隆类型数据集的成对比较,所述比较示出了使用相交单元格(intersection cell)度量的四个克隆类型数据集中的单个克隆类型数据集对之间的成对克隆类型共通性。
[0074] 图28针对对于图25的四个克隆类型数据集中的参考克隆类型数据集(44914)展示了根据一些实施例的参考克隆类型数据集中的前N个所表示的克隆类型中的每个相应克隆类型的比例和图25的其它克隆类型数据集中的排前的克隆类型中的每一个的对应比例。
[0075] 图29针对图25的四个克隆类型数据集的每一个展示了根据一些实施例的每个相应克隆类型数据集中前10个所表示的克隆类型中的克隆类型的比例、每个相应克隆类型数据集中前10个所表示的克隆类型之外的克隆类型的比例以及每个相应克隆类型数据集中非克隆类型的细胞的比例。
[0076] 图30展示了根据一些实施例用户如何选择图25的所述四个克隆类型数据集中的两个以进行进一步的克隆类型比较分析。
[0077] 图31在原始细胞计数和百分比细胞计数方面以表格形式展示了根据一些实施例的图30中两个克隆类型数据集跨两个克隆类型数据集中所表示的克隆类型的并排克隆类型细胞计数。
[0078] 图32以图形比例格式展示了根据一些实施例的图30的跨两个克隆类型数据集中所表示的克隆类型的两个克隆类型数据集之间的共通性。
[0079] 图33针对图25的所述四个克隆类型数据集中的每一个展示了根据一些实施例的相应D基因跨每个相应克隆类型数据集的相对频率。
[0080] 图34针对图25的所述四个克隆类型数据集中的每一个展示了根据一些实施例的相应D基因跨每个相应克隆类型数据集的相对频率。
[0081] 图35针对图25的所述四个克隆类型数据集中的每一个展示了根据一些实施例的相应J基因跨每个相应克隆类型数据集的相对频率。
[0082] 图36针对图25的所述四个克隆类型数据集中的每一个展示了根据一些实施例的相应C基因跨每个相应克隆类型数据集的相对频率。
[0083] 图37针对两个所选克隆类型数据集展示了根据一些实施例的重链同种型和轻链同种型跨所述两个所选克隆类型数据集的相对分布。
[0084] 图38针对两个所选克隆类型数据集展示了根据一些实施例的重链加轻链成对组合跨所述两个所选克隆类型数据集的相对分布。
[0085] 图39针对两个选择的克隆类型数据集展示了根据一些实施例的在选择图30的“克隆类型比较”可供性之后呈表格形式的两个所选克隆类型数据集之间克隆类型层面的比较,所述比较指示具有每个克隆类型的两个所选克隆类型数据集中的每一个中的细胞的数量和比例,并且对于每个该种相应克隆类型指示V基因、D基因、J基因和C基因的同一性和所述相应克隆类型的CDR3区的氨基酸序列。
[0086] 图40展示了根据一些实施例的在打开多个克隆类型数据集并同时对其进行分析的同时如何加载来自经过聚类的数据集的集群。
[0087] 图41展示了根据一些实施例的在打开多个克隆类型数据集并同时对其进行分析的同时对用于加载的经过聚类的数据集的选择。
[0088] 图42展示了根据一些实施例的获得用于比较基因表达集群之间克隆类型分布的克隆类型比较视图的信息。
[0089] 图43展示了根据一些实施例的选择用于比较基因表达集群之间克隆类型分布的克隆类型比较视图的基因表达集群。
[0090] 图44展示了根据一些实施例的跨图25的四个克隆类型数据集群的CRC_aggr2经聚类数据集内的图43中选择的基因表达集群中的细胞之间的克隆类型比较。
[0091] 图45针对单克隆类型数据集“44914-CRC_1_UB”展示了根据一些实施例的通过来自所述CRC_aggr2经聚类数据集的基因表达集群筛选克隆类型列表。
[0092] 图46展示了根据一些实施例的在单个选择的克隆类型数据集中具有链式过滤器的单链CDR3丰度图。
[0093] 图47展示了根据一些实施例的单个选择的克隆类型数据集内的D基因使用情况图表。
[0094] 图48展示了根据一些实施例的单个选择的克隆类型数据集内的C基因使用情况图表。
[0095] 图49展示了根据一些实施例的单个选择的克隆类型数据集内的B细胞同种型视图。
[0096] 图50A展示了根据本公开的实施例的经过聚类的数据集的架构。
[0097] 图50B展示了根据本公开的一个实施例的当使用单细胞测序方法使用来自相同生物样本的条形码化的cDNA构建体的公共池构建经聚类数据集和一个或多个克隆类型数据集时,这些数据集之间的关系。

具体实施方式

[0098] 现将详细参照实施例,在附图中展示所述实施例的实例。在以下详细描述中,阐述了许多具体细节以便提供对本公开的彻底理解。然而,对本领域普通技术人员而言将显而易见的是,本公开可以在没有这些具体细节的情况下实施。在其它实例中,并未详细描述熟知的方法、程序、组件、电路以及网络以免不必要地模糊实施例的各个方面。
[0099] 本文描述的实施方案提供了用于分析数据集的不同技术解决方案。这种数据集的一个实例是由对单个细胞(如B细胞和T细胞)中的VDJ区进行测序的测序管线产生的数据集。现在结合附图描述实施方案的细节。
[0100] 图1是展示根据一些实施方案的可视化系统100的框图。在一些实施方案中,装置100包含一个或多个处理单元CPU 102(也称为处理器)、一个或多个网络接口104、用户接口
106、非永久性存储器111、永久性存储器112和一个或多个用于互连这些组件的通信总线
114。一个或多个通信总线114可选地包含互连并控制系统组件之间的通信的电路系统(有时称为芯片组)。非永久性存储器111通常包含高速随机存取存储器,如DRAM、SRAM、DDR RAM、ROM、EEPROM、闪速存储器,而永久性存储器112通常包括CD-ROM、数字多功能盘(DVD)或其它光学存储装置、磁带盒、磁带、磁盘存储装置或其它磁性存储装置、磁盘存储装置、光盘存储装置、闪速存储器装置或其它非易失性固态存储装置。永久性存储器112可选地包含一个或多个布置的远离CPU 102的存储装置。永久性存储器112和非永久性存储器112内的一个或多个非易失性存储装置包括非暂时性计算机可读存储介质。在一些实施方案中,非永久性存储器111或者(替代性地)所述非暂时性计算机可读存储介质(有时与永久性存储器
112结合)存储以下程序、模块和数据结构或者其子集:
[0101] ·任选的操作系统116,所述操作系统包含用于处理各种基本系统服务和用于执行硬件相关任务的程序;
[0102] ·任选的网络通信模块(或指令)118,所述网络通信模块(或指令)用于将可视化系统100与其它装置连接,或与通信网络连接;
[0103] ·VDJ浏览器模块120,所述VDJ浏览器模块用于从永久性存储器112中选择克隆类型数据集122并呈现对所述克隆类型数据集的分析;
[0104] ·克隆类型数据集122,所述克隆类型数据集包括多个克隆类型124(例如T细胞受体α链、T细胞受体β链、B细胞轻链、B细胞重链等),并且对于多个克隆类型中的每个克隆类型124中的每个链,共有序列用于所述链的VDJ区126,其中VDJ区126的共有序列源自所述克隆类型中的所述链的多个重叠群128,每个重叠群128与以下各项相关联:(i)条形码130,(ii)一个或多个唯一分子标识符132,和(iii)跨所述唯一分子标识符的序列读段的重叠群共有序列126,每个唯一分子标识符132由构成重叠群共有序列126的多个序列读段134支持,每个序列读段包含如读段核酸序列136和读段映射质量138的信息;
[0105] ·VDJ链参考序列表140,所述VDJ链参考序列表包含基因组中所有V基因和J基因的参考序列,或至少包括通过给定克隆类型数据集122表示的基因的参考序列;以及[0106] ·可选地,一个或多个经聚类数据集180的全部或部分(相当于美国专利申请号62/672,544的经聚类数据集128),每个经聚类数据集180包括多个群集5002,每个群集5002(相当于美国专利申请号62/672,544的集群158)包括一个细胞(美国专利申请号62/672,
544的第二实体126)5004的子集,并且每个相应的细胞由支持所述细胞的条形码130标识。
[0107] 在一些实施方案中,一个或多个上述元件存储在一个或多个先前提及的存储装置中,并且对应于用于执行上述功能的指令组。上述模块、数据或程序(例如指令集)不需实施为单独分开的软件程序、过程、数据集或模块,并且因此这些模块和数据的各个子集可以在各种实施方案中被组合或以其它方式重新布置。在一些实施方案中,非永久性存储器111可选地存储上述模块和数据结构的子集。此外,在一些实施例中,所述存储器存储以上未描述的另外的模块和数据结构。在一些实施例中,上述元件中的一个或多个存储在可视化系统100的计算机系统之外的计算机系统中,所述计算机系统可由可视化系统100寻址,使得可视化系统100可在需要时检索所有或部分这样的数据。
[0108] 在一些实施例中,克隆类型数据集122被组织为一系列数据块,并且在文件的开头具有总JSON目录,在文件末尾具有描述每个块的地址和结构的JSON目录。在一些实施例中,克隆类型数据集122中有多个块。
[0109] 在一些实施例中,一个这样的块构成数据库(例如sqlite3数据库),所述数据库包含克隆类型、淋巴细胞(例如T细胞、B细胞)受体链参考序列、淋巴细胞(例如T细胞、B细胞)受体链共有序列126、重叠群128和将细胞条形码130映射到克隆类型124的二级表中的每一个。当点击本文公开的用户接口中的链时,查询数据库以创建克隆类型列表,按频率排序,并且再次查询以用数据填充链可视化。参考表、共有序列表和重叠群表中的每一行还包含文件偏移量和长度,所述文件偏移量和长度对存储在多个块中的其它块中的JSON文件组中关于该实体的更详细的分级信息的位置进行编码。最后,每个参考和共有序列的比对和序列信息存储在数据库中,以备将来调试和故障排除。
[0110] 在一些实施例中,一个或多个块包含参考注释JSON文件,所述文件为关于每个淋巴细胞(例如T细胞、B细胞)受体链的每个参考的完整信息集。所述块相当于VDJ链参考序列表140。因此,在一些实施例中,VDJ链参考序列表140是克隆类型数据集122的组成部分。
[0111] 在一些实施例中,一个或多个块包含共有序列注释,例如如JSON文件,其是关于每个淋巴细胞(例如T细胞、B细胞)受体链的每个共有序列126的完整信息集。
[0112] 在一些实施例中,一个或多个块包含重叠群注释,例如作为JSON文件,其是关于每个重叠群128的完整信息集。重叠群128是编码淋巴细胞受体(例如T细胞受体、B细胞免疫球蛋白)的链(例如T细胞α链、T细胞β链、B细胞重链、B细胞轻链)的转录物的经组装序列。因此,在单个T细胞的示例情况下,预期对于所述α链将存在至少一个重叠群128,对于所述β链将存在至少一个重叠群128。
[0113] 在一些实施例中,一个或多个块包含例如FASTA格式的参考序列,所述序列在克隆类型数据集122文件创建期间使用,而不是在VDJ浏览器120操作期间用于调试目的。
[0114] 在一些实施例中,一个或多个块包含参考比对,例如作为BAM文件,其存储链共有序列/重叠群128与所述参考序列的差异。这通常在克隆类型数据集122创建期间使用,而不是在VDJ浏览器120操作期间使用(例如出于调试目的)。
[0115] 在一些实施例中,一个或多个块包含用于上述BAM文件的参考比对BAM索引,以加速序列比对查询。
[0116] 在一些实施例中,一个或多个块包含例如FASTA格式的共有序列,所述序列通常在克隆类型数据集122创建期间使用,而不是在VDJ浏览器120操作期间使用。
[0117] 在一些实施例中,一个或多个块包含共有序列比对BAM文件,所述共有序列比对BAM文件存储重叠群序列与所述共有序列的差异,所述共识比对BAM文件通常在克隆类型数据集122创建期间使用,而不是在VDJ浏览器120操作期间使用。
[0118] 在一些实施例中,一个或多个块包含重叠群BAM索引,所述重叠群BAM索引存储查找单个重叠群的读段信息的位置。
[0119] 在一些实施例中,一个或多个块包含重叠群BED文件,所述文件存储每个重叠群的基因注释。
[0120] 在一些实施例中,一个或多个块包含重叠群FASTA文件,所述文件存储每个重叠群的序列。
[0121] 在一些实施例中,当用户运行VDJ浏览器120时启动两个过程:(i)读取克隆类型数据集122并返回JSON响应的后端服务器过程和(ii)将JSON处理为可视化并且处理用户输入的前端Web应用。在一些实施例中,所述后端服务器过程从克隆类型数据集122中将sqlite3数据库字节提取到临时位置。所述服务器过程将克隆类型数据集122与其相关联的以上讨论的sqlite3数据库文件之间的关系保存在存储器中,并且将与克隆类型数据集122相关的所有查询导向该数据库。所述服务器过程在关闭时通过删除会话期间打开的所有数据库文件来清理自身。
[0122] 尽管图1描绘了“可视化系统100”,但是该图更多地旨在作为可能存在于计算机系统中的各种特征的功能描述,而不是作为本文所述的实施方案的结构示意图。在实践中,并且如本领域普通技术人员所认识的,可以将单独示出的项目组合,并且可以将一些项目分离。此外,尽管图1描绘了非永久性存储器111中的某些数据和模块,但是这些数据和模块中的一些或全部可以存在于永久性存储器112中。
[0123] 虽然已经参照图1公开了根据本公开的系统,但是现在参照图2至49详细描述根据本公开的方法。
[0124] 图2示出了在一些实施例中当用户执行VDJ细胞浏览器120时由VDJ细胞浏览器120显示的初始板。具体地,图2示出了VDJ细胞浏览器120如何提供关于给定克隆类型数据集120的一些信息(如所述克隆类型数据集的名称、假设由数据集122表示的细胞的数量以及最后一次访问所述数据集的时间)。假定由所述数据集表示的细胞的数量通过对被估计为与表达目标V(D)J转录物的细胞独特相关的条形码130的数量进行估计导出。在一些实施例中,如果克隆类型数据集122中存在(i)与相应条形码130相关联并且(ii)由各自由数据集中的序列读段134支持的至少两个唯一分子标识符132支持的重叠群128,则认为相应条形码130与细胞独特地关联。换句话说,每个假定由所述克隆类型数据集表示的细胞在数据集中由重叠群128的条形码130支持,其中所述重叠群进而由至少两个不同的唯一分子标识符
132支持,其中每个这样的唯一分子标识符又由所述克隆类型数据集中的序列读段134支持。在选择克隆类型数据集122之后,过程控制转到图3的显示302。图3显示来自克隆类型数据集122的各种数据。特别地,在一些实施例中,在顶层,细胞的VDJ区中的核酸序列由克隆类型122组织。在一些实施例中,使用基于微滴的单细胞RNA测序(scRNA-seq)流体系统获得这种序列读段134形式的序列信息,所述系统能够对数千个单细胞进行3'或5'信使RNA(mRNA)数字计数。在这种测序中,基于液滴的平台能够对细胞进行条形码编码。
[0125] scRNAseq微流体系统以GemCode技术为基础,所述技术已用于人类基因组的基因组单体型分析、结构变异体分析和重新组装(de novo assembly)。参见Zheng等人,2016,“用高通量连读段测序对种系和癌症基因组进行单体型鉴定(Haplotyping germline and cancergenomes with high-throughput linked-read sequencing)”,《自然生物技术(Nat.Biotechnol.)》,34,第303-311页;Narasimhan等人,2016,“罕见基因剔除对成年人和相关相关父母的的健康和人口影响(Health and population effects of rare gene knockouts in adult humans with relatedparents)”,《科学(Science)》,352,第474-477页(2016);和Mostovoy等人,2016,“一种用于人类基因组序列重新组装和阶段划分的混合方法(A hybrid approach for de novo humangenome sequence assembly and phasing)”,《自然方法(Nat.Methods)》,13,587–590,这些文献中的每一篇出于GemCode技术的整体描述均通过引用结合。这种测序使用凝胶珠乳液(GEM)。
[0126] GEM在多通道微流体芯片中产生,所述芯片以预定的填充率(如约80%)封装单个凝胶珠。对于本公开的克隆类型数据集122,在一些实施例中,遵循5'基因表达协议,而不是3'基因表达协议。在所述样本包含T细胞的情况下,这为每个样本提供了来自多个(例如
100-10,000个)个体淋巴细胞的全长(5'UTR到恒定区)、成对T细胞受体(TCR)转录物。在所述样本包含B细胞的情况下,这为每个样本提供了来自多个(例如100-10,000个)个体淋巴细胞的全长(5'UTR至恒定区)、成对B细胞免疫球蛋白重链转录物和B细胞免疫球蛋白轻链转录物。
[0127] 在一些实施例中,如Zheng等人同上所述的3'基因表达协议的情况,5'表达协议包含将细胞分成多个GEM。具体而言,在一些实施例中,通过以限制性稀释度递送细胞来实现单细胞分离,使得所产生的多个GEM中的大部分(约90-99%)不包含淋巴球(细胞),而其余大部分包含单个淋巴球。在一些实施例中,当单细胞5'凝胶珠溶解在GEM中时,包含(i)读段1测序引物(例如ILLUMINA R1序列);(ii)条形码130;(iii)唯一分子标识符(UMI)132;和(iv)开关寡核苷酸的寡核苷酸被释放并与细胞裂解液和包含聚(dT)引物的预混液混合。然后,所述多个GEM的温育从多腺苷酸化的mRNA中产生条形码化的全长cDNA。温育后,将所述多个GEM破碎并回收汇集的馏分。在一些实施例中,磁珠(例如烷珠)用于将剩余的生化试剂和引物从后GEM反应混合物中去除。来自淋巴细胞cDNA的条形码化的全长V(D)J片段通过文库构建之前的PCR扩增富集。在一些实施例中,酶切片段化和尺寸选择用于产生在文库构建之前共同跨越经富集受体链的V(D)J片段的可变长度片段。
[0128] 在一些实施例中,在GEM温育期间将R1(读段1引物序列)添加到所述分子。在目标富集期间添加P5。在文库构建期间通过末端修复、A加尾、连接物连接和实施聚合酶链反应(PCR)添加P7、样本索引和R2(读段2引物序列)。所得的单细胞V(D)J文库包含在Illumina桥扩增中使用的P5引物和P7引物。请于互联网参见以下网址:assets.contentful.com/an68im79xiti/26tufAiwI0KCYA0ou2gCWK/8d313d2b126a7a1652d1381073e72015/CG000086_SingleCellVDJReagentKitsUserGuide_RevA.pdf(于2017年5月18日最后一次访问)(第2-4页),其通过引入结合在此。关于P5和P7引物的文档,另请于互联网参见2017年5月18日最后一次访问的“使用Illumina基因组分析仪系统进行多重测序(Multiplexed Sequencing with the Illumina Genome Analyzer System)”,版权2008,网址为:www.illumina.com/documents/products/datasheets/datasheet_sequencing_
multiplex.pdf在一些实施例中,经测序的单细胞V(D)J文库为标准ILLUMINA BCL数据输出文件夹的形式。在一些此类实施例中,BCL数据包含成对末端读段1(包括条形码130、UMI 
132、开关寡核苷酸以及受体链cDNA的5'末端)和读段2(包括同一受体链cDNA的随机部分)以及i7索引读段中的样本索引。在一些实施例中,计算机程序(如10X CELL RANGER分析管线)对BCL数据执行二次分析,如使用条形码130将来自同一细胞的读段对分组,以重叠群
128的形式组装全长V(D)J片段,从而创建克隆类型数据集122。
[0129] 具有相同条形码130的多个序列读段134形成至少一个重叠群128,并且每个这样的重叠群128表示单个细胞的链(例如T细胞受体α链、T细胞受体β链、B细胞重链、B细胞轻链)。细胞的重叠群128中的每一个的重叠群共有序列126被共同用于确定所述细胞的克隆类型124。换句话说,序列读段134由条形码130分组,而重叠群128通过查看具有相同UMI标识符132的序列读段134进行组装。通过分析重叠群128中的公共碱基创建包含CDR3区的一组链公共序列。在这些共有序列中具有类似的CDR3区的细胞被分组到克隆类型124中,图3的条形图302示出了每个克隆类型中独特条形码130的数量。也就是说,图3提供了1955个细胞128中的在由VDJ浏览器120示出的特定克隆类型数据集122中的特定克隆类型124的发生频率的条形图302。在该特定的数据集中,用于测序的细胞为T细胞。这样,每个重叠群128包含第三互补决定区(CDR3),所述区的核苷酸序列对于每个T细胞克隆是独特的。在T细胞的情况下,所述CDR3与肽相互作用,因此所述CDR3对于识别病原体表位或自身抗原表位很重要。CDR3区是V-J区的一个子集(在图9中用较黑的长条918指示),其跨越T细胞受体α链中的V基因和J基因以及T细胞受体β链中的V基因、D基因和J基因。
[0130] 在一些实施例中,克隆类型数据集122包括曾存在于克隆类型数据集122所表示的生物样本中的任何T细胞的T细胞受体或任何B细胞的B细胞免疫球蛋白的V(D)J克隆类型。下面描述T细胞的克隆类型和B细胞的克隆类型。
[0131] T细胞克隆类型大多数T细胞受体由α链和β链构成。T细胞受体基因类似于下文讨论的B细胞免疫球蛋白基因,因为所述基因也在其β链中包含多个V基因、D基因和J基因片段(以及在其α链中的V基因和J基因片段),所述片段在淋巴细胞发育过程中被重新排列,从而为所述细胞提供独特的抗原受体。在这个意义上,T细胞受体是抗体的抗原结合片段的拓扑等价物,两者都是免疫球蛋白超家族的一部分。B细胞和T细胞由其克隆类型定义,即,在B细胞的情况下,所述克隆类型为V(D)J区最终重新布置为B细胞免疫球蛋白的重链和轻链的同一性,或者在T细胞的情况下,所述克隆类型为V(D)J区最终重新布置为T细胞受体的每条链的同一性。
[0132] 基于表达的确切的受体链对,存在两个T细胞的子集。所述子集或者为alpha(α)和beta(β)链对,或者为gamma(γ)和delta(δ)链对,其分别识别αβ或γδT细胞子集。β和δ链的表达限于其相应子集中的每一个的一条链,这被称为等位基因排斥(Bluthmann等人,1988,“T细胞受体转基因的T细胞特异性缺失使得内源性α和β基因的功能重新布置(T-cell-specific deletion of T-cell  receptor transgenes allows functional rearrangement of endogenous alpha-and beta-genes)”《,自然(Nature)》,334,第156-
159页;)和Uematsu等人,1988,“在转基因小鼠中,引入的功能性T细胞受体β基因阻止内源性β基因的表达(In transgenic mice the introduced functional T-cell receptor beta gene prevents expression of endogenous beta genes)”《细胞(Cell)》,52,第
831-841页,这些文献中的每一篇均通过引用结合在此)。所述两条链的特征还在于使用了另外的DNA片段,所述DNA片段在重新布置过程中被称为多样性(D)区。所述D区的两侧是构成所述两条链中所述CDR3的NDN区的N个核苷酸。所述两条受体链中每条的CDR3定义了在图
3中分析的克隆类型124。对于αβT细胞,CDR3与与MHC结合的肽的接触最为频繁。参见Rudolph等人,2006,“TCR如何结合MHC、肽和共同受体(How TCRs bind MHCs,peptides,and coreceptors,)”,《免疫学年度评论(Annu Rev Immunol)》,24:第419-466页,doi:10.1146/annurev.immunol.23.021704.115658,其通过参考结合在此。因此,CDR3序列一直是免疫学测序研究的主要焦点。参见Yassai等人,2009,“T细胞受体的克隆类型命名法(A clonotype nomenclature for T cell receptors)”,《免疫遗传学(Immunogenetics)》,61,第493-502页,其通过引用结合在此。
[0133] B细胞克隆类型B细胞是高度多样化的,每个都表达一种实际上独特的B细胞免疫球蛋白(例如,B细胞免疫球蛋白受体-BCR)。成人体内大约有1010-1011个B细胞。参见Ganusov等人,2007,“人类大多数淋巴细胞真的存在于肠道吗?(Do most lymphocytes in humans really reside in the gut?)”,《免疫学趋势(Trends Immunol)》,208(12),第514-518页,其通过参考结合在此。B细胞是适应性免疫的重要组成部分,并且通过在B细胞的细胞表面上表达的B细胞免疫球蛋白受体(BCR)直接与病原体结合。有机体(例如人类)中的每个B细胞表达使所述B细胞能够识别特定的分子模式组的不同BCR。单个B细胞在骨髓发育过程中获得这种特异性,在骨髓发育过程中,B细胞经历体细胞重新布置过程,所述过程将多个种系编码的基因片段结合以获得BCR,如Yaari和Kleinstein,2015,“B细胞库测序分析实用指南(Practical guidelines for B-cell repertoire sequencing analysis)”,《基因组医学(Genome Medicine)》,7:121中的图1所示,所述文献通过引用结合在此。人抗体分子(和B细胞免疫球蛋白)由重链和轻链(每一种都包含恒定(C)区和可变(V)区)构成,所述重链和轻链由以下三个基因座上的基因编码:染色体14上的免疫球蛋白重基因座(IGH@),其包含免疫球蛋白重链的基因片段;染色体2上的免疫球蛋白κ基因座(IGK@),其包含免疫球蛋白轻链部分的基因片段;染色体22上的免疫球蛋白λ基因座(IGL@),其包含免疫球蛋白轻链其余部分的基因片段。每个重链和轻链基因包含抗体蛋白可变区的三种不同类型基因片段的多个拷贝。例如,人免疫球蛋白重链区包含两个恒定(Cμ和Cδ)基因片段和44个可变(V)基因片段加上27个多样性(D)基因片段和6个连接(J)基因片段。参见Matsuda等,
1998,“人免疫球蛋白重链可变区基因座的完整核苷酸序列(The complete nucleotide sequence of the human immunoglobulin heavy chain variable region locus)”,《实验医学杂志(The Journal of Experimental Medicine)》,188(11):2151–62,doi:
10.1084/jem.188.11.2151;Li等人,2004,“免疫球蛋白重链变量、多样性和连接基因片段在B系急性淋巴细胞白血病儿童中的应用:对VDJ重组机制和发病机制的意义(Utilization of Ig heavy chain variable,diversity,and joining gene segments in children with B-lineage acute lymphoblastic leukemia:implications for the mechanisms of VDJ recombination and for pathogenesis)”,《血液(Blood)》,103(12):4602-9,doi:
10.1182/blood-2003-11-3857,这些文献中的每一篇均通过参考结合在此。所述轻链也具有两个恒定的(Cμ和Cδ)基因片段和许多V基因片段和J基因片段,但没有D基因片段。DNA重新布置导致每种基因片段的一个拷贝进入任何给定的淋巴细胞,从而产生巨大的抗体库,尽管一些抗体库由于自身反应性而被去除。
[0134] 由于在T细胞和B细胞中对V(D)J区进行了重新布置,因此只能将V(D)J区的一部分(V段、D段和J段)追溯到在种系的高度重复区中编码的通常不直接从种系DNA测序的片段。此外,在V(D)J重新布置过程中以及在B细胞的情况下,通过体细胞超突变可以显著修饰V段、D段和J段。因此,通常没有预先存在的全长模板可以与T细胞受体的V(D)J区和B细胞免疫球蛋白的V(D)J区的序列读段比对。克隆分组,在本文中称为克隆分型,涉及将B细胞免疫球蛋白V(D)J序列组(在B细胞的情况下)或一T细胞受体序列组(在T细胞的情况下)聚集成克隆,所述克隆被定义为从共同祖先遗传下来的细胞组。与在T细胞的情况下不同,B细胞克隆的成员不携带相同的V(D)J序列,但其由于体细胞超突变而不同。因此,在某些情况下,基于BCR序列数据定义克隆(克隆分型)需要机器学习技术。参见例如,Chen等人,2010,“基于聚类对克隆相关免疫球蛋白基因序列集的鉴定(Clustering-based identification of clonally-related immunoglobulin gene sequence sets)”,《免疫学研究(Immunome Res.)》,6,增刊1:S4;以及Hershberg和Prak,2015,“对正常和自身免疫性B细胞库克隆扩增的分析(The analysis of clonal expansion in normal and autoimmune B-cell repertoires)”,《自然科学会报乙·生物科学(Philos Trans R Soc Lond B Biol Sci.)》,370(1676),这些文献中的每一篇均通过参考结合在此。
[0135] 总体来说,VDJ细胞浏览器120可用于分析从T细胞或B细胞制备的克隆分型数据集。在T细胞的情况下,克隆分型识别构成V片段、D片段和J片段的T细胞受体链的独特核苷酸CDR3序列。根据本公开的所述系统和方法,这通常涉及使用上述scRNAseq微流体系统获得的所述mRNA的PCR扩增,其中所述系统中的每个GEM使用V区特异性引物和恒定区(C)特异性引物对或J区特异性引物对,然后对扩增子进行核苷酸测序。
[0136] VDJ细胞浏览器120适用于编码B细胞(抗体)和T细胞(T细胞受体)的基因。如上所述,T细胞和B细胞通过涉及V种系区、D种系区、J种系和C种系区的重组过程获得其多样性。因此每个T细胞和B细胞都编码一种独特的克隆类型。
[0137] 从编码单个细胞的细胞受体链的全部或部分的mRNA获得的序列读段134用于获得包含所述CDR3区的重叠群128。给定细胞的重叠群128中的每一个将具有公共条形码130,从而定义所述给定细胞的重叠群组,并因此定义所述给定细胞的CDR3序列组。跨所述给定细胞的重叠群共有序列126组的所述CDR3区由此确定所述细胞的克隆类型124。因此,图示302表示克隆类型数据集122中表示的多个细胞中克隆类型124出现的频率。在由克隆类型数据集122表示的生物样本中,每个克隆类型具有一定数量的特定克隆类型的细胞。这些克隆类型按克隆类型发生的频率排序。表304列出了在图示304中汇总的克隆类型信息。表304中的每个框306为特定重叠群组的克隆类型124。克隆类型数据集122中可以存在由此克隆类型表示的多个细胞。例如,在由数据集122表示的生物样本中,存在32个具有框306-1中描述的克隆类型的T细胞、9个具有框306-2中描述的克隆类型的T细胞、6个具有框306-3中描述的克隆类型的T细胞、6个具有框306-4中描述的克隆类型的T细胞以及5个具有框306-5中描述的克隆类型的T细胞。
[0138] 克隆类型306-1对于T细胞α链来说包含一种重叠群类型并且对于T细胞β链来说包含另一种重叠群类型。也就是说,克隆类型306-1的T细胞α链的重叠群中的每一个具有相同的第一CDR3序列,并且克隆类型306-1的T细胞β链的重叠群中的每一个具有相同的第二CDR3序列。相比之下,克隆类型306-5对于T细胞α链来说包含两种重叠群类型并且对于T细胞β链来说包含另外两种重叠群类型。也就是说,克隆类型306-1的T细胞α链的重叠群中的每一个具有第一或第二CDR3序列,并且克隆类型306-1的T细胞β链的重叠群中的每一个具有第三或第四CDR3序列。
[0139] 此外,切换键308可用于在表304中进一步向下滚动,以显示数据集122表示的所述生物样本中另外的T细胞的克隆类型和频率(或数量)。对于每个克隆类型,表304详细描述了克隆类型124中表示的每个链类型310。克隆类型可能具有多个链共有序列,由于上述原因,所述链共有序列被分组为克隆类型。如果两个细胞对于源自其重叠群的每个不同链共有序列共享一组相同的CDR3,则所述两个细胞具有相同的克隆类型。
[0140] 对于每个克隆类型306,表304详细描述了由该克隆类型表示的每个链类型310。在克隆类型306-1的情况下,存在单个α链类型和单个β链类型,这意味着该克隆类型306-1的α链中的所有α链具有相同的第一CDR3序列,并且该克隆类型306-1的β链中的所有β链具有相同的第二CDR3序列。对于克隆类型中表示的每个链类型310,表304提供了V片段312的标识符、多样性区314的标识符(在T细胞β链和δ链的情况下存在,但是在α链和γ链的情况不存在)、J区316的标识符和C区318的标识符。如果两个细胞相应的受体链具有相同的对应CDR3序列,则认为所述两个细胞具有相同的克隆类型。
[0141] 在所述样本包括T细胞的情况下,由于被取样细胞的杂合性质,由图1所示克隆类型数据集表示的样本中的单个细胞可能具有多达两条不同的α链和多达两条不同的β链。换句话说,由于被取样细胞的杂合性质,由图1所示克隆类型数据集表示的样本中的单个细胞可能具有具有第一CDR3序列的第一α链、具有第二CDR3序列的第二α链、具有第三CDR3序列的第一β链和具有第四CDR3序列的第二β链。
[0142] 有利的是,VDJ浏览器允许以各种不同的方式分析克隆类型信息。图3示出了首次加载克隆类型数据集122时的默认图表302。切换键320允许图表302在显示(i)如图3所示的以每个克隆类型的细胞总数表示的频率和(ii)如图4所示的以每个克隆类型的细胞总数表示的比例之间切换。
[0143] 可供性322用于从图表302和表304中显示的正在分析的克隆类型数据集122中的所有克隆类型中指定克隆类型的总数。目前,如图3所示,前15个所表示的克隆类型正在分析中。在一些实施例中,所述克隆类型数据集包含50个或更多克隆类型、100个或更多克隆类型、500个或更多克隆类型或1000个或更多克隆类型的重叠群。这样,在某些情况下,数据集122中所有克隆类型的克隆类型频率的检查可能被证明太麻烦,特别是当考虑到大多数最少表示的克隆类型存在于单一基础上。可供性322允许用户针对各种用例和克隆类型数据集122优化显示。用户可以使用可供性322来转动到正在分析的数据集122中克隆类型的总数,或者将显示的克隆类型的数量减少到有限的数量,如15个,如图3所示。
[0144] 切换建324用于选择可应用于克隆类型124数据集的其它图表类型。例如,转向图5,可以检查用于形成克隆类型数据集122的生物样本细胞中的V基因使用情况,而不是查看克隆类型数据集122中的克隆类型丰度。V基因使用情况是对所述克隆类型中的每一种计数的带注释的V区。换句话说,V基因使用情况为按频率绘制的可能的不同人类V基因(例如,TRAV-1、TRAV4、TRAV8-2、TRAV9-2等)中的每一个的所有V基因使用情况的集合(无论所表示的V基因出现在哪个链中)。因此,在V基因TRAV1-1的情况下,提供了跨克隆类型数据集122的该V基因(无论在α链或β链中是否出现)的每个实例的计数。此外,可供性322现可用于选择链类型(例如在T细胞的情况下,仅α链、仅β链、α链和β链两者等等;在B细胞的情况下,仅重链、仅轻链、重链和轻链两者等等)。例如,如果仅将可供性322改变为α链,则图示502仅显示每个V基因类型跨在克隆类型数据集122中出现的α链的出现频率。
[0145] 在一些实施例中,如果克隆类型数据集122中表示的细胞不具有V区或J区,则从所述VDJ浏览器提供的视图中筛选掉所述细胞。在一些情况下会发生这种情况。VDJ区的长度约为700个碱基,而在一些实施例中,序列读段134的长度约为150个碱基对。因此,出现了这样的情况,其中编码VDJ区的一些mRNA分子仅在VDJ区的一部分(仅V区或J区)获得序列读段134,而不在VDJ区的另一部分获得所述序列读段,因此不针对此类mRNA表示V区或J区。在这种实例中,不可能确定这种细胞的克隆类型。在一些实例中,为了具有指定的克隆类型,本公开的一些实施例强加以下条件:在单个细胞内必须存在具有与V基因比对的特定UMI码的读段和与具有J基因比对的特定UMI码的另一读段。在替代方案中,采用与整个VDJ区比对的较长序列读段。仍在替代方案中,使用共同比对整个VDJ区的、具有相同UMI的序列读段。
[0146] 图3和图4所示克隆类型数据的优势在于,所有构成克隆类型的成分(V、D、J)都已牢固配对。然而,图5示出了如何使用所述VDJ浏览器来分析克隆类型的成分。图5说明了克隆类型数据集中特定的V区使用情况。这是有利的,因为免疫学家习惯于以这种方式分析数据,因为传统上他们没有对克隆类型的所有成分进行牢固配对的机制。因此,免疫学家可以使用切换键324来检查跨克隆类型数据集122的V区使用或跨克隆类型数据集122的J区使用情况,不论这种V区或J区出于合适的遗留目通过何种方式结合到克隆类型中。以这种方式,工作人员可以将克隆类型数据集122与旧的实验进行比较(例如出于验证或比较的目的)。
[0147] 转向图6,公开了可用于分析克隆类型数据集122的另一图表类型602。图表类型602提供了由克隆类型数据集122表示的细胞群中跨淋巴细胞受体链的VDJ序列的V区和J区使用情况的热图。例如,在T细胞的情况下,图表类型602提供了跨由克隆类型数据集122表示的细胞群中的T细胞受体α链和T细胞受体β链的VDJ序列的V和J区使用情况的热图。在B细胞的情况下,图表类型602提供了由克隆类型数据集122表示的细胞群中B细胞免疫球蛋白重链和B细胞免疫球蛋白轻链的V(D)J序列中的V和J区使用情况的热图。
[0148] 如上所述,每个链具有V区312和J区316。图表602的热图中的每个x-y单元格提供克隆类型数据集122中存在的重叠群的数量的指示,所述重叠群的CDR3区包含受体链,所述受体链包含所表示的V区和J区中的相应的V区和相应的J区的对应对。例如,在B细胞的情况下,图表602的热图中的每个x-y单元格提供克隆类型数据集122中存在的重叠群的数量的指示,所述重叠群的CDR3区包含重链或轻链,所述重链或轻链包含来自所表示的V区和J区中的相应的V区和相应的J区的对应对。在T细胞的情况下,图表602的热图中的每个x-y单元格提供克隆类型数据集122中存在的重叠群的数量的指示,所述重叠群的CDR3区包含α链或β链,所述α链或β链包含所表示的V区和J区中相应的V区和相应的J区的对应对。转向图602以说明,图表602中的一个x-y单元格指示存在于克隆类型数据集122中的重叠群的数量,所述重叠群包含TRAV-1-1V区和TRAJ3J区。
[0149] 因此,本公开的一些实施例在保持多个克隆类型(304)的列表的同时提供了第二二维可视化(602)。第二二维可视化(602)提供用于选择由所述数据集表示的淋巴细胞受体的基因对的第一过滤器(324)。第二二维可视化(602)提供一种或多种链类型的第二过滤器(320)。所述第二二维可视化的第一轴线表示所述基因对中的第一单独基因(例如图6的可视化602的J区轴),所述第二二维可视化的第二轴(例如图6的可视化602的V区轴)表示所述基因对中的第二单独基因。与第一轴和第二轴相交的(所述二维可视化的)每个单元格指示由所述第一数据集中的第二过滤器(320)指定的一种或多种链类型的重叠群的数量,所述第一数据集包含所述第一轴线上的相应基因和所述第二轴线上的相应基因。
[0150] 量表604为解释图表602中的x-y单元格提供了基础。在一些实施例中,将所述热图用颜色编码在指示重叠群的第一数量的第一颜色(例如绿色,表示零个重叠群)与指示重叠群的第二数量的第二颜色(例如蓝色,表示120个重叠群)之间。因此,当在热图602中使用这种颜色编码时,如果将指示克隆类型包含TRAV-1-1V区和TRAJ3 J区的克隆类型数据集122中存在的重叠群的数量的图表602中的x-y单元格填色为绿色,这意味着克隆类型数据集122中不存在包含TRAV-1-1V区和TRAJ3 J区的重叠群。在另一方面,如果将图表602中指示包含TRAV-1-1V区和TRAJ3 J区的克隆类型数据集122中存在的重叠群的数量的x-y单元格填色为蓝色,这意味着在包含TRAV-1-1V区和TRAJ3 J区的克隆类型数据集122中存在120个重叠群。在此类实施例中,介于零和120之间的中间值由介于绿色和蓝色之间的中间色彩阴影表示。应当理解,量表604根据所表示的数据的值调整,并且最大值表示最有可能存在于所述数据集中的具有特定V区/J区对的重叠群。应当进一步理解的是,在热图中可以使用不同的调色板,或者实际上热图可以是灰度的。因此,参考图6,本公开的一些实施例以热图的形式提供了第二二维可视化(602)。所述热图提供以颜色编码格式提供由所述第一数据集中的所述第二过滤器(320)指定的一个或多个链类型的重叠群的数量的数字指示的比例(604),所述第一数据集中包含所述第二二维可视化的所述多个单元格中的每个单元格的所述第一轴线上的所述相应基因和所述第二轴线上的所述相应基因。
[0151] 应当注意,热图602包含左上方坐标和右下方坐标中不包含数据的大空白区域。这是因为热图602显示了从α链和β链到T细胞的CDR3区的数据。通常不希望将给定的α链的V区与给定的β链的J区匹配,即使这两条链来自同一个细胞。通常也不希望将给定的α链的J区与给定的β链的V区匹配,即使这两条链来自同一个细胞。将这种匹配排除产生热图602的左上象限中的空白区域和右下象限中的空白区域。在图6所示的视图中,在T细胞的情况下,可以使用可供性320切换热图602,使得所述热图仅显示仅α链上、仅β链上或者如图6所示α链和β链两者上的V区/J区对。在图6所示的视图中,在B细胞(图6中未示出)的情况下,可以使用可供性320切换热图602,使得所述热图仅显示仅重链上、仅轻链上或者重链和轻链两者上的V区/J区对。
[0152] 转向图3的栏320,图3到6中提供的汇总信息指示如何由所述克隆类型数据集中的每个克隆类型表示条形码130的方式。每个框306表示不同的克隆类型124,所述克隆类型大致映射到所述克隆类型数据集中具有所述克隆类型的细胞。在一些实施例中,存在双联体,这意味着单个GEM包括两个细胞,因此所述GEM的相同条形码130与两个不同细胞相关联。双联体也可能是由每个克隆类型的多条链产生的。在T细胞的情况下,双联体也可能使得每个克隆类型具有多条α链或β链。在B细胞的情况下,双联体也可能导致每个克隆类型具有多条重链或轻链。这种双联体干扰了条形码与细胞计数之间的1比1对应关系。在一些实施例中,克隆类型数据集122中的这种双联体的发生率(双联体率)小于3%。在一些实施例中,克隆类型数据集122中的这种双联体的发生率(双联体率)小于2%。在一些实施例中,克隆类型数据集122中的这种双联体的发生率(双联体率)小于1%。在一些实施例中,克隆类型数据集122中的这种双联体的发生率(双联体率)小于0.5%。在一些实施例中,克隆类型数据集122中的这种双联体的发生率(双联体率)小于0.05%。
[0153] 图3指示,克隆类型306-5包含两条不同的α链和两条不同的β链。出现这种情况有几个原因。一个原因是有时T细胞表达两条不同的α链和两条不同的β链。这是由于所分析细胞的杂合性质。在T细胞的情况下,通常认为这很少见。但其以一定的比率发生。存在一种使T细胞(或B细胞)试图阻止第二种布置(α链/β链不同的第二种情况)出现的机制。但是,有细胞针对这种情况会逃避所述过程。如果是这样,那么在T细胞的情况下,包含唯一分子标识符132的单细胞测序将识别具有两条不同α链和两条不同β链的单细胞,此外,将能够确定哪条α链是与哪条β链配对。并且在这种情况下,在B细胞的情况下,包含唯一分子标识符132的所述单细胞测序将识别具有两条不同重链和两条不同轻链的单细胞,此外,将能够确定哪条重链是与哪条轻链配对。
[0154] 给定克隆类型数据集122中可能的克隆类型的数量可能相当大。因此,参考图7,可以使用过滤器326和过滤器328筛选列表304。此外,可以使用滚动条308遍历列表304。例如,过滤器326允许人们通过基因名称(例如单个V基因或J基因名称)、特定的CDR3核苷酸序列、条形码130、重叠群标识符128或特定的CDR3氨基酸序列进行筛选。
[0155] 图7进一步示出了如何设置可供性320,使得热图602现在示出了特定淋巴细胞链类型(例如T细胞受体α链)的CDR3区中匹配的V基因/J基因。过滤器326对本公开的任何图示类型进行操作,如图3至7所示的图表类型。
[0156] 在图7中,已将过滤器326设置为“CDR3氨基酸序列”。在这种情况下,动态调整过滤器328以接受氨基酸序列。列表304中提供了包含共有序列126的重叠群,所述共有序列具有与过滤器328的氨基酸序列查询匹配的氨基酸序列。过滤器328中指定的氨基酸序列可以较短(例如少于五个氨基酸),这与过滤器328中指定的氨基酸序列较长的情况相比可以产生更多的匹配记录。此外,在过滤器328的搜索查询中,可以在所述序列中指定通配符(意味着在给定位置存在氨基酸或不存在氨基酸)。这样,本公开的一些实施例在被配置成接收用户指定的选择标准的显示器上提供一个或多个可供性326/328。响应于接收到用户指定的选择标准,列表304限于所述数据集中的所述多个克隆类型中与所述选择标准匹配的克隆类型。如图7所示,在一些实施例中,所述选择标准为重叠群、条形码、氨基酸序列或核酸序列。进一步响应于接收到用户指定的选择标准,所述二维可视化还被限制为仅考虑所述多个克隆类型中与所述选择标准匹配的克隆类型。
[0157] 转向图8,已将过滤器326设置为“重叠群”。在这种情况下,动态调整过滤器328以接受一个或多个重叠群标识符128。当在过滤器328处输入一个重叠群标识符时,与该重叠群标识符匹配的重叠群被提供在列表304中。当在过滤器328处输入多个重叠群标识符时,与所输入的多个重叠群标识符之一匹配的任何重叠群被提供在列表304中。
[0158] 转向图9,有利的是,当将可供性326设置为“基因名称”时,可供性328动态地改变以允许在克隆类型数据集122的重叠群的V区和J区中表示的一个或多个基因中的第二个。当输入单个基因时,包含所述基因的任何重叠群都显示在列表304和对应的左侧图中。在一些实施例中,以这种方式选择基因不会更新所述左侧图上的过滤器。
[0159] 在一些实施例中,当输入两个基因时,在列表304和所述对应的左侧图中仅显示所述克隆类型数据集中包含所选基因两者的重叠群。在一些实施例中,以这种方式选择两个基因不会更新所述左侧图上的过滤器。
[0160] 在一些实施例中,当输入三个基因时,在列表304和所速对应的左侧图中仅显示所述克隆类型数据集中包含所有三个所选基因的重叠群。在一些实施例中,以这种方式选择三个基因不会更新所述左侧图上的过滤器。
[0161] 在一些实施例中,当输入四个基因时,在列表304和所述相应的左侧图中仅显示所述克隆类型数据集中包含所有四个所选基因的重叠群。在一些实施例中,以这种方式选择四个基因不会更新所述左侧图上的过滤器。
[0162] 继续图9,在替代性实施例中,当将可供性326设置为“基因名称”时,可供性328仍动态地改变以允许在克隆类型数据集122的重叠群的V区和J区中表示的一个或多个基因中的第二个。然而,在所述替代性实施例中,当选择单个基因时,列表304中显示的所述重叠群中所述基因的任何实例都被突出显示,并且对应的左侧图不受该选择的影响。当选择两个基因时,列表304中的所述重叠群的任何一个中的所述两个基因中的任一个的任何实例都被突出显示,并且所述对应的左侧图不受影响。当选择三个基因时,列表304中的所述重叠群的任何一个中的所述三个基因中的任何一个的任何实例被突出显示,并且所述对应的左侧图不受影响。当选择四个基因时,列表304中的所述重叠群的任何一个中的所述四个基因中的任一个的任何实例都被突出显示,并且所述对应的左侧图不受影响。
[0163] 参考图8,在克隆类型数据集122包括T细胞的情况下,列表304中的每一行指单个T细胞受体链(例如α链、β链等)的所述VDJ区。在克隆类型数据集122包括B细胞的情况下,列表304中的每一行指单个B细胞免疫球蛋白链(例如重链、轻链等)的所述VDJ区。用户可以选择表304中列出的单链中的任何一条(例如通过使用鼠标点击表示单链的所述行)。当这种情况发生时,用所选链的汇总信息代替屏幕左侧的汇总图表,但是列表314保留。例如,参考图8的表304中的β链802,当用户点击表示β链802的行时,热图802被图9的板902代替。尽管图9不包含列表304,但是在VDJ浏览器120的优选实施例中,板902与列表304一起显示,使得用户可以选择另一个链。在一些实施例中,用户可以通过按下预定的可供性(未示出)或指定的键盘序列(例如Ctrl-Home),返回到图3至图8所示的由可供性324提供的汇总图表。因此,参考图8,本公开的一些实施例提供了包括多个行的列表304。所述多个行中每个相应行(例如802/804)指定所述第一多个克隆类型中的克隆类型的所述多个重叠群中的重叠群的链类型的指示。响应于用户对多个行中的一行的选择,用由所选行表示的链的汇总信息(例如图9的汇总信息902)代替所述二维可视化(例如图6-8的图表602、图3-4的图表302、图5的图表502)的显示,同时保持所述列表的显示。
[0164] 转向图9,在板902中提供了所选链802的VDJ区的更多详细信息。也就是说,板902以表格格式提供单个克隆类型中的单个链的详细信息。所述表格的顶行904为参考序列,下面的所有行都与所述参考序列对齐。所述参考序列为在图8的所选链802中识别的基因的公开精选序列。所述表格的第二行906是来自支持所述所选克隆类型的所选链802的所有重叠群128的链共有序列(例如支持所选克隆类型的所选链802的所有重叠群共有序列的共有序列)。如图9中详细描述的,存在9个条形码130,并且因此有9个重叠群128支持该单链。因此,图9的板902的表格列出了所有九个重叠群。因此,行906下方的每一行是用于支持行906的链共有序列的单独分开的重叠群。在一些实施例中,所述克隆类型数据集中的读段136从测序中获得,并通过条形码重新组装成重叠群。参见Zheng,2017,“单细胞的大规模并行数字转录谱(Massively parallel digital transcriptional profiling of single cells)”,《自然通讯(Nature Communications)》,doi:10.1038/ncomms14049,其通过引用结合于此。在板902中,将与所选克隆类型的所选链成功匹配的重叠群中的每一个列为一行。每一行的灰色阴影区域指示所述重叠群覆盖所述链共有序列的位置。在一些情况下,并非所有重叠群都具有支持整个链共有序列的重叠群共有序列126。例如,条形码CTCGAAAAGCGATCCC-1表示的重叠群的重叠群共有序列126没有区904的序列,因此在板902中该重叠群的行中该区域被涂白。此外,条形码CTGTGCTCAACCGCCA-1表示的重叠群的链重叠群共有序列126不具有区906的序列,因此在板902中的该重叠群的行中该区被涂白。虽然这些是5'缺失的实例,所述重叠群其重叠群共有序列中也可能存在3'缺失,在这种情况下,这些缺失由涂白区域指示。因此,在每个重叠群的重叠群共有序列中,可以存在左侧或右侧的涂白区域。如果涂白区域出现在链共有序列行906中,这意味着在比对以形成链共有序列的重叠群共有序列中的任何一个中不存在针对该区域组装的读段。在一些实施例中,使用指示符表示特定特征。例如,框908表示起始密码子。框910表示核酸序列与目标比对序列错配,在图9的情况下,所述目标比对序列为如可供性912所指示的参考序列904。框914表示相对于所述目标比对序列的插入。框916表示相对于所述目标比对序列的缺失。尽管终止密码子未在图9中示出,但其也以类似的方式示出。尽管在图9所示的实施例中这些表示用不同类型的阴影框示出,但是在其它实施例中,每种类型的事件、起始密码子、错配、插入和缺失以表示所述事件的独特颜色突出显示。例如,在一些实施例中,起始密码子以绿色条表示,终止密码子以红色条表示,等等。因此,在一些实施例中,板902中相应重叠群的表示包含一个或多个指示符,其中所述一个或多个指示符包含相应重叠群的起始密码子、相应重叠群与共有序列之间的错配、相应重叠群中相对于共有序列所引起的缺失、相应重叠群的终止密码子或相应重叠群的编码区。
[0165] 应当注意,在框918表示的所述区中,所述重叠群中的每一个具有相同的序列,因为该区定义了用于选择板902中表示的所述重叠群的单个克隆类型。然而,在一些克隆类型数据集122中,重叠群在框918之外可能具有差异。在细胞基本相同的其它克隆类型数据集中(例如自单个细胞的克隆扩增),其中一个细胞已经扩增成数百个细胞,预期每个重叠群的V区和J区没有任何差异。有利的是,所述VDJ浏览器的板902允许用户快速确定是否是这种情况。
[0166] 应当理解,在所述读段的末端将存在错配的条(如条920)。这些条表示分析的伪像,因为序列读段的5'端往往会变化,所以在这些点上预计会出现错配,但这超出了所关注的区域。对于每个重叠群,蛋白质编码区在框908之后开始,并向右继续。这样,板902提供了图形表示,所述图形表示验证由克隆类型数据集122表示的克隆扩展在图9所示的VDJ浏览器120的实施例中是成功的。换句话说,板902为识别克隆类型的链的共有序列126的支持提供了视觉基础。仍换句话说,提供了共有序列的置信度的大小。共有序列906(图1的126)是从所述所选克隆类型的所述所选链的每个重叠群128中组装的。
[0167] 在一些实施例中,共有序列的跨越框918的区约为12个氨基酸长,并定义所述克隆类型。然而,板902显示了所述链的更多VDJ区,以帮助用户分析VDJ基因。例如,一些用户试图合成所述VDJ区。这些用户需要知道整个编码序列,即整个V序列和整个J序列。由框918表示的所述CDR3区为克隆类型,但这不是唯一重要的序列,在许多用例中需要区5'和3'来建立保真度。
[0168] 图10示出了从列表304中选择T细胞β链804。如图8中列表304的列310所指示,有六个支持这种克隆类型的条形码130。因此,在图10的板1002中,六个重叠群列在所述表格的链共有序列行下方。此外,可以使用可供性912将这些重叠群中的每一个的重叠群共有序列和链共有序列与参考序列进行比对,或者替代性地,可以使用其将这些重叠群中的每一个的重叠群共有序列与链共有序列进行比对。
[0169] 图11展示了用户如何通过简单地点击图10的板1002的链共有序列行906来容易地获得形成图10的链共有序列906的V基因序列、D基因序列、J基因序列和C基因序列的整个链共有序列。当完成此操作时,VDJ浏览器120显示图11的板1102。板1102提供所述所选链的V基因、D基因、J基因和C基因的同一性,并提供所述链共有序列,然后可以将其复制并粘贴到另一个应用中。在一些实施例中,可以将所述链共有序列导出到文件。这对希望重新合成所述区的用户非常有用。这个特征是有利的,因为所述区在700个碱基长的范围内。因此,在一些实施例中,响应于对共有序列的选择,以被配置用于用户剪切并粘贴到在所述系统上运行的单独分开的应用中的格式显示整个共有序列。
[0170] 图12展示了用户如何能够容易地获得关于支持所述共有序列的所述重叠群中的一个的另外的信息。在图12中,用户点击了条形码130ACAGGTAGGTAGCATA-1所表示的重叠群的行,从而调出板1202。板1202提供关于所述重叠群的信息,如所述重叠群的相关条形码130、所述重叠群的重叠群标识符128、支持所述重叠群的唯一分子标识符132的数量(UMI计数)、支持所述重叠群的序列读段132的数量(读段计数)、所述重叠群的V基因、D基因、J基因和C基因的参考同一性,以及跨支持所述重叠群的序列读段134形成重叠群共有序列126的V基因序列、D基因序列、J基因序列和C基因序列。在一些实施例中,可以将重叠群共有序列
126导出到文件。
[0171] 参考图13,用户已使用可供性326选择输入特定的CDR3氨基酸序列,所述CDR3氨基酸序列的序列被输入到可供性328,从而使用VDJ浏览器120获得列表304中包含该氨基酸序列的重叠群。在图13中,用户选择了由行1302表示的特定克隆类型的特定淋巴细胞受体链类型(在图13的情况下为所述T细胞β链),因此图1302显示了所选克隆类型的所选链的汇总信息。所述链的所述CDR3区再次由框918表示,在VDJ浏览器120的一些实施例中,所述CDR3区通过具有较暗的背景来突出显示。此外,在位置1304提供区918的氨基酸序列,在位置1306提供核苷酸区。通过选择1304或1306,可以选择、复制相应的序列,并将其导出到另一个应用或保存到外部存储器。通过点击可供性1308,所述所选链的CDR3序列在无需进一步的人工干预的情况下被粘贴到可供性328中,使得用户可以在所述克隆类型数据集中搜索具有完全相同CDR3的其它克隆类型。因此,如果用户点击可供性1308,所述VDJ浏览器复制位置1304处的所述序列并将其粘贴到可供性328中。以这种方式,用户可以看到具有完全相同CDR3的所有其它相同类型的链。所述其它链不一定与板1302中描述的链具有相同的克隆类型。例如,可以将所述其它链与对应淋巴细胞受体中的不同链配对。也就是说,克隆类型不仅由单个CDR3定义,还由细胞间的CDR3对定义(例如在T细胞的情况下来自α链的CDR3和来自β链的CDR3)。例如,本图中描述的示例克隆类型数据集包含349个细胞的克隆类型。在这349个细胞的每一个中,都已经表达了该特定的T细胞受体链。该α受体链或该α受体链的基因序列和所述β受体链的基因序列。而β受体链的序列、β受体链的相同序列在其它克隆类型中,但与不同的β受体链或不同的α受体链配对。B细胞免疫球蛋白的克隆类型根据B细胞免疫球蛋白的重链和轻链相似地定义。所以克隆类型由同一组细胞表达的链的集合定义。
[0172] 继续图14,通过选择可供性1402,用户可以切换到序列视图,其中在选择可供性1402之后,支持所选克隆类型的所选链的每个重叠群的重叠群共有序列126与该链的链共有序列一起显示,如图15所示。转向图15,支持所选克隆类型的所选链的六个重叠群中的每一个的重叠群共有序列126显示在链共有序列的下方,所述链共有有序列在这一情况下由六个重叠群共有序列126形成。因此,本公开的一些实施例包括切换键(例如可供性1402),并且用户对所述切换键的选择将所述数据集中包含所选链类型的每个相应重叠群的表示从(i)每个相应重叠群的图形表示(例如如图14中所示)和(ii)每个相应重叠群的序列(例如如图15中所示)中的一个切换到(i)每个相应重叠群的图形表示和(ii)每个相应重叠群的序列中的另一个。
[0173] 参考图15,可供性1504指示所述重叠群与所述链共有序列比对。然而,可供性1504还允许用户将述重叠群与所选克隆类型的所选链的参考序列对齐。在一些实施例中,参考注释为由VDJ浏览器分析的链所包含的基因的Ensembl注释。参见Aken等人,2015,“Ensembl基因注释系统数据库(The Ensembl gene annotation system Database)”,baw093,doi:10.1093/Database/baw 093;和McLaren,2016等,“Ensembl变异效应预测器(The Ensembl Variant Effect Predictor)”,《基因组生物学(Genome Biology)》,17,第122页,doi:
10.1186/s13059-016-0974-4,这些文献中的每一篇均通过引用结合在此。当所述Ensembl参考用于比对时,VDJ浏览器120显示与已知参考序列比对的重叠群,而非显示从所述重叠群生成的所述链共有序列。此外,所述链共有序列也与参考比对,并且仅将所述参考中包括的区比对。也就是说,所有外部的5'和3'区均被切断,因此仅显示所提供的注释区(例如来自Ensembl注释的注释区)。
[0174] 因此,在一些实施例中,所述VDJ链参考序列表为根据Ensembl基因注释系统数据库在人类基因组中发现的所有人类V区、D区、J区和C区,并且当将可供性1504设置为将重叠群与参考序列比对时,与所选克隆类型的所选链最匹配的参考序列充当参考序列。也就是说,所述参考序列为来自Ensembl基因注释系统数据库的与所选克隆类型的所选链的重叠群最匹配的单个V基因、D基因、J基因和C基因的规范装配的级联。图9说明了这种情况。在图9中所观察到的为源自所述重叠群的共有序列126(在图9中显示为906),实际观察结果相对于人类基因组参考904都具有由框910和框916表示的修饰。然而,因为这些修饰跨所述链共有序列的重叠群中的每一个的重叠群共有序列126是共有的,很明显,这种修饰表示了支持所述共有序列的所有特定细胞中的真实突变(在图9中显示为906),并且在图9的左侧部分中分析的克隆类型的链实际上与人类基因组参考904不同,但是与基于所有重叠群的观察而调用的链共有序列906共有。
[0175] 在一些实施例中,所述VDJ链参考序列表为在哺乳动物基因组中发现的所有V区、D区、J区和C区。在一些实施例中,所述VDJ链参考序列表为在非人类动物基因组中发现的所有V区、D区、J区和C区。所述动物的实例包含但不限于哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄动物、反刍动物、牛科动物(例如家牛(cattle))、马科动物(例如马)、山羊类和绵羊类(例如绵羊、山羊)、猪类(例如猪)、骆驼科动物(例如骆驼、美洲驼、羊驼)、猴类、猿类(例如大猩猩、黑猩猩)、熊科动物(例如熊)、家禽类、狗类、猫类、鼠类、鱼类、海豚类、鲸类和鲨鱼类。
[0176] 因此,图1至15展示了VDJ浏览器如何提供用于分析克隆类型数据的有效机制,例如通过提供克隆类型数据集中存在的克隆类型中的任何一个的链的任何一个的链共有序列。所述VDJ浏览器有利地在所述浏览器的所述显示的一侧提供视觉验证,并在所述浏览器的所述显示的另一侧提供表格式信息。此外,所述VDJ浏览器允许用户更有效地执行典型免疫任务,如(i)绘制给定克隆类型数据集122中克隆类型的频率,(ii)观察给定克隆类型数据集122中最丰富的克隆类型的VDJ区,并确定克隆类型在另一个数据集中的丰富程度,(iii)获得克隆类型数据的总体评估,以及(iv)获得将为克隆类型数据集122计算的克隆类型(例如通过上游应用)植根于所测序的实际区的置信度。如图2至15所示,图形以一种在没有计算机的情况下无法容易地或有效地或可靠地完成的方式快速、高效地向用户提供该信息。
[0177] 参考图16,当已经将可供性1402用于将所述重叠群呈现为序列视图时,可以使用可供性1602放大关注的特定特征。例如,参考图17,通过点击可供性1602,用户可以跳转到所选克隆类型的所选链的各个区,如所述链的V部分、D部分、J部分、C部分或CDR3部分。当用户从菜单1702选择这样的部分时,表1704的视图放大到所选择的特征。此外,参考图9,用户可以通过选择特征(如特定特征908、910或916)来立即转换到序列/缩放视图。当用户点击图9的所述特征之一时,板902转换到所选特征附近的序列视图,并且显示跨越所有重叠群的所有重叠群共有序列126的所选特征的区的核酸序列。因此,例如,如果用户希望在图9中进行删除,用户可以点击这个特性,所述VDJ浏览器将在序列视图中跳转到这个区。以这种方式,用户可以查看到底删除了哪些碱基以及哪些碱基错配。此外,可以如以FASTA格式导出在所述VDJ浏览器的一些实施例中显示的任何序列。
[0178] 转向图18至23,在一些实施例中,VDJ浏览器进一步提供序列读段134支持视图,使得用户可以检查对应于支持所选克隆类型的所选链的特定链共有序列的所述重叠群的每一个的序列读段134。因此,在图18中,用户已经选择了紧接所述链共有序列行下方的重叠群128,从而调出如上所述提供关于所述重叠群的信息的板1802。板1502中的字段之一—字段1504“查看读段支持”允许用户检查支持所选重叠群的序列读段134。在一些实施例中,对该字段1504的选择为用户呈现图19所示的显示,其中用户提供数据文件(例如BAM文件)的实际物理位置或所述文件的统一资源位置(URL)地址。BAM是序列比对/映射(SAM)格式的压缩二进制版本,所述版本是核苷酸序列比对的紧凑且可索引的表示。例如,对图19的字段1902的选择向用户呈现图20的显示,在所述显示中输入了转向合适的比对文件(例如BAM文件)的URL。在输入所述合适的比对文件后,所述VDJ浏览器提供支持特定重叠群共有序列
126的序列读段134中的每一个的比对的图形描述,如图21所示。因此,图21示出了与具有重叠群标识符AACTTTCTCGTGGACC的重叠群128比对的所有读段,所述重叠群是支持表304的所选链2102的链共有序列的9个重叠群之一。
[0179] 在图21中,重叠群共有序列126刚好处于核苷酸标尺下方。进一步示出了用于组装重叠群共有序列126的特定序列读段134提供的支持。每个行2104表示构成重叠群共有序列126的、具有相同的唯一分子标识符132的单个读段。也就是说,每个读段2104映射到在特定GEM中测序的同一特定分子。图21示出了每个读段2104如何比对以形成重叠群共有序列
126。图21中显示的所有序列读段134(序列读段2102)都具有条形码AACTTTCTCGTGGACC的前缀。此外,这些序列读段中的每一个都是从同一mRNA分子中测序的。将测序差异(如插入、缺失和错配)注释到所述比对中,并且通常使用颜色编码的注释来表示这些不同特征中的每一个。因此,所述序列读段的序列中的任何此类差异都归因于测序误差。这是使用UMI的一个优点,因为使用UMI证实此类差异为测序误差,而不是所测序的mRNA的实际特征。这是因为图21中描述的测序读段中的每一个都是相同的UMI 132,并且因此也是相同的mRNA分子。
[0180] 此外,有几种不同的UMI支持图21中表示的重叠群,并且在图21中可见仅所述UMI中的一个的序列读段。为了查看对其它UMI的序列读段支持,用户可以使用滚动条2104向下滚动或者使用可供性2106选择特定的UMI。例如,当用户选择可供性2106时,将显示支持所选重叠群共有序列126的12个不同的UMI以及支持所述UMI中的每一个的序列读段的数量,如图22所示,并且用户可以选择这些UMI中的任何一个,以便将支持所选重叠群序列133的序列读段134的UMI共有序列比对133可视化。因此,在本公开的一些实施例中,多个唯一分子标识符与特定重叠群相关联,并且显示提供在(i)选择所述多个唯一分子标识符中的所有唯一分子标识符与(ii)选择所述多个唯一分子标识符中的单个唯一分子标识符之间进行选择的唯一分子标识符可供性(例如图21的可供性2106)。当选择所述单个唯一分子标识符时,在多个序列读段中的每个序列读段与所述第一重叠群的所述比对中仅显示所述第一重叠群的具有所述单个唯一分子标识符的那些序列读段。
[0181] 参考图23,当用户点击单个序列读段134时,显示关于所述序列读段的信息。
[0182] 在一些实施例中,所述VDJ浏览器提供所述克隆类型数量和所述条形码数量的计数,所述计数将基于输入到字段326和字段328中的筛选标准来更新。
[0183] 多样本比较。参考图24,有利的是,在本公开的一些实施例中,VDJ细胞浏览器120能够比较来自多个克隆类型数据集122和来自基因表达集群的克隆类型分布。
[0184] 在图24中,将四个克隆类型数据集122加载到VDJ细胞浏览器120中以用于同时分析。一旦加载,并且根据图25所示的本公开的实施例,使用“多样本比较”可供性2502使得能够跨所有打开的克隆类型数据集122进行多样本比较。在一些实施例中,细胞浏览器120打开两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个或10个或更多个克隆类型数据集122以进行并发分析,每个克隆类型数据集表示包括多个细胞的不同生物样本。
[0185] 在图25中,使用能力2504选择将用于分析打开的克隆类型数据集122的比较图。在图25中,选择了选项“克隆类型重叠”。
[0186] 图26展示了使用图24的接口和图25的选择机制打开的四个克隆类型数据集与图25中选择的图表类型的成对比较。在图26中,使用森下-霍恩度量说明了图25中所选的四个克隆类型数据集中的单个克隆类型数据集122对之间的成对克隆类型共通性,所述森下-霍恩度量使用可供性2602进行选择。如在本公开中所使用的,所述森下-霍恩度量提供介于0与1之间的值,所述值对分别由两个克隆类型数据集122表示的两个样本之间的克隆类型
124重叠的平进行加权。森下-霍恩度量倾向于具有共同的频率最高的克隆类型124的成对克隆类型数据集122,而非在克隆类型(例如在相应克隆类型数据集中出现频率较低的克隆类型)的长尾分布中具有更多重叠的克隆类型数据集122。
[0187] 有利的是,所述比较在成对克隆类型、单细胞层面进行。也就是说,如上结合图1所述,给定克隆类型124的每个重叠群128表示独特的单个细胞。每个克隆类型数据集122表示不同的生物样本,并且在所述生物样本中识别的每个克隆类型124与一个或多个重叠群128相关联,每个该种重叠群表示由克隆类型数据集122表示的所述生物样本中独特的不同细胞(例如,当重叠群由各自由数据集122中的序列读段134支持的至少两个唯一分子标识符132支持时)。因此,图26所示的比较是独特且有利的,因为克隆类型重叠评估一个克隆类型数据集122中具有给定克隆类型124且与另一个克隆类型数据集122中具有相同克隆类型
124的细胞的克隆类型匹配的细胞的数量。只有当克隆类型数据集122指示由对应的克隆类型数据集122表示的生物样本中的被确定为具有给定克隆类型124的细胞的数量时,才可能进行这种比较。因此,对于每一克隆类型数据集122(A、B)对,图26计算并显示了一个度量,所述度量示出了由所述克隆类型数据集122对表示的两个生物样本之间的成对共通性。有利的是,因为两个数据集之间克隆类型的比较是基于单细胞数据的,所以可以使用如森下重叠指数(Morisita's overlap index)等的比较度量执行克隆类型数据集122的成对比较。
[0188] 森下重叠指数为群体(例如包括细胞的生物样本)中个体(例如克隆类型)的分散性的统计度量。其用于比较样本之间的重叠。此公式基于以下假设:增加样本的尺寸将增加多样性,因为所述尺寸将包含不同的克隆类型。森下(Morisita)公式为:
[0189]
[0190] 其中,
[0191] X为由成对比较的第一克隆类型数据集122表示的细胞的数量,
[0192] Y为由成对比较的第二克隆类型数据集122表示的细胞的数量,
[0193] xi为第一克隆类型数据集122中具有克隆类型i的细胞的数量,
[0194] yi为第二克隆类型数据集122中具有克隆类型i的细胞的数量,
[0195] Dx和Dy分别为x和y克隆类型数据集122的辛普森指数值(Simpson's index value),并且
[0196] S为跨所比较的两个克隆类型数据集122中独特克隆类型124的数量。
[0197] 在此,如果就克隆类型124而言,两个克隆类型数据集122不重叠,则CD=0,如果克隆类型124在隆类型数据集122两者中以相同比例的细胞出现,则CD=1。Horn对索引的修改(用作图26中每个成对克隆类型数据集122比较的基础)为:
[0198]
[0199] 正如Horn,1966,“比较生态学研究中“重叠”的测量(Measurement of“Overlap”in comparative ecological studies)”《( 美国博物学家(The American Naturalist)》,100,第419-424页)所描述的,所述文献通过引用结合在此。
[0200] 参考图27,根据一些实施例,VDJ细胞浏览器120提供图25的四个克隆类型数据集的成对比较,所述比较示出了示出了使用由可供性2602选择的相交单元格度量的四个克隆类型数据集中的单个克隆类型数据集对之间的成对克隆类型共通性。对于两个克隆类型数据集122的每个相应比较,所述相交单元格度量为属于在所比较的克隆类型数据集122两者中存在的克隆类型124的细胞的数量。因此,参考图27,在“44915”和“44914”克隆类型数据集122两者中存在182个具有克隆类型的细胞,而在“44918”和“44914”克隆类型数据集122两者中不存在细胞。
[0201] 参考图28,在一些实施例中,VDJ细胞浏览器120按照第一克隆类型数据集122(其中在图28所示的实施例中N默认为10,但可选择)中的频率提供前N个克隆类型124中的每个相应克隆类型124,并且提供了其它加载的克隆类型数据集122中的相应克隆类型的频率。例如,参考图28,“44914”克隆类型数据集122中的顶部克隆类型124在“44914”克隆类型数据集122中具有0.05的相对比例,在“44915”克隆类型数据集122中具有0.035的相对比例,并且基本上不在相应的“44918”和“44919”克隆类型数据集122中表示。这意味着,对于“44914”克隆类型数据集122,由“44914”数据集表示的细胞的百分之五在所述数据集中具有顶部表示的克隆类型124,而由“44915”数据集表示的细胞的3.5%具有这一相同的克隆类型。通过以下事实使得图28的比较成为可能:所公开的克隆类型数据集122建立在单细胞测序方法的基础上,并且数据集122单独跟踪用于构建如上所述的数据集的生物样本中的细胞。
[0202] 在一些实施例中,VDJ细胞浏览器120提供打开的克隆类型数据集122中克隆类型分布的指示。例如,参考图29,在一些实施例中,VDJ细胞浏览器120针对图25的四个克隆类型数据集的每一个描绘根据一些实施例的每个相应克隆类型数据集中前10个所表示的克隆类型中的克隆类型的比例、每个相应克隆类型数据集中前10个所表示的克隆类型之外的克隆类型的比例以及每个相应克隆类型数据集中非克隆类型的细胞的比例。通过以下事实使得图29的比较成为可能:所公开的克隆类型数据集122建立在单细胞测序方法的基础上,并且数据集122单独跟踪用于构建如上所述的数据集的生物样本中的细胞。
[0203] 在一些实施例中,VDJ细胞浏览器120提供样本表3106,所述样本表提供已由VDJ细胞浏览器120读取的两个选择的克隆类型数据集122的统计数据的比较。例如,参考图30,在一些实施例中,根据一些实施例,VDJ细胞浏览器120允许用户选择加载的克隆类型数据集122中的两个以进行克隆类型比较分析。当用户选择“44914-CRC_1_UB”和“44915-CRC_2_UB”克隆类型数据集122并选择图30的“克隆类型比较”可供性3002时,表3106中按照费希尔精确测试计算的p值排序列出了所述克隆类型(介于所比较的两个克隆类型数据集之间),并且将所述列表筛选到所述所述集群中的一个中存在至少三个特定克隆类型的细胞的情况。例如,在表3106的组3102的克隆类型中,在“44915-CRC_2_UB”克隆类型数据集中总共有四个细胞具有该克隆类型,并且这占由“44915-CRC_2_UB”克隆类型数据集122表示的细胞的1.04%。相比之下,“44914-CRC_2_UB”克隆类型数据集122并不具有这样的克隆类型124。
作为另一个实例,在表3106的克隆类型3104中,“44915-CRC_2_UB”克隆类型数据集122总共具有三个细胞,占由所述数据集表示的细胞的0.78%,并且克隆类型为3104。相比之下,“44914-CRC_2_UB”克隆类型数据集122再次不具有这样的克隆类型124。对于由表3106表示的每个克隆类型,提供了细胞类型3108、每个相应列出的克隆类型124的“V”区、“D”区、“J”区和“C”区的同一性以及CDR3区3110的序列。通过以下事实使得图31的比较成为可能:所公开的克隆类型数据集122建立在单细胞测序方法的基础上,并且数据集122单独跟踪用于构建如上所述的数据集的生物样本中的细胞。
[0204] 在一些实施例中,VDJ细胞浏览器120提供图表3202,所述图表提供已由VDJ细胞浏览器120读取的两个选择的克隆类型数据集122中克隆类型出现频率的比较。例如,参考图30,在一些实施例中,根据一些实施例,VDJ细胞浏览器120允许用户选择加载的克隆类型数据集122中的两个以进行克隆类型比较分析。在用户选择“44914-CRC_1_UB”和“44915-CRC_
2_UB”克隆类型数据集122并选择图30的“克隆类型频率”可供性30004之后,VDJ细胞浏览器
120提供图32的克隆类型频率比较图3206。
[0205] 在图32中,将在给定频率下具有由“44914-CRC_1_UB”克隆类型数据集122表示的相应克隆类型124的细胞沿“X”轴布置为该出现频率的函数。因此,在“X”轴上,以“1”除以由“44914-CRC_1_UB”数据集122表示但未出现在“44915-CRC_2_UB”数据集122的细胞的总数的频率(例如在图32的情况下为1/454或0.00220)出现的克隆类型124以图标3202-1表示。当用户将其指针装置悬停在图标3202-1上时,将显示在第一克隆类型数据集“44914-CRC_
1_UB”中出现频率为1/454且在第二克隆类型数据集“44915-CRC_2_UB”中找不到的克隆类型的数量,尽管未在图32中示出。在这种情况下,存在321个此类克隆类型,这在这种情况下意味着“44914-CRC_1_UB”中的321个克隆类型各自由“44914-CRC_1_UB”数据集中的单个细胞独特地表示,并且在“44915-CRC_2_UB”数据集的细胞中的任何一个中都未发现。
[0206] 以“2”除以由“44914-CRC_1_UB”数据集122表示但未出现在“44915-CRC_2_UB”数据集122的细胞的总数的频率(2/454或0.00440)出现的克隆类型124以图标3202-2表示。当用户将其指针装置悬停在图标3202-2上时,将显示在第一克隆类型数据集“44914-CRC_1_UB”中出现频率为2/454且在第二克隆类型数据集“44915-CRC_2_UB”中未发现的克隆类型的数量,尽管未在图32中示出。在这种情况下,存在10个此类克隆类型,这在这种情况下意味着所述10个克隆类型中的每一个都由“44914-CRC_1_UB”数据集中的两个不同的细胞独特地表示,并且在“44915-CRC_2_UB”数据集中未发现这些克隆类型中的任何一个。
[0207] 以“3”除以由“44914-CRC_1_UB”数据集122表示但未出现在“44915-CRC_2_UB”数据集122的细胞的总数的频率(3/454或0.00660)出现的克隆类型124以图标3202-3表示。当用户将其指针装置悬停在图标3202-2上时,将显示在第一克隆类型数据集“44914-CRC_1_UB”中出现频率为3/454且在第二克隆类型数据集“44915-CRC_2_UB”中未发现的克隆类型的数量,尽管未在图32中示出。在这种情况下,存在两个此类克隆类型,这在这种情况下意味着所述两个克隆类型中的每一个都由“44914-CRC_1_UB”数据集中的三个不同的细胞独特地表示,并且在“44915-CRC_2_UB”数据集中未发现所述克隆类型中的任何一个。
[0208] 在图32中,将在给定频率下具有由“44915-CRC_2_UB”克隆类型数据集122表示的相应克隆类型124的细胞沿“Y”轴布置为该出现频率的函数。因此,在“Y”轴上,以“1”除以由“44915-CRC_2_UB”数据集122表示但未出现在“44915-CRC_2_UB”数据集122的细胞的总数的频率(1/365或0.00270)出现的克隆类型124以图标3204-1表示。当用户将其指针装置悬停在图标3402-1上时,将显示在第二克隆类型数据集“44915-CRC_2_UB”中出现频率为1/365而在第一克隆类型数据集“44914-CRC_1_UB”中未发现的克隆类型的数量,尽管未在图
32中示出。在这种情况下,存在237个此类克隆类型,这在这种情况下意味着“44915-CRC_2_UB”中的237个细胞具有未由“44915-CRC_2_UB”数据集中的任何其它细胞表示并且在“44914-CRC_1_UB”数据集的细胞中的任何一个中都未发现的独特的克隆类型。
[0209] 图标3208为图标3202-1和图标3204-1之间的频率相交点。这样,图标3208表示在“44914-CRC_1_UB”数据集中出现频率为1/454(1/所述第一数据集中的总细胞数)且在“44915-CRC_2_UB”数据集中出现频率为1/365(1/所述第二数据集中的总细胞数)的克隆类型的数量。当用户将其指针装置悬停在图标3208上时,将显示在第二克隆类型数据集“44915-CRC_2_UB”中出现频率为1/365、在第一克隆类型数据集“44914-CRC_1_UB”中出现频率为1/454的克隆类型的数量,尽管未在图32中示出。在这种情况下,存在24个此类克隆类型,这在这种情况下意味着存在各自由“44915-CRC_2_UB”数据集和“44914-CRC_1_UB”数据集中的单个独特细胞表示的24个克隆类型。
[0210] 图32为确定两个克隆类型数据集之间克隆类型出现频率的相似度提供了视觉基础。通过以下事实使得图32的比较成为可能:所公开的克隆类型数据集122建立在单细胞测序方法的基础上,并且数据集122单独跟踪用于构建如上所述的数据集的生物样本中的细胞。
[0211] 转向图33至图36,在一些实施例中,可以使用所述VDJ细胞浏览器显示跨已由所述浏览器选择或打开的所有克隆类型数据集的特定V基因、D基因、J基因和C基因的相对比例。
[0212] 因此,转向图33,显示了跨用于构建以图24所示方式加载的四个克隆类型数据集122的四个生物样本的细胞的V基因使用情况。V基因使用情况是在相应的数据集中为克隆类型124中的每一个计数的注释的V区。换句话说,V基因使用情况为在逐克隆类型数据集
122的基础上按频率(条形码比例)绘制的可能的不同人类V基因(例如IGLV4-60、IGLV45-
45、IGLV7-43、IGLV8-61等)中的每一个的全部V基因使用情况的集合(无论所表示的V基因出现在哪个链中)。因此,在V基因TRAV1-1的情况下,在图33中针对所比较的四个克隆类型数据集122中的每一个提供了该V基因的每个实例的条形码计数(不论链类型是否出现)。当用户将其指针装置移动到表示图33中特定V基因的一组图形条上时,将显示该特定V基因的条形码比例,尽管未在所述图中示出。例如,如果用户将其指示装置悬停在对应于图33中的V基因“Trav1-1”的图形条上,则提供所比较的四个克隆类型数据集中的每一个中的条形码比例(如果所述克隆类型数据集中存在)。在图33中对所述数据集进行比较的情况下,悬停在条3306的集合上揭示了TRAV1-1 V基因在“44919-CRC_2_UT”数据集中的条形码比例为
0.006195787,在“44918-CRC-1_UT”数据集中的条形码比例为0.00365408,并且在由图表
3304表示的另外两个数据集中不存在。此外,可以使用可供性3302选择用于获得V基因条形码比例分析的链类型。在对包括T细胞的克隆类型数据集进行比较的情况下,所述链类型将为仅α链、仅β链或α链和β链两者。在图33中所示的对包块B细胞的克隆类型数据集122进行比较的情况下,使用可供性3302选择仅重链(IGH)、仅kappa链(轻链)(IGK)、仅lamba链(轻链)(IGL)或全部三者(IGH、IGHK和IGL)的组合。例如,如果将可供性3302改变为IGH,则图表
3304仅在逐克隆类型数据集122的基础上显示每个J基因类型跨在加载的克隆类型数据集
122中的每一个中出现的IGH的条形码出现频率。
[0213] 转向图34,显示了跨用于构建以图24所示方式加载的四个克隆类型数据集122的四个生物样本的细胞的D基因使用情况。V基因使用情况为在相应的数据集中为克隆类型124中的每一个计数的注释的V区。换句话说,D基因使用情况为在逐克隆类型数据集122的基础上按频率(条形码比例)绘制的可能的不同人类D基因(例如IGHD5-24、IGHD50R15-5B、IGHD6-6、IGHD6-13、IGHD6-19等)中的每一个的全部D基因使用的集合(无论所表示的D基因出现在哪个链中)。因此,在D基因IGHD6-19的情况下,在图34中针对所比较的四个克隆类型数据集122中的每一个提供了该D基因的每个实例的条形码计数(不论链类型是否出现)。当用户将其指针装置移动到表示图34中特定D基因的一组图形条上时,将显示该特定D基因的条形码比例,尽管未在图34中示出。例如,如果用户将其指示装置悬停在对应于图34中的D基因“IGHD6-19”的图形条上,则提供所比较的四个克隆类型数据集中的每一个中的条形码比例(如果所述克隆类型数据集中存在)。在图34中对所述数据集进行比较的情况下,悬停在条3406的集合上揭示了IGHD6-19 D基因在“44914-CRC_1_UB”数据集中的条形码比例为
0.04597701,在“44915-CRC-2_UB”数据集中的条形码比例为0.0569395,并且在由图表3404表示的另外两个数据集中不存在。此外,可以使用可供性3402选择用于获得D基因条形码比例分析的链类型。在对包括T细胞的克隆类型数据集进行比较的情况下,所述链类型将为仅α链、仅β链或α链和β链两者。在图34中所示的对包块B细胞的克隆类型数据集122进行比较的情况下,使用可供性3402选择仅重链(IGH)、仅kappa链(轻链)(IGK)、仅lamba链(轻链)(IGL)或全部三者(IGH、IGHK和IGL)的组合。例如,如果将可供性3402改变为IGH,则图表
3404仅在逐克隆类型数据集122的基础上显示每个D基因类型跨在加载的克隆类型数据集
122中的每一个中出现的IGH的条形码出现频率。
[0214] 转向图35,显示了跨用于构建以图24所示方式加载的四个克隆类型数据集122的四个生物样本的细胞的J基因使用情况。J基因使用情况为在相应的数据集中为克隆类型124中的每一个计数的注释的J区。换句话说,J基因使用情况为在逐克隆类型数据集122的基础上按频率(条形码比例)绘制的可能的不同人类J基因(例如IGKJ5、IGLJ1、IGLJ2、IGLJ3、TRAJ3、TRAJ4、TRAJ5、TRAJ6、TRAJ8等)中的每一个的全部J基因使用的集合(无论所表示的J基因出现在哪个链中)。因此,在J基因TRAJ5的情况下,在图35中针对所比较的四个克隆类型数据集122中的每一个提供了该J基因的每个实例的条形码计数(不论链类型是否出现)。当用户将其指针装置移动到表示图35中特定J基因的一组图形条上时,将显示该特定J基因的条形码比例,尽管未在图35中示出。例如,如果用户将其指示装置悬停在对应于图35中的J基因“TRAJ5”的图形条上,则提供所比较的四个克隆类型数据集中的每一个中的条形码比例(如果所述克隆类型数据集中存在)。在图35中对所述数据集进行比较的情况下,悬停在条3506的组上揭示了TRAJ5 J基因在“44919-CRC_2_UT”数据集中的条形码比例为0.01115242,在“44918-CRC-1_UT”数据集中的条形码比例为0.00365408,并且在由图表
3504表示的另外两个数据集中不存在。此外,可以使用可供性3502选择跨多样本比较用于获得J基因条形码比例分析的链类型。在对包括T细胞的克隆类型数据集122进行比较的情况下,所述链类型将为仅α链、仅β链或α链和β链两者。在图35中所示的对包块B细胞的克隆类型数据集122进行比较的情况下,使用可供性3502选择仅重链(IGH)、仅kappa链(轻链)(IGK)、仅lamba链(轻链)(IGL)或全部三者(IGH、IGHK和IGL)的组合。例如,如果将可供性
3502改变为IGH,则图表3504仅在逐克隆类型数据集122的基础上显示每个J基因类型跨在加载的克隆类型数据集122中的每一个中出现的IGH的条形码出现频率。
[0215] 转向图36,显示了跨用于构建以图24所示方式加载的四个克隆类型数据集122的四个生物样本的细胞的C基因使用情况。C基因使用情况是在相应的数据集中为克隆类型124中的每一个计数的注释的C区。换句话说,C基因使用情况为在逐克隆类型数据集122的基础上按频率(条形码比例)绘制的可能的不同人类C基因(例如IGHA1、IGHG4、IGHM、IGKC、IGLC1、IGLC2、IGLC3、TRAC等)中的每一个的全部C基因使用情况的集合(无论所表示的C基因出现在哪个链中)。因此,在C基因IGKC的情况下,在图36中针对所比较的四个克隆类型数据集122中的每一个提供了该C基因的每个实例的条形码计数(不论链类型是否出现)。当用户将其指针装置移动到表示图36中特定C基因的一组图形条上时,将显示该特定C基因的条形码比例,尽管未在图36中示出。例如,如果用户将其指示装置悬停在对应于图36中的C基因“IGKC”的图形条上,则提供所比较的四个克隆类型数据集中的每一个中的条形码比例。
在图36中对所述数据集进行比较的情况下,悬停在条3606的集合上揭示了IGKC基因在“44914-CRC_1_UB”克隆类型数据集122中的条形码比例为0.2756005,在“44915-CRC_2_UB”数据集中的条形码比例为0.255814,并且在由图表3604表示的另外两个数据集中不存在。
此外,可以使用可供性3602选择跨多样本比较用于获得C基因条形码比例分析的链类型。在对包括T细胞的克隆类型数据集122进行比较的情况下,所述链类型将为仅α链、仅β链或α链和β链两者。在图36中所示的对包块B细胞的克隆类型数据集122进行比较的情况下,使用可供性3602选择仅重链(IGH)、仅kappa链(轻链)(IGK)、仅lamba链(轻链)(IGL)或全部三者(IGH、IGHK和IGL)的组合。例如,如果将可供性3602改变为IGH,则图表3604仅在逐克隆类型数据集122的基础上显示每个C基因类型跨在加载的克隆类型数据集122中的每一个中出现的IGH的条形码出现频率。
[0216] 通过以下事实使得图33-36的比较成为可能:所公开的克隆类型数据集122建立在单细胞测序方法的基础上,并且克隆类型数据集122单独跟踪用于构建如上所述的数据集的生物样本中的细胞。
[0217] 参考图37,当VDJ细胞浏览器120已经加载基于B细胞单细胞测序的克隆类型数据集时,切换可供性3706以选择“B细胞同种型”图表类型使得VDJ细胞浏览器120显示图表3708。图表3708示出了跨所有加载的克隆类型数据集122的重链同种型(例如IGHA、IGHD、IGHG、IGHE和IGHM)的同种型频率和轻链同种型(例如IGK、IGL)的同种型频率。当用户将其指针装置移动到表示图37中特定链类型的一组图形条上时,将显示每个相应克隆类型数据集中该特定链类型的相应同种型频率(如果克隆类型数据集中存在),尽管未在所述图中示出。例如,如果用户将其指示装置悬停在对应于图37中的IGHG重链的图形条上,则提供包括B细胞的两个克隆类型数据集中的IGHG重链的同种型频率(例如“44915-CRC_1_UB”数据集中为0.5160142且“44914-CRC_1_UB”数据集中为0.4498567)。通过以下事实使得图37的比较成为可能:所公开的克隆类型数据集122建立在单细胞测序方法的基础上,并且克隆类型数据集122单独跟踪用于构建如上所述的数据集的生物样本中的细胞。
[0218] B细胞成对同种型。图38中展示了所有加载的B细胞样本的重链+轻链组合的相对分布。因此,参考图38,当VDJ细胞浏览器120已经加载基于B细胞单细胞测序的克隆类型数据集时,切换可供性3806以选择“B细胞成对同种型”图表类型使得VDJ细胞浏览器120显示图表3808。图表3808在逐克隆类型数据集122的基础上(例如IGK+IGHA、IGK+IGHD、IGK_IGHG等)显示了所有加载的B细胞样本的重链+轻链组合的相对分布。当用户将其指针装置移动到表示图38中特定的链类型对的一组图形条上时,将显示每个相应克隆类型数据集中链类型对的相应频率(如果克隆类型数据集中存在),尽管未在所述图中示出。例如,如果用户将其指示装置悬停在对应于图38中的IGK+IGHG链组合的图形条上,则提供包含B细胞的两个克隆类型数据集中的这一链类型对的同种型频率(例如“44915-CRC_1_UB”数据集中为0.3135593且“44914-CRC_1_UB”数据集中为0.2836879)。通过以下事实使得图38的比较成为可能:所公开的克隆类型数据集122建立在单细胞测序方法的基础上,并且克隆类型数据集122单独跟踪用于构建如上所述的数据集的生物样本中的细胞。
[0219] 参考图39,使用可供性3902选择“克隆类型比较”图表类型使得VDJ细胞浏览器120以表格3904的形式提供两个所选克隆类型数据集(样本A和样本B)之间克隆类型层面的比较。表3904中的行的每一组表示存在于所比较的两个克隆类型数据集122中的至少一个中的克隆类型124。对于表3904中列出的每个克隆类型124,提供了V基因、D基因、J基因和C基因的链类型和指示以及CDR3区的氨基酸序列。此外,提供了在两个选择的克隆类型数据集的每一个中具有该相应克隆类型的细胞的数量,以及在选择的克隆类型数据集中具有该相应克隆类型的细胞的百分比的指示。在图39所示的实施例中,按照通过费希尔精确测试计算的p值(介于两个所比较的克隆类型数据集之间)对克隆类型进行排序,并且将所述列表筛选到所述样本中的一个中存在至少三个特定克隆类型的细胞的情况。表3904显示了两个克隆类型数据集122之间成对单细胞克隆类型频率的比较。通过以下事实使得图39的比较成为可能:所公开的克隆类型数据集122建立在单细胞测序方法的基础上,并且克隆类型数据集122单独跟踪用于构建如上所述的数据集的生物样本中的细胞。
[0220] 基因表达数据整合。参考图40和41,有利的是,VDJ细胞浏览器除了加载克隆类型数据集122之外,其还可以加载一个或多个具有于2018年2月8日提交的标题为《用于将数据集中的模式可视化的系统和方法(Systems and Methods for Visualizing a Pattern in a Dataset)》的美国专利申请15/891,607中描述的格式的集群数据集180,所述申请通过参考结合在此。如美国专利申请15/891,607中所述,获得离散属性值数据集。对于多个第二实体(例如多个细胞)中的每个相应的第二实体(例如细胞),所述离散属性值数据集包括多个第一实体(例如基因)中的每个第一实体(例基因)的离散属性值(例如映射到单个基因的转录物读段的计数)。在一些实施例中,用于给定第二实体的多个第一实体中的每个第一实体为多个基因中的相应基因。每个离散属性值为所述第二实体中映射到所述多个基因内相应基因的转录物读段的计数。在此类实施例中,每个第二实体126是单个细胞。所述离散属性值数据集表示完整的转录组鸟枪测序实验,所述实验以映射到基因的转录物读段计数来量化来自单个细胞的基因表达。
[0221] 在一些实施例中,将来自单个细胞的mRNA扩增并使用相同的条形码条形码化。在一些此类实施例中,从单个细胞测量离散的属性值,并且使用微流体分区在相应的微流体液滴中捕获此类单个细胞,然后使用这些液滴中的每一滴的单个条形码池标记给定细胞的所有内容物(例如对应于基因的mRNA)。例如,在一些实施例中,通过将数以千计的第二实体划分成纳米升级的凝胶珠乳液(GEM)对(例如约750,000个条形码的)池进行采样以分别索引每个第二实体的转录组,其中所有生成的cDNA共用共同的条形码。在一些实施例中,为每个相应的微滴(GEM)分配其自身的条形码,并且在相应微滴中的所有内容物(例如第一实体)标记对于相应微滴独特的条形码。在一些实施例中,此类液滴通过Zheng等人在2016,《自然生物技术(Nat Biotchnol.)》,34(3):303-311;《10X Genomics Chromium单细胞3'试剂盒第二版用户指南(2017)(Chromium,Single Cell 3'Reagent Kits v2.User Guide,2017,10X Genomics)(修订版B)》(普莱森顿(Pleasanton),加利福尼亚州)或《10X Genomics Chromium单细胞V(D)J试剂盒用户指南(2017)(Chromium Single Cell V(D)J Reagent Kits User Guide,2017,10X Genomics)》(普莱森顿,加利福尼亚州)的描述形成,这些文献中的每一篇均通过引用结合在此。
[0222] 跨测试样本(例如肿瘤活检物等)中的细胞群将来自此类mRNA的现条形码化的经扩增DNA汇集然后分成两个或更多个等分试样、三个或更多个等分试样、四个或更多个等分试样、十个或更多个等分试样等。每个该种等分试样包含原始样本中每个细胞中的mRNA中的每一个的一个或多个条形码化的cDNA构建体。也就是说,每个相应的等分试样完全表示所述原始样本中来自每个细胞的每个所表达基因的相对表达。此外,因为将所表达的基因(例如以mRNA的形式)在扩增成cDNA之后条形码化,所以有可能将来自所述等分试样中的一个的cDNA识别为来自与来自其它等分试样的cDNA相同的基因,因为其将具有匹配的条形码。因此,将相应的等分试样中的一份应用于上述通用的V(D)J转录物文库构建和选择协议,由此填充克隆类型数据集122,并且所述等分试样中的另一份遵循5'基因表达文库构建协议(如于2017年10月15日提交的标题为《用于将数据集中的模式可视化的系统和方法(Systems and Methods for Visualizing a Pattern in a Dataset)》的美国专利申请号62/572,544中标题为“离散属性值管线(discrete attribute value pipeline)”的章节中描述的协议),从而填充离散属性值数据集中测试样本中每个细胞的每个基因的离散属性值。在一些实施例中,所述测试样本包括10个或更多个第二实体、100个或更多个第二实体、或1000个或更多个第二实体。在一些实施例中,所述测试样本为来自对象(如人类对象)的活检物。在一些实施例中,所述样本为肿瘤的活检物并且包含几种不同的细胞类型。
[0223] 因此,使用共享相同条形码的原始条形码化的经扩增cDNA产生的来自每个文库的条形码化的序列读段很可能来自相同的细胞。而且,如下文进一步讨论的,可以对多个等分试样中的其它等分试样进行其它形式的单细胞测序或表达分析,并且可以基于公共条形码将源自此类管线的数据索引到离散属性值数据集中的单个细胞。
[0224] 因此,在联合基因表达/靶向V(D)J实验中,用户将创建上述库(例如上述第一和第二等分试样)并针对每个库运行相应的分析管线(如在2017年10月15日提交的标题为《用于将数据集中的模式可视化的系统和方法(Systems and Methods for Visualizing a Pattern in aDataset)》的美国专利申请号62/572,544中标题为“离散属性值管线(Discrete attribute valuepipeline)”的章节中公开的管线以及在本公开中公开的形成克隆类型数据集122的管线,从而分别填充所述离散属性值数据集和克隆类型数据集122。换句话说,一旦分析管线完成,离散属性值管线将产生离散属性值数据集文件(例如Loupe细胞浏览器(cloupe)),如于2017年10月15日提交的标题题为《用于将数据集中的模式可视化的系统和方法(Systems andMethods for Visualizing a Pattern in a Dataset)》的美国临时专利申请号62/572,544中所公开的。靶向的VDJ管线将产生克隆类型数据集122(例如,如本文所公开的Loupe VDJ浏览器(vloupe)文件)。所述离散属性值数据集和克隆类型数据集122共享公共条形码,因为这些数据集来自于研究中的同一生物样本中的相同细胞,所以VDJ浏览器120能够将从所述离散属性集导出的聚类数据集180导入到对应克隆类型数据集122的克隆类型数据集122工作空间中。所述离散属性值数据集的基因的离散属性值120可以直接追溯到离散属性值数据集和对应的克隆类型数据集122两者中的单个对应的单个细胞。该特征有利地提供了集成的单细胞基因组分析的实例,其中工作者可以将来自两个或更多个不同数据处理管线(例如克隆类型数据集122和离散属性值数据集)的关于相同细胞的信息组合,以便提供关于这些细胞的新的多方面信息。此外,可以访问克隆类型数据集122和离散属性值数据集120两者的VDJ细胞浏览器120的此类实施例能够使得使用克隆类型作为过滤器来检查所述离散属性值,其中已通过克隆类型数据集122和相应的离散属性值数据集中的公共条形码将基因索引到单个细胞和克隆类型124。
[0225] 美国专利申请62/572,544中公开的细胞浏览器中的聚类模块使用所述离散属性值数据集中的离散属性值,以以经聚类数据集180(相当于美国专利申请15/891,607中的经聚类数据集128)的形式将细胞聚类成集群。这样,经过聚类的数据集180识别映射到每个集群的条形码130。在使用相同的生物样本来构建所述克隆类型数据集和所述离散属性集的实施例中,来自从所述离散属性集导出的经过聚类的数据集的集群信息包含映射到所述克隆类型数据集中条形码的条形码。因此,可以使用经过聚类的数据集的表达集群信息(例如所述条形码)来识别所述克隆类型集中的哪些细胞属于所述经过聚类的数据集中的哪些集群。
[0226] 在典型实施例中,细胞浏览器的聚类模块使用存储在离散属性值数据集中的主成分值(所述主成分值通过使用跨离散属性值数据集中的多个细胞(第二实体)的基因(第一实体)的离散属性值的主成分分析方法计算),以所述获取离散属性值数据集并将细胞聚类到经聚类数据集180中。
[0227] 主成分分析(PCA)是一种将多个相关变量减少为较少的不相关变量(称为“主成分”)的数学程序。选择第一个主成分,使得其尽可能地说明数据的可变性,并且每个后续成分尽可能地说明剩余的可变性。PCA的目的为发现或降低所述数据集的维数并识别新的有意义的潜在变量。PCA通过在协方差矩阵或相关矩阵中建立实际数据来实现。PCA中使用的数学技术被称为特征分析(Eigen analysis):用平方和叉积的和求解一个平方对称矩阵的特征值(eigenvalue)和特征向量(eigenvector)。与最大特征值相关联的特征向量具有与第一主分量相同的方向。与第二大特征值相关联的特征向量确定第二主分量的方向。特征值之和等于方阵的迹线,特征向量的最大数量等于该矩阵的行数(或列数)。参见例如,Duda、Hart和Stork,《模式分类(Pattern Classification)》,第二版,约翰·威利父子公司(John Wiley&Sons,Inc.),纽约,2000,第115-116页,其通过引用结合在此。
[0228] 对于根据美国专利申请62/572,544的聚类模块的一个实施例进行聚类,考虑每个第二实体与将聚类到相应的经聚类数据集中的离散属性值数据集中的十个第一实体相关联的情况。在这种情况下,可以将每个第二实体表示为向量:
[0229]
[0230] 其中Xi为与所述第二实体相关联的第一实体i的离散属性值。因此,如果存在一千个第二实体,则定义了1000个向量。那些跨所述离散属性值数据集的基因组表现出相似离散属性值的细胞将趋向于聚类在一起。例如,在每个第二实体为单个细胞的情况下,所述第一实体对应于映射到此类单个细胞内的单独基因的mRNA,并且所述离散属性值为此类mRNA的mRNA计数,在一些实施例中,所述离散属性值数据集包含来自一种或更多种细胞类型(例如患病状态和非患病状态)、两种或更多种细胞类型、三种或更多种细胞类型的mRNA数据。这种情况下,预期相似类型的细胞将倾向于跨第一实体(mRNA)组具有相似的mRNA值,并且因此聚类在一起。例如,如果离散属性值数据集包含a类:来自患有疾病的对象的细胞,和b类:来自未患疾病的对象的细胞,理想的聚类分类器将将所述离散属性值数据集聚类成两组,其中一个集群组独特地表示a类,另一个集群组组独地表示b类。
[0231] 对于根据美国专利申请62/572,544的聚类模块的另一个实施例进行聚类,考虑每个第二实体与十个主分量值相关联的情况,所述十个主分量值共同表示给定第二实体的大量第一实体的离散属性值相对于所述数据集中其它第二实体的相应第一实体的离散属性值的变化。在这种情况下,可以将每个第二实体表示为向量:
[0232]
[0233] 其中Xi是与第二个实体关联的主成分值i。因此,如果存在一千个第二实体,则定义了其中一个向量。跨在主成分值集合表现出相似离散属性值的所述第二实体将倾向于聚类在一起。例如,在每个第二实体为单个细胞的情况下,所述第一实体对应于映射到此类单个细胞内的单独基因的mRNA,并且所述离散属性值为此类mRNA的mRNA计数,在一些实施例中,所述离散属性值数据集包含来自一种或更多种细胞类型(例如患病状态和非患病状态)、两种或更多种细胞类型、三种或更多种细胞类型的mRNA数据。这种情况下,预期相似类型的细胞将倾向于跨第一实体(mRNA)组具有相似的mRNA值,并且因此聚类在一起。例如,如果离散属性值数据集包含a类:来自患有疾病的对象的细胞,和b类:来自患有疾病的对象的细胞,理想的聚类分类器将将所述离散属性值数据集聚类成两组,其中一个集群组独特地表示a类,另一个集群组组独地表示b类。
[0234] 在以下文献中描述了聚类:Duda和Hart,《模式分类与场景分析(Pattern Classification and Scene Analysis)》的第211-256页,1973,约翰威立,纽约(以下简称为“Duda 1973”),其通过引用结合在此。如Duda 1973第6.7节所述,聚类问题被描述为在数据集中寻找自然分组的问题。为了确定自然分组,解决了两个问题。第一,确定测量两个样本之间的相似度(或相异度)的方法。使用此度量(相似度度量)确保一个集群中的样本比其它集群中的样本彼此更相似。第二,确定用于使用相似度度量将数据划分成集群的机制。
[0235] Duda 1973第6.7节中讨论了相似度度量,其中指出,开始聚类调查的一种方法是定义距离函数并且计算数据集中所有样本对之间的距离的矩阵。如果距离是相似度的良好度量,则相同集群中样本之间的距离将明显小于不同集群中样本之间的距离。然而,如Duda 1973第215页所述,聚类不需要使用距离度量。例如,可以使用非度量相似度函数s(x,x')比较两个向量x和x'。通常,当x和x'在某种程度上“相似”时,s(x,x')为值较大的对称函数。
Duda1973第216页提供了非对称相似度函数s(x,x')的实例。
[0236] 一旦已经选择了用于测量数据集中的点之间的“相似度”或“相异度”的方法,聚类就需要测量数据的任何分区的聚类质量的准则函数。使用将准则函数极值化的数据集的分区对数据进行聚类。见Duda 1973第217页。在Duda 1973第6.8节讨论了准则函数。
[0237] 最近地,纽约的约翰威立出版社已经出版了Duda等人的《模式分类》的第二版,其通过引用结合在此。537-563页详细地描述了聚类。可以在以下文献中找到关于聚类技术的更多信息:Kaufman和Rousseeuw,1990,《数据调查组:聚类分析导论(Finding Groups in Data:An Introduction to Cluster Analysis)》威利,纽约,纽约州;Everitt,1993,《聚类分析(第三版)(Cluster analysis(Third Edition))》,威利,纽约,纽约州;以及Backer,1995,《计算机辅助聚类分析推理(Computer-Assisted Reasoning in Cluster Analysis)》,普伦蒂斯·霍尔(Prentice Hall),上马鞍河,新泽西州。美国专利申请62/
572,544的聚类模块可以使用特定的示例性聚类技术对多个向量进行聚类,其中多个向量中的每个相应向量包括跨对应的第二实体的第一实体的离散属性值(或从中导出的主成分),所述聚类包括但不限于层次聚类(使用最近邻算法、最远邻算法、平均联动算法、质心算法或平方和算法的凝聚聚类)、k均值聚类、模糊k均值聚类算法和贾维斯-帕特里克聚类。
[0238] 因此,在一些实施例中,美国专利申请62/572,544的聚类模块使用多个第二实体(例如多个细胞)中的每个相应第二实体(例如细胞)中的多个第一实体中的每个第一实体(例如基因的mRNA)的离散属性值或者从所述离散属性值导出的主成分值来对所述离散属性值数据集进行聚类,由此将多个所述第二实体中的每个相应第二实体分配给多个集群中的相应集群,并且由此将集群属性值分配给所述多个第二实体中的每个相应第二实体。
[0239] 在一些实施例中,美国专利申请号62/572,544的聚类模块利用k均值聚类来形成经聚类数据集180。k均值聚类的目标为基于单个第二实体的主成分或离散属性值将所述离散属性值数据集聚类成K个分区。在一些实施例中,K为介于2与50(包含2和50)之间的数字。在一些实施例中,将数字K设置为预定数字(如10)。在一些实施例中,针对特定离散属性值数据集对数字K进行优化。在一些实施例中,用户使用细胞浏览器150设置数字K。
[0240] 如美国专利申请号62/572,544中所述,在一些实施例中,所聚类的离散属性值数据集包含由所述数据集表示的每个细胞中的1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个、或15,000个或更多个mRNA的离散属性值。在一些此类实施例中,所述离散属性值数据集包含500个或更多个细胞、5000个或更多个细胞、100,000个或更多个细胞、250,000个或更多个细胞、500,000个或更多个细胞、1,000,000个或更多个细胞、1000万个或更多个细胞或5000万个或更多个细胞的mRNA的离散属性值。在一些实施例中,每个单个细胞是为人类细胞。在一些实施例中,每个第二实体表示不同的人类细胞。在一些实施例中,所述离散属性值数据集包含若干个不同类别的人类细胞的数据(例如表示不同的死亡状态和/或野生型状态)。在此类实施例中,给定细胞(第二实体)中相应mRNA(第一实体)的离散属性值为在给定细胞中测量的相应mRNA的mRNA数量。该值可以为零,也可以为某些正整数。在一些实施例中,给定第二实体的给定第一实体的离散属性值为集合{0,1,…,
100}中的数字。在一些实施例中,给定第二实体的给定第一实体的离散属性值为集合{0,
1,…,50}中的数字。在一些实施例中,给定第二实体的给定第一实体的离散属性值为集合{0,1,…,30}中的数字。在一些实施例中,给定第二实体的给定第一实体的离散属性值为集合{0,1,…,N}中的数字,其中N为正整数。
[0241] 参考图50A,经聚类数据集180包括多个集群5002。如上所述,每个集群5002包括多个细胞5004,这些细胞基于所述集群的细胞内的mRNA表达模式聚类在一起。此外,如上所述,当将克隆类型数据集122从用于形成构成经聚类数据集180的基础的所述离散属性值数据集的条形码化的经扩增cDNA的公共样本中导出时,可以将与每个集群的细胞独特地相关联的条形码130映射到支持克隆类型数据集122中的克隆类型124的条形码130上。
[0242] 在VDJ细胞浏览器120已经打开一个或多个克隆类型数据集122以及打开使用条形码化的经扩增cDNA的公共样本形成的经聚类数据集180的情况下,经聚类数据集180的基因表达条形码130与克隆类型数据集122的条形码130之间的关系由VDJ细胞浏览器120使用图50B中公开的示例性数据结构来跟踪。如图50B所示,对于每个加载的经聚类数据集180,存在多个集群5002。每个该种集群5002包含多个第二实体。每个该种细胞由一个或多个条形码130支持。在一些实施例中,当条形码130对于细胞是独特的时,所述细胞由条形码130支持。这样,在经聚类数据集180中存在支持给定集群5002的条形码列表。在图50B所示的数据结构中,对于加载的每个相应聚类数据集180,表示已加载的克隆类型数据集122的整个组。
在给定聚类数据集180的每个该种克隆类型数据集122中,表示聚类数据集180的集群5002中的每一个。在每个该种所表示的聚类5002中,列出了对应的经聚类数据集180的集群5002两者共有的并且也在相应克隆类型数据集122中发现的条形码130。以这种方式,可以识别给定克隆类型数据集122中的哪些细胞也存在于经聚类数据集180中的哪些集群5002中。
[0243] 因此,参考图40,通过点击打开菜单4002并选择“从cloupe文件加载集群”,可以将美国专利申请号62/572,544中描述的类型的一个或多个经聚类数据集加载到VDJ细胞浏览器120中。选择该选项后,图41的板4102出现并列出了可用的经聚类数据集180。当用户从板4102中选择经聚类数据集“CRC_aggr2.cloupe”文件时,经聚类数据集180被加载到VDJ细胞浏览器120中。在加载一个或多个经聚类数据集180之后,当经聚类数据集180和一个或多个打开的克隆类型数据集122由来自生物样本的同一条形码化的经扩增cDNA的等分试样形成并且因此具有彼此共同的条形码时,用户能够以多种不同的方式应用经聚类数据集180内的集群5002。
[0244] 例如,参考图42,可以使用VDJ细胞浏览器120比较基因表达集群5002之间的克隆类型分布。为此,将VDJ细胞浏览器120提供的可供性4202从“样本”切换为“集群”。然后,用户使用如图43中进一步示出的集群A 4204的可供性和集群B 4206的可供性选择存在于加载的经聚类数据集180中的两个集群5002,其中使用可供性4204集群A选择来自CRC_aggr2经聚类数据集的“浆细胞”集群(图43)。在使用图43的可供性4206从CRC_aggr2经聚类数据集180中进一步选择“MHC-II+B细胞”集群5002之后,提供两个所选克隆类型数据集122(图44)的顶部克隆类型标准的表4406,除了对数据进行筛选以使两个克隆类型数据集122中的、同样也在加载的经聚类数据集180的两个选择的集群5002中的那些细胞的数据得以比较之外,所述表与图39的表3904类似。表4406中的每一行的组表示克隆类型124,所述克隆类型存在于两个克隆类型数据集122中的至少一个中,所述两个克隆类型数据集与由可供性4204和4204选择的两个集群5002中的任一个中的细胞进行比较。对于表4206中列出的每个克隆类型124,提供了克隆类型124的链类型、V基因、D基因、J基因和C基因的指示以及CDR3区的氨基酸序列。此外,在列4210中提供了跨两个选择的克隆类型数据集122的组合具有该相应克隆类型124的细胞的数量。例如,对于由表4410中的行4412-1的组表示的克隆类型,跨两个所比较的克隆类型数据集122同样在加载的经聚类数据集的“浆细胞”集群中总共对32个细胞进行了比较,并且跨两个所比较的克隆类型数据集122同样在加载的经聚类数据集180的“MHC-II+B细胞”集群5002中总共没有细胞被比较。对于由表4410中的行4412-
2的组表示的克隆类型124,跨两个所比较的克隆类型数据集122同样在加载的经聚类数据集180的“浆细胞”集群5002中总共没有细胞被比较,并且跨两个所比较的克隆类型数据集
122同样在加载的经聚类数据集180的“MHC-II+B细胞”集群5002中总共对三个细胞进行了比较。每个该种克隆类型表4410还提供所选克隆类型数据集122中的每一个的细胞的百分比的指示。在图44所示的实施例中,按照通过费希尔精确测试计算的p值(介于两个所比较的集群5002之间)对克隆类型124进行排序,并且将所述列表筛选到所述所述集群中的一个中存在至少三个特定克隆类型的细胞的情况。通过以下事实使得图44的比较成为可能:所公开的克隆类型数据集122和所应用的经聚类数据集180是使用单细胞测序方法构建的,所述单细胞测序方法使用来自相同生物样本的条形码化的cDNA构建体的公共池,因此克隆类型数据集122和所述经聚类数据集单独跟踪用于构建如上公开的数据集的生物样本中的细胞,并且有可能将来自克隆类型数据集的细胞映射到经聚类数据集180中的细胞上。
[0245] 此外,一旦已经加载了集群数据集180,就可以将集群5002应用于单克隆类型数据集122分析,从而将单克隆类型数据集122中的克隆类型124的视图筛选为来自经聚类数据集180中特定集群5002中的细胞的克隆类型124。例如,参考图45,仅示出了来自“44914-CRC_1_UB”克隆类型数据集122的克隆类型数据。此外,使用可供性4502将右侧表格中显示的克隆类型124的列表限制为来自在“44914-CRC_1_UB”克隆类型数据集122中同样在来自“CRC_aggr2”经聚类数据集180的“浆细胞”集群5002中的细胞的克隆类型。
[0246] 通过以下事实使得图45的比较成为可能:所公开的克隆类型数据集122和所应用的经聚类数据集180是使用单细胞测序方法构建的,所述单细胞测序方法使用来自相同生物样本的条形码化的cDNA构建体的公共池,因此克隆类型数据集122和所述经聚类数据集单独跟踪用于构建如上公开的数据集的生物样本中的细胞,并且有可能将来自克隆类型数据集的细胞映射到经聚类数据集180中的细胞上。
[0247] 单样本图表参考图47至49,根据本公开的一些实施例,VDJ浏览器120提供不同的单克隆类型数据集图表来分析单克隆类型数据集122。例如,图47展示了根据一些实施例的单个选择的克隆类型数据集122内的D基因使用情况图表。图48示出了根据一些实施例的单个选择的克隆类型数据集122内的C基因使用情况图表。图49示出了根据一些实施例的单个选择的克隆类型数据集122内的B细胞同种型视图。
[0248] 可以为本文描述为单个实例的组件、操作或结构提供多个实例。最后,各个组件、操作和数据存储之间的边界在某种程度上是任意的,并且在特定说明性配置的上下文中说明了特定操作。设想了其它功能分配,并且可以落入所述(多个)实施方案的范围内。总体上,在示例配置中作为单独分开的组件呈现的结构和功能可以实施为组合结构或组件。类似地,作为单个组件呈现的结构和功能可以实施为单独分开的组件。这些结构和功能及其它变型、修改、添加和改进落入所述(多个)实施方案的范围内。
[0249] 还应理解,尽管术语第一、第二等在本文中可以用来描述各种要素,但是这些要素不应该受这些术语的限制。这些术语仅用于将一个要素与另一个要素相区分。例如,在不脱离本公开的范围的情况下,第一主体可以被称为第二主体,并且,类似地,第二主体可以被称为第一主体。虽然第一主体和第二主体都为主体,但这些主体不是同一主体。
[0250] 在本公开中使用的术语仅用于描述具体实施例的目的,并且不旨在限制本发明。如在本发明的说明书和所附权利要求书中所使用的,除非上下文清楚地指示,否则单数形式“一个(a)”、“一个(an)”和“所述(the)”旨在同样包含复数形式。还将理解的是,如本文使用的术语“和/或”指代并且包括相关联的列举项的一个或多个项的任何和所有可能组合。
将进一步理解的是,当在本说明书中使用术语“包括(comprises)”和/或“包括(comprising)”时,其指定陈述的特征、整数、步骤、操作、要素和/或组件的存在,但不排除一个或多个其它特征、整数、步骤、操作、要素、组件和/或它们的组的存在或添加。
[0251] 如本文中所使用的,根据上下文,术语“如果”可以被解释为意指“当……时(when)”或“在……时(upon)”或“响应于确定”或“响应于检测”。
[0252] 前述描述包含体现说明性实施方案的示例系统、方法、技术、指令序列和计算机器程序产品。出于解释的目的,阐述了许多具体细节,以便提供对本发明主题的各个实施方案的理解。然而对于本领域的技术人员将显而易见的是,本发明的主题可以在没有这些具体细节的情况下实践。总体而言,未详细示出众所周知的说明实例、协议、结构和技术。
[0253] 为了解释的目的,前面的描述已经参照特定的实施方案进行了描述。然而,上述说明性讨论并不旨在穷举或将所述实施方案限制于所公开的精确形式。鉴于以上教导,许多修改和变化是可以的。选择和描述这些实施方案是为了最好地解释这些原理及其实际应用,由此使得本领域其它技术人员能够用适合预期的特定用途的多种修改方案来最好地使用这些实施方案和多种实施方案。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈