一种基于10X单细胞转录组测序数据的分析方法专利检索-同种异基因细胞生物学专利检索查询-专利查询网

一种基于10X单细胞转录组测序数据的分析方法

阅读：235发布：2020-05-11

专利汇可以提供一种基于10X单细胞转录组测序数据的分析方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于10X单细胞转录组测序数据的分析方法，包括步骤：S1，测序数据质控和表达量定量；S2，基于10X单细胞转录组测序数据进行单细胞亚群分类；S3，差异表达基因分析：筛选细胞亚群上调表达的基因，采用Seurat的bimod似然比统计检验，分别对不同类细胞群进行基因差异表达分析；S4，差异基因功能分析：根据S3获得的差异表达基因，进行差异表达基因GO功能分析和/或差异表达基因KEGG功能分析；S5，标记基因筛选与分析：包括标记基因筛选、标记基因表达分布、标记基因蛋白网络分析；方法还包括步骤S6，细胞轨迹分析：包括单细胞轨迹的构建、差异表达基因的分析、细胞轨迹分支分析。采用本发明的方法分析10X单细胞转录组测序数据更准确、更丰富。，下面是一种基于10X单细胞转录组测序数据的分析方法专利的具体信息内容。

权利要求

1.一种基于10X单细胞转录组测序数据的分析方法，其特征在于，包括如下步骤：
S1，测序数据质控和表达量定量：即对10X单细胞转录组测序数据进行测序数据、细胞数据的质量统计与控制，并与参考基因组比对以定量各基因表达量；
S2，基于10X单细胞转录组测序数据进行单细胞亚群分类；
S3，差异表达基因分析：筛选细胞亚群上调表达的基因，采用Seurat的bimod似然比统计检验，分别对不同类细胞群进行基因差异表达分析；
S4，差异基因功能分析：根据S3获得的差异表达基因，进行差异表达基因GO功能分析和/或差异表达基因KEGG功能分析；
S5，标记基因筛选与分析：包括标记基因筛选、标记基因表达分布、标记基因蛋白网络分析。
2.根据权利要求1所述的分析方法，其特征在于，所述步骤S1包括：
S11，通过识别序列中的Barcode序列标记和UMI标记，来获取样本中各个细胞和各个基因的表达量信息；
S12，将10X单细胞转录组测序数据中的cDNA序列片段比对参考基因组；
S13，过滤和校正barcodes与UMIs：相应的标准是，单细胞序列中barcodes要求与数据库已知的barcode序列完全一致，只允许有一个错配且这个错配只能出现在低质量碱基处；
接着这个错配会被校正，而其他不满足该条件的barcodes将会被过滤；UMI不允许是单寡聚链、不允许含有N、不允许含有质量值低于<10的碱基，否则会被过滤；
S14，基于各个基因在各个细胞中的UMI条数，得到对应的基因表达量定量结果。
3.根据权利要求1所述的分析方法，其特征在于，所述步骤S2包括：
S21，首先进行低质量细胞过滤和标准化，保留高质量细胞进行后续分析；
S22，在去除低质量细胞后，进行数据的表达量均一化，利用均一化后的表达量值进行PCA分析，通过主成分分析降维，减少变量；
S23，采用基于图论的聚类算法对细胞进行聚类和分群；
S24，基于细胞亚群分类的结果，利用线性聚类和非线性聚类的方法对单细胞亚群分类结果进行可视化。
4.根据权利要求3所述的分析方法，其特征在于，所述步骤S21中，根据以下指标进行低质量细胞过滤和标准化：
(1)单细胞中鉴定到的gene数量为700～3000；
(2)单细胞中UMI的总数小于8000；
(3)单细胞中UMI的线粒体基因表达量比例小于10％；
(4)Marker基因表达量和exclude基因表达量。
5.根据权利要求3所述的分析方法，其特征在于，所述步骤S22中，使用Seurat 软件的“Normalization”命令的LogNormalize方法，进行表达量均一化，表达量计算公式：A＝log[1+(UMIA÷Total UMI)×10000]，其中A为目标基因A的表达量；UMIA为A基因的UMI数量；
Total UMI为目标细胞中所有UMI数量的总和。
6.根据权利要求3所述的分析方法，其特征在于，所述步骤S22中，对表达量均一化后的数据，采用置换检验法，从PCA分析结果中选取最显著的前10个主成分用于后续的聚类和分群分析。
7.根据权利要求3所述的分析方法，其特征在于，所述步骤S23中，使用Seurat软件基于图论的聚类算法对细胞进行聚类和分群，包括以下步骤：
(1)构建细胞间的聚类关系：利用PCA分析中得到的前10个最显著的主成分构建基于欧式距离的KNN聚类关系图；
(2)优化细胞间聚类关系距离的权重值：利用Jaccard相似性优化细胞间距离的权重值；
(3)聚类和分群：使用Louvain算法进行细胞群聚类优化。
8.根据权利要求1所述的分析方法，其特征在于，所述步骤S3中上调表达基因的筛选条件为：
1)筛选的基因在必须目标亚群或对照亚群中，且在25％以上的样本中有表达；
2)P值≤0.01；
3)基因表达倍数logFC≥0.25，即基因上调的倍数≥2^0.25(约等于1.19)。
9.根据权利要求1所述的分析方法，其特征在于，所述分析方法还包括步骤S6：细胞轨迹分析，细胞轨迹分析包括：单细胞轨迹的构建、差异表达基因的分析、细胞轨迹分支分析。
10.根据权利要求9所述的分析方法，其特征在于，所述单细胞轨迹的构建包括步骤：将
10x Genomics生成的基因表达矩阵导入monocle，构建细胞分化轨迹，并分别对不同分化状态、不同样本及不同细胞亚群分别进行细胞轨迹可视化。

说明书全文

一种基于10X单细胞转录组测序数据的分析方法

技术领域

[0001] 本发明涉及转录组测序技术领域，尤其是一种基于10X单细胞转录组测序数据的分析方法。

背景技术

[0002] 10X单细胞转录组测序(scRNA-seq)，是在单个细胞水平对mRNA进行反转录扩增后进行高通量测序，获得相应数据并进行信息分析的技术，可以应用在人类细胞图谱构建、肿瘤异质性研究、干细胞发育及分化、神经系统发育研究、脑发育研究以及胚胎细胞发育研究等众多方面。该技术相对于转录组测序，可以揭示复杂细胞群体的异质性，避免单个细胞的基因表达信号被群体的平均化所掩盖。

[0003] 10X单细胞转录组测序技术的实施主要有两部分，一是实验样本建库测序，二是测序数据的生物信息分析。目前实验样本建库测序主要依靠10X Genomics平台完成且已被本领域认可并推广使用，而对实验数据的挖掘和分析主要依靠测序数据的生物信息分析，本技术领域尚未有良好的分析方法，分析流程过于简单和单一，因此，急需建立10X单细胞转录组测序数据所得的生物信息分析方法，并构建一套完整的数据分析流程。

发明内容

[0004] 基于上述问题，本发明的目的在于克服上述现有技术的不足之处而提供一种更准确、更丰富的10X单细胞转录组测序数据的分析方法。

[0005] 为实现上述目的，本发明采取的技术方案为：

[0006] 一种基于10X单细胞转录组测序数据的分析方法，包括如下步骤：

[0007] S1，测序数据质控和表达量定量：即对10X单细胞转录组测序数据进行测序数据、细胞数据的质量统计与控制，并与参考基因组比对以定量各基因表达量；

[0008] S2，基于10X单细胞转录组测序数据进行单细胞亚群分类；

[0009] S3，差异表达基因分析：筛选细胞亚群上调表达的基因，采用Seurat的bimod似然比统计检验，分别对不同类细胞群进行基因差异表达分析；

[0010] S4，差异基因功能分析：根据S3获得的差异表达基因，进行差异表达基因GO功能分析和/或差异表达基因KEGG功能分析；

[0011] S5，标记基因筛选与分析：包括标记基因筛选、标记基因表达分布、标记基因蛋白网络分析。

[0012] 其中，参考基因组可选择分析常用的参考基因组，比如人的是GRCH38基因组；需要说明的是，如果有多个样本，也可进行样本间亚群差异分析，针对所有样本的表达量数据进行合并和深度均一化，绘制细胞分型图谱，再对各样本进行细胞分型。单细胞包括但不限于人PBMC单细胞、干细胞、神经元细胞、脑细胞、各项肿瘤细胞等。

[0013] 优选地，所述步骤S1包括：

[0014] S11，通过识别序列中的Barcode序列标记和UMI标记，来获取样本中各个细胞和各个基因的表达量信息；

[0015] S12，将10X单细胞转录组测序数据中的cDNA序列片段比对参考基因组；

[0016] S13，过滤和校正barcodes与UMIs：相应的标准是，单细胞序列中barcodes要求与数据库已知的barcode序列完全一致，只允许有一个错配且这个错配只能出现在低质量碱基处；接着这个错配会被校正，而其他不满足该条件的barcodes将会被过滤；UMI不允许是单寡聚链、不允许含有N、不允许含有质量值低于<10的碱基，否则会被过滤；

[0017] S14，基于各个基因在各个细胞中的UMI条数，得到对应的基因表达量定量结果。

[0018] 关于低质量碱基，需要说明的是，测序出来的序列每个碱基都对应有一个质量值,这个质量值代表测出的这个碱基的准确性,质量值为10代表该碱基测序的错误率为1％。

[0019] 优选地，所述步骤S2包括：

[0020] S21，首先进行低质量细胞过滤和标准化，保留高质量细胞进行后续分析；

[0021] S22，在去除低质量细胞后，进行数据的表达量均一化，利用均一化后的表达量值进行PCA分析，通过主成分分析降维，减少变量；

[0022] S23，采用基于图论的聚类算法对细胞进行聚类和分群；

[0023] S24，基于细胞亚群分类的结果，利用线性聚类和非线性聚类的方法对单细胞亚群分类结果进行可视化。

[0024] 优选地，所述步骤S21中，根据以下指标进行低质量细胞过滤和标准化：

[0025] (1)单细胞中鉴定到的gene数量为700～3000；

[0026] (2)单细胞中UMI的总数小于8000；

[0027] (3)单细胞中UMI的线粒体基因表达量比例小于10％；

[0028] (4)Marker基因表达量和exclude基因表达量。

[0029] 本申请的发明人经多次试验发现，为了得到单个细胞，大于3000个表明可能在回收过程中有两个细胞包裹在一个液滴里，低于700则细胞质量较差；为了得到单个细胞，单细胞中UMI的总数优选小于8000；为了过滤掉低质量细胞，单细胞中UMI的线粒体基因表达量比例优选小于10％，因为线粒体比例过高暗示细胞存在凋亡现象。需要说明的是，exclude基因表达量表示过滤掉表达该基因的细胞，可以用来检测收集单细胞样本时有没有非目标细胞混入样本中，或去除干净；需要根据客户提供的基因信息确定过滤标准，否则不做过滤。

[0030] 优选地，所述步骤S22中，使用Seurat 软件的“Normalization”命令的LogNormalize方法，进行表达量均一化，表达量计算公式：A＝log[1+(UMIA÷Total UMI)×10000]，其中A为目标基因A的表达量；UMIA为A基因的UMI数量；Total UMI为目标细胞中所有UMI数量的总和。

[0031] 优选地，所述步骤S22中，对表达量均一化后的数据，采用置换检验法，从PCA分析结果中选取最显著的前10个主成分用于后续的聚类和分群分析。

[0032] 优选地，所述步骤S23中，使用Seurat软件基于图论的聚类算法对细胞进行聚类和分群，包括以下步骤：

[0033] (1)构建细胞间的聚类关系：利用PCA分析中得到的前10个最显著的主成分构建基于欧式距离的KNN聚类关系图；

[0034] (2)优化细胞间聚类关系距离的权重值：利用Jaccard相似性优化细胞间距离的权重值；

[0035] (3)聚类和分群：使用Louvain算法进行细胞群聚类优化。

[0036] 优选地，所述步骤S3中上调表达基因的筛选条件为：

[0037] 1)筛选的基因在必须目标亚群或对照亚群中，且在25％以上的样本中有表达；

[0038] 2)P值≤0.01；

[0039] 3)基因表达倍数logFC≥0.25，即基因上调的倍数≥2^0.25(约等于1.19)；

[0040] 优选地，所述步骤S4中，除了根据步骤S3获得的差异表达基因，进行差异表达基因GO功能分析和/或差异表达基因KEGG功能分析，也可以根据研究需求进行但不限于：差异基因Reactome和DO功能富集分析、转录因子分析。

[0041] 优选地，所述差异表达基因GO功能分析，是将差异表达转录本向GO数据库的各term映射，并计算每个term的转录本数，从而得到具有某个GO功能的转录本列表及转录本数目统计；然后应用超几何假设检验，找出与整个转录本组背景相比，在差异表达转录本中显著富集的GO条目，所述假设检验的p-value计算公式为：

[0042]

[0043] 其中，N为所有Unigene中具有GO注释的转录本数目；n为N中差异表达转录本的数目；M为所有Unigene中注释为某特定GO term的转录本数目；m为注释为某特定GO term的差异表达转录本数目。

[0044] 优选地，所述差异表达基因KEGG功能分析包括Pathway显著性富集分析，以KEGG Pathway为单位，应用超几何假设检验，找出与整个转录本组背景相比，在差异表达转录本中显著性富集的Pathway，所述假设检验的p-value计算公式如下：

[0045]

[0046] 其中，N为所有Unigene中具有Pathway注释的转录本数目；n为N中差异表达转录本的数目；M为所有Unigene中注释为某特定Pathway的转录本数目；m为注释为某特定Pathway的差异表达转录本数目。

[0047] 优选地，所述步骤S5，包括但不限于标记基因筛选、标记基因表达分布、标记基因蛋白网络分析；具体内容包括：

[0048] 1)标记基因筛选：根据各亚群基因上调表达分析的结果，进一步从各亚群选取上调表达量倍数最高的Top20基因作为标记基因；

[0049] 2)标记基因表达分布：基于标记基因表达量，利用表达分布热图和气泡图展示各个标记基因在各个细胞亚群中的表达分布；

[0050] 3)标记基因蛋白网络分析：利用STRING蛋白质相互作用网络数据库，构建标记基因相互作用网络。

[0051] 优选地，所述分析方法还包括步骤S6：细胞轨迹分析，细胞轨迹分析包括：单细胞轨迹的构建、差异表达基因的分析、细胞轨迹分支分析。

[0052] 优选地，所述单细胞轨迹的构建包括步骤：将10x Genomics生成的基因表达矩阵导入monocle，构建细胞分化轨迹，并分别对不同分化状态、不同样本及不同细胞亚群分别进行细胞轨迹可视化。

[0053] 优选地，所述基因差异表达分析包括步骤：Monocle利用所有细胞中基因表达水平的信号，对不同类型细胞(不同分化状态、细胞亚群或发育时间点等)进行基因表达差异分析(筛选条件为FDR<1e-5)，寻找发育分化过程相关的关键基因；包括但不限于差异基因在不同分化状态的散点图、差异基因拟时间表达轨迹图、拟时间表达模式基因聚类分析，具体内容包括但不限于：

[0054] 1)差异基因在不同分化状态的散点图：基于不同分化状态细胞的基因表达水平，筛选随分化状态差异表达基因，同时利用散点图展示top10的基因在不同状态下的分布情况；

[0055] 2)差异基因拟时间表达轨迹图：基于每个细胞的拟时间值，筛选随拟时间线差异表达基因，并绘制top10差异基因表达水平随拟时间线的变化情况；

[0056] 3)拟时间表达模式基因聚类分析：利用qval<0.1筛选显著拟时间线依赖基因，并对拟时间线依赖基因进行聚类分析，寻找具有相似表达趋势的基因。

[0057] 优选地，所述细胞轨迹分支分析包括步骤：首先通过显著性分析，筛选分支依赖基因(筛选条件为FDR<1e-7)；然后根据两个分支节点基因表达变化，将具有类似谱系依赖性表达模式的基因模块可视化；可视化包括但不限于，对分支依赖性基因进行层级聚类分析，展示基因随分支表达变化趋势。

[0058] 综上所述，本发明的有益效果为：

[0059] 采用本发明的方法分析10X单细胞转录组测序数据相比现有技术更准确、更丰富，同时，还增加了个性化分析内容，具体包括序数据质控和表达量定量、单细胞亚群分类、差异表达基因分析、差异基因功能分析和标记基因分析，以及个性化的细胞轨迹分析。附图说明

[0060] 图1是10X单细胞转录组库测序数据分析方法的示意图；

[0061] 图2是10X单细胞转录组库测序数据分析流程图；

[0062] 图3是数据定量获得有效细胞鉴定图，其中，横坐标为barcode序列数，纵坐标为UMI数目，间隔线对应的barcode为有效细胞，实线为背景噪音；

[0063] 图4是单细胞亚群分类tSNE图，其中，每个点代表一个细胞，左图中不同颜色表示不同样本的细胞；右图中不同颜色表示不同亚群的细胞；

[0064] 图5是各亚群上调表达基因统计结果柱状图；

[0065] 图6是KEGG富集气泡结果图；

[0066] 图7是细胞轨迹拟时分布图，其中，不同点代表不同细胞，点颜色越深即拟时间越小，代表发育时期越早。

具体实施方式

[0067] 为更好的说明本发明的目的、技术方案和优点，下面将结合附图和具体实施例对本发明作进一步说明。如无特别说明，本申请中材料均可从市场或其它公开渠道获得。

[0068] 实施例1

[0069] 本发明的基于10X单细胞转录组库测序数据的分析方法的一种实施例，参见图1和2，首先通过对原始数据(即10X单细胞转录组测序数据)进行数据过滤、比对、定量、鉴定回收细胞，得到各细胞的基因表达矩阵，然后进行进一步的细胞过滤、标准化、细胞亚群分类、各亚群差异表达基因分析及标记基因分析；该分析方法的具体步骤如下：

[0070] (1)测序数据质控和表达量定量：本方法采用10×genomics分析软件Cell Ranger和Seurat软件对原始数据(即单细胞样本通过测序仪产生单细胞转录组原始数据，本实施例中单细胞样本为人PBMC单细胞样本，PBMC即外周血单个核细胞)进行测序数据、细胞数据的质量统计，并比对参考基因组。软件通过识别序列中的Barcode序列标记(区分细胞)和UMI(Unique Molecular Identifier)标记(用于区分每个细胞内不同的mRNA分子)，来获取样本中各个细胞和各个基因的表达量信息。illumina双末端测序结果中，Read1包含16bp GemCode barcode(区分不同细胞)和10bp UMI(区分不同RNA分子)；Read2为cDNA序列片段。Cell Ranger调用STAR(Spliced Transcripts Alignment to a Reference)比对软件将Read2比对到参考基因组并比对参考基因组。接着，Cell Ranger会过滤和校正barcodes与UMIs。Cell barcodes要求与数据库已知的barcode序列完全一致，只允许有一个错配且这个错配只能出现在低质量碱基处。接着这个错误将会被校正，而其他不满足该条件的barcodes将会被过滤。UMI不允许是单寡聚链、不允许含有N、不允许含有质量值低于<10的碱基，否则会被过滤。基于各个基因在各个细胞中的UMI条数，得到对应的基因表达量定量结果(参见图3)；

[0071] (2)单细胞亚群分类：进行单细胞亚群分类，首先使用多个指标进行低质量细胞过滤和标准化，保留高质量细胞进行后续分析。在去除低质量细胞后，进行数据的表达量均一化，利用均一化后的表达量值进行PCA(Principal component analysis)分析，通过主成分分析降维，减少变量。最后采用基于图论的聚类算法对细胞进行聚类和分群。基于细胞亚群分类的结果，进一步利用线性聚类(PCA)和非线性聚类(tSNE，t-Distributed Stochastic Neighbor Embedding)的方法对单细胞亚群分类结果进行可视化，结果参见图4；

[0072] (3)差异表达基因分析：筛选亚群上调表达的基因，采用Seurat的bimod似然比统计检验分别对不同类细胞群进行基因差异表达分析，结果参见图5；

[0073] (4)差异基因功能分析：根据步骤(3)获得的差异表达基因，进行差异表达基因GO功能分析和/或差异表达基因KEGG功能分析，结果参见图6；

[0074] (5)标记基因筛选与分析：包括但不限于标记基因筛选、标记基因表达分布、标记基因蛋白网络分析；具体内容为：

[0075] 1)标记基因筛选：根据各亚群基因上调表达分析的结果，进一步从各亚群选取上调表达量倍数最高的Top20基因作为标记基因。

[0076] 2)标记基因表达分布：基于标记基因表达量，利用表达分布热图和气泡图展示各个标记基因在各个细胞亚群中的表达分布。

[0077] 3)标记基因蛋白网络分析：利用STRING蛋白质相互作用网络数据库，构建标记基因相互作用网络。

[0078] 上述步骤(2)中根据以下指标进行低质量细胞过滤和标准化：

[0079] 1)单细胞中鉴定到的gene数量(优选：700～3000)；

[0080] 2)单细胞中UMI的总数(优选：小于8000)；

[0081] 3)单细胞中UMI的线粒体基因表达量比例(优选：小于10％)；

[0082] 4)Marker基因表达量和exclude基因表达量(需要根据客户提供的基因信息确定过滤标准，否则不做过滤)。exclude基因表达量表示过滤掉表达该基因的细胞，可以用来检测收集单细胞样本时有没有非目标细胞混入样本中，或去除干净。

[0083] 上述步骤(2)中，使用Seurat软件的“Normalization”命令的LogNormalize方法，进行表达量均一化。表达量计算公式：A＝log[1+(UMIA÷Total UMI)×10000]。其中A为目标基因A的表达量；UMIA:A基因的UMI数量；Total UMI：目标细胞中所有UMI数量的总和；log：以e为底数的自然对数。

[0084] 上述步骤(2)中，对表达量均一化后的数据，采用置换检验法，从PCA分析结果中选取最显著的前10个主成分(PC)用于后续的聚类和分群分析。

[0085] 上述步骤(2)中，使用Seurat软件基于图论的聚类算法对细胞进行聚类和分群。主要包括以下步骤：

[0086] 1)构建细胞间的聚类关系：利用PCA分析中得到的前10个最显著的主成分构建基于欧式距离的KNN聚类关系图；

[0087] 2)优化细胞间聚类关系距离的权重值：利用Jaccard相似性优化细胞间距离的权重值；

[0088] 3)聚类和分群：使用Louvain算法进行细胞群聚类优化。

[0089] 另外，如果有多个样本，也可进行样本间亚群差异分析，针对所有样本的表达量数据进行合并和深度均一化，绘制细胞分型图谱，再对各样本进行细胞分型。

[0090] 上述步骤(3)中，上调基因的筛选条件为：

[0091] 1)基因必须目标亚群或对照亚群(其他亚群的并集)中，在25％以上的样本中有表达；

[0092] 2)P值≤0.01；

[0093] 3)基因表达倍数logFC≥0.25，即基因上调的倍数≥2^0.25(约等于1.19)；其中，FC是fold change的简写，logFC是FC的对数值，意义就是“差值倍数”/“基因差异表达倍数”；

[0094] 上述步骤(4)差异基因功能分析中，除了根据步骤(3)获得的差异表达基因，进行差异表达基因GO功能分析和/或差异表达基因KEGG功能分析，也可以根据研究需求进行：差异基因Reactome和DO功能富集分析、转录因子分析。

[0095] 差异表达基因GO功能分析，是将差异表达转录本向GO数据库(http://www.geneontology.org/)的各term映射，并计算每个term的转录本数，从而得到具有某个GO功能的转录本列表及转录本数目统计。然后应用超几何假设检验，找出与整个转录本组背景相比，在差异表达转录本中显著富集的GO条目,该假设检验的p-value计算公式为：

[0096]

[0097] 其中，N为所有Unigene中具有GO注释的转录本数目；n为N中差异表达转录本的数目；M为所有Unigene中注释为某特定GO term的转录本数目；m为注释为某特定GO term的差异表达转录本数目。

[0098] 计算得到的p-value通过FDR校正之后，以Q-value≤0.05为阈值，满足此条件的GO term定义为在差异表达转录本中显著富集的GO term，并对差异基因按上下调进行GO term分类进行柱状图、热图等图形统计。通过GO功能显著性富集分析能确定差异表达转录本行使的主要生物学功能。

[0099] 上述方法中，Pathway显著性富集分析以KEGG Pathway为单位，应用超几何假设检验，找出与整个转录本组背景相比，在差异表达转录本中显著性富集的Pathway，结果参见图6。该假设检验的p-value计算公式如下：

[0100]

[0101] 其中，N为所有Unigene中具有Pathway注释的转录本数目；n为N中差异表达转录本的数目；M为所有Unigene中注释为某特定Pathway的转录本数目；m为注释为某特定Pathway的差异表达转录本数目。

[0102] 选择Qvalue≤0.05的Pathway定义为在差异表达转录本中显著富集的Pathway，并对差异结果图示化展示。通过Pathway显著性富集能确定差异表达转录本参与的最主要生化代谢途径和信号转导途径。

[0103] 上述步骤S4，除以上两种基本差异分析外，基础流程中的GO和KEGG功能富集分析之外，也可以根据研究需求进行但不限于：差异基因Reactome和DO功能富集分析、转录因子分析。Reactome数据库汇集了人类各项反应及生物学通路。DO(Disease Ontology)是描述基因功能与疾病相关的数据库。转录因子与基因表达调控区域的特异性结合是基因表达的重要调控方式，对具有编码转录因子能力的差异表达基因进行预测，同时对差异表达基因所属的转录因子家族进行了分类。

[0104] 除上述基础分析外，若已知实验样本在特定类型细胞表达的标记基因，可以分析标记基因在个细胞亚群中的表达分布，可通过但不限于小提琴图、t-SNE图、气泡图及热图展示表达分布结果。

[0105] 市场上其它公司直接套用10x官方软件Cell Ranger的流程，而本实施例在Cell Ranger的基础上，又利用Seurat软件(用于单细胞数据的质量控制和分析)，使分析结果更准确、更丰富；测序质控与定量部分采用Cell Ranger软件，后续分析采用Seruat。另外，除了市面上的基础分析外，本发明的分析方法在高级定制个性化分析方面也进行了独特的设计。

[0106] 除上述的基础化分析外，本实施例的分析方法还可根据需要进行个性化分析：包括但不限于细胞轨迹分析。细胞轨迹(cell trajectory)分析，又称拟时间序列(pseudotime)分析，利用monocle在拟时间对单个细胞进行排序的策略，通过单个细胞非同步的生物学过程，将细胞放置在合适的与生物学过程(如细胞分化)相对应的轨迹位置上。细胞轨迹分析主要包括但不限于3项内容：单细胞轨迹的构建、差异表达基因的分析、细胞轨迹分支分析。其中，monocle软件是针对单细胞转录组测序数据开发的，用来找不同细胞类型或者不同细胞状态的差异表达基因的一款软件。细胞轨迹分析的具体内容介绍如下：

[0107] (1)单细胞轨迹的构建：将10x Genomics生成的基因表达矩阵导入monocle，构建细胞分化轨迹，并分别对不同分化状态(state)、不同样本及不同细胞亚群(cluster)分别进行细胞轨迹可视化。其中state指monocle生成的树形结构中(细胞轨迹)的某一段，结果参见图7。

[0108] (2)基因差异表达分析：Monocle可以利用所有细胞中基因表达水平的信号，对不同类型细胞(不同分化状态、细胞亚群或发育时间点等)进行基因表达差异分析(筛选条件为FDR<1e-5)，寻找发育分化过程相关的关键基因；包括但不限于差异基因在不同分化状态的散点图、差异基因拟时间表达轨迹图、拟时间表达模式基因聚类分析，具体内容包括但不限于：

[0109] 1)差异基因在不同分化状态的散点图：基于不同分化状态细胞的基因表达水平，筛选随分化状态差异表达基因，同时利用散点图展示top10的基因在不同状态下的分布情况。

[0110] 2)差异基因拟时间表达轨迹图：基于每个细胞的拟时间值，筛选随拟时间线差异表达基因，并绘制top10差异基因表达水平随拟时间线的变化情况。

[0111] 3)拟时间表达模式基因聚类分析：利用qval<0.1筛选显著拟时间线依赖基因，并对拟时间线依赖基因进行聚类分析，寻找具有相似表达趋势的基因。

[0112] (3)细胞轨迹分支分析：单细胞轨迹包括分支(branch)，分支发生是因为细胞执行替代基因表达程序。分支在发育过程中出现在轨迹中，细胞选择命运：一个发育谱系沿着一条路径进行，而另一条谱系产生另一条路径。首先通过显著性分析，筛选分支依赖基因(筛选条件为FDR<1e-7)；然后根据两个分支节点基因表达变化，将具有类似谱系依赖性表达模式的基因模块可视化。可视化包括但不限于，对分支依赖性基因进行层级聚类分析，展示基因随分支表达变化趋势。

[0113] 最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

标题	发布/更新时间	阅读量
一种建立大肠癌HK2报告基因细胞系的方法	2020-05-11	559
造血干细胞基因治疗方法	2020-05-12	507
通过交叉物种核移植制备的胚胎或干样细胞	2020-05-12	381
一种用于治疗肿瘤的基因工程细胞	2020-05-12	485
CAR修饰的NK细胞的制备方法	2020-05-13	214
乳腺特异性表达抗菌肽Cecropin基因的同源重组载体及应用	2020-05-13	979
一种定点突变MSTN并同时定点整合PPARγ的载体	2020-05-12	814
一种基因定位整合表达系统及其应用	2020-05-11	185
用于细胞特异和发育特异性选择分化的胚干细胞、成人干细胞和胚种系细胞的系统	2020-05-11	1012
用于细胞特异和发育特异性选择分化的胚干细胞、成人干细胞和胚种系细胞的系统	2020-05-11	427

一种基于10X单细胞转录组测序数据的分析方法

一种基于10X单细胞转录组测序数据的分析方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：