查看: 196|回复: 4

10X 单细胞转录组数据量够用吗?

[复制链接]

该用户从未签到

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
28
奥币
243
积分
305
注册时间
2019.7.8
在线时间
68 小时

发表于 2019.11.9 10:16:12 | 显示全部楼层 |阅读模式
自2009年Tang F et al.第一次报道了单细胞测序,相关技术便井喷式发展,从低通量的CEL-seq、SMART-seq等到高通量的Fluidigm C1、10X单细胞技术等,研究者可以同时获得成千上万个细胞的转录本。但是,细胞通量提高的同时,单个细胞的测序深度却在降低。

10X单细胞转录组(scRNA-seq)的测序深度受到两方面的因素制约:技术本身对转录本的捕获效率和测序技术对文库的检出灵敏度。普遍认为,scRNA-seq仅能检出一个细胞约20%的转录本,这与传统转录组的测序深度有很大差距。因此,不少研究者对于单细胞测序技术的准确性持怀疑态度,会产生两个忧虑:

(1)细胞分群是否准确

(2)基因挖掘信息是否完全
对于不同的测序深度,Heimberg G. et al. 基于建立了一套评估模型,对scRNA-seq的准确性进行了评估。

今天,我们就从这篇文章入手,为大家解惑,单细胞测序的现有测序量完全可以满足细胞分群及基因挖掘的需求。



1.数据评估模型

在普通转录组中,为了获取尽可能精确的数据信息,研究人员通常会选择提高测序深度。文章从普通转录组的不同测序深度入手,建立了评估模型。

主成分分析(PCA)无论在普通转录组还是单细胞转录组都是重要分析算法,尤其基于主成分(PC)的后续分析在细胞聚类和数据挖掘中发挥着重要作用,主成分的误差在很大程度上反映了数据的准确性。所以评估模型包含两个重要公式:

(1)误差评估公式

(2)数据量评估公式

在误差评估公式中,主成分误差值主要与协方差的差值成正相关,当测序深度降低时,数据向主成分向量收敛的协方差降低,产生的协方差差值提高,主成分误差值也提高。该公式表述的含义是测序数据量的降低会引起分析误差的增加。


在数据量评估公式中,数据分析所需数据量N与样本数n和主成分误差呈相关。该公式表述的含义是在保证主成分误差一定时,增加样本数或者说增加生物学重复可以有效降低数据分析数据量,换言之,样本数足够大的前提下,我们可以选择较低的测序深度。


由这两个公式,我们可以得出一个总体规律,排名越靠前的主成分受到低数据量的影响越小。



在这个分析模型的基础上,我们可以进一步解析单细胞转录组细胞分群和基因挖掘的准确性。


2.单细胞转录组细胞分群效果

我们常规使用的细胞聚类算法是基于PCA的分析结果完成的:在进行数据归一化后,寻找高变基因,在高变基因中去寻找主成分,利用显著的主成分构建KNN聚类关系图,再利用Jaccard优化距离关系,最后再通过Louvain算法完成聚类。

我们从这个过程可以看出来,PCA得到的主成分是完成细胞聚类的基石,那么,主成分的准确性在很大程度上决定了细胞聚类的准确性。如此,我们可以借助文章的数学模型来评估单细胞转录组的细胞分群效果。

对于细胞聚类,我们一般只使用排名靠前的若干个主成分,排名靠前的主成分本身受到低数据量的影响较小。以实际案例为例,在每个细胞10^4的UMI数时,即使PC10的错误率也是低于20%的。在Seurat中FindNeighbors()函数中,我们使用的主成分一般为排名前10-15。

其次,在细胞聚类的过程中,我们并非只使用某一个主成分,而是通过多个主成分进行细胞聚类,这保证了细胞聚类的准确性。


文章引用了一组神经细胞的单细胞测序结果来验证细胞分群的准确性。从图中可以看出,在每个细胞100条转录本的测序数据下,差异较大的两类细胞——少突胶质细胞和椎体细胞即可完成较好的分群;在每个细胞1000条转录本的测序数据下,差异较小的两类细胞——椎体细胞的两个子亚型也可以达到较好的区分度。



在一般的单细胞转录组实验中,我们得到的数据量都保持在每个细胞50K条转录本的数据量水平,这个数据量已经远远超过了细胞分群所需的最小数据量。从这个角度,我们也可以看出在现有的测序深度下,单细胞转录组的细胞分群的准确度是具有很高的可信度的。


3.单细胞转录组关键基因挖掘

单细胞转录组的关键基因挖掘是基于亚群上调基因分析完成的,所以,关键基因挖掘的准确性与亚群上调基因分析的准确性紧密相关。同时,能成为潜在关键基因的亚群上调基因一般是选择的top N的基因集,这个基因集和排名靠前的主成分间具有高度一致性。所以,关键基因挖掘的准确性可以通过PCA的准确性进行判断。

从文章的总体规律,我们知道越重要的主成分其实受到数据量降低的干扰是越小的。而对于排名前三的主成分来说,它们的抗干扰能力极高。

对于原始数据来说,我们以抗干扰能力来评估主成分准确性,那么,仅340条转录本就已经可以保证PC1 80%的准确性;对于整理后的分析数据,我们以噪音敏感性类评估这成分准确性,那么,仅4250条转录本就已经可以保证PC1 80%的准确性。从这个角度看,对细胞亚群发挥重要作用的基因在很低的数据量下即可保证较高的准确性。


从差异基因的显著性来看,PC1中的基因显著性在每个细胞4300条转录本的数据量下增长趋近于零,更大的数据量并不会大幅度提高基因的显著性。但是,我们也不得不承认,数据量的降低确实会引起差异基因显著性的降低,致使假阴性差异基因的出现。



从分析所需数据量来看,样本数目越大的项目实际需要的数据量会越低。单细胞转录组的差异基因分析是以细胞亚群为单位的,而一个细胞亚群内包含几十上百个细胞,每个细胞可以认为是其他所有细胞的生物学重复。


那么,对于细胞亚群这样一个包含了几十上百个生物学重复的样本来说,分析上调基因所需的数据量本身就会偏低。从这个角度来看,会影响差异基因分析准确性的因素更多地是亚群包含的细胞数目。


结合以上三个角度,对于现在的大样本高通量单细胞转录组来说,无论是测序数据量还是亚群所需细胞数目都是足以满足我们的关键基因挖掘需求的。

4.10X单细胞转录组的数据量

Heimberg G. et al.更多的是在生物信息学的角度去分析单细胞转录组的可靠性;在2017年,Svensson V. et al. 利用体外合成的转录本对多种单细胞技术进行了评估。

可以看出来,单细胞转录组的数据准确性其实并不会普通转录组低多少;而10X Genomics技术进行的单细胞转录组测序(GemCode)的准确性更是在同行的多种单细胞转录组技术中都是比较高的。


次,10X单细胞技术自创立这么多年来也一直革新自己的技术,现在细胞捕获试剂由V2版本更新至V3版本,单个细胞可以获取的转录本数量和基因数量都得到了显著的提升,那么,我们后续可以获取的细胞信息和基因信息也更加地丰富,细胞分群和基因挖掘的准确性都得到了极大的提高。



综上所述,现在的10X单细胞技术在实验技术层面和数据分析层面都是有很高的可信度的,很多老师的忧虑是没有必要的。有条件、有意向的老师可以放心地进行10X单细胞项目。

基迪奥已经承接了很多10X单细胞项目,具有丰富的项目经验,以优质的服务满足老师的项目需求,有意向的老师可以联系我们。加入QQ群可以和其他老师共同探讨项目经验,更有免费的在线课堂课程。

参考文献:
[1]Heimberg G, Bhatnagar R, El-Samad H, Thomson M. Low-dimensionality in gene expression data enables the accurate extraction of transcriptional programs from shallow sequencing. Cell Syst. 2016. 2(4): 239-250.
[2]Svensson V, Natarajan KN, Ly LH, and et al. Power Analysis of Single Cell RNA-Sequencing Experiments. Nat Methods, 2017. 14(4): 381-387.


本文作者:基迪奥-L.L

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

  • TA的每日心情
    忙~
    14 小时前
  • 签到天数: 21 天

    连续签到: 5 天

    [LV.4]偶尔看看III

    帝王蝶

    Rank: 4

    主题
    2
    奥币
    148
    积分
    392
    注册时间
    2019.10.25
    在线时间
    11 小时

    最佳新人活跃会员


    发表于 2019.11.10 10:18:35 | 显示全部楼层
    感谢楼主分享!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    14 小时前
  • 签到天数: 14 天

    连续签到: 6 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    204
    积分
    197
    注册时间
    2019.3.19
    在线时间
    4 小时

    发表于 2019.11.11 09:49:12 | 显示全部楼层
    感谢楼主分享!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    14 小时前
  • 签到天数: 21 天

    连续签到: 5 天

    [LV.4]偶尔看看III

    帝王蝶

    Rank: 4

    主题
    2
    奥币
    148
    积分
    392
    注册时间
    2019.10.25
    在线时间
    11 小时

    最佳新人活跃会员


    发表于 2019.11.12 09:40:17 | 显示全部楼层
    感谢楼主分享~
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    no
    7 小时前
  • 签到天数: 40 天

    连续签到: 7 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    745
    积分
    73
    注册时间
    2016.8.22
    在线时间
    19 小时

    发表于 4 天前 | 显示全部楼层
    感谢楼主分享!
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表