查看: 776|回复: 12

[转录组] ​转录组表达差异分析的参数调整(上)

  [复制链接]
  • TA的每日心情
    忙~
    2019.12.2 17:10
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    50
    奥币
    130
    积分
    499
    注册时间
    2019.7.8
    在线时间
    102 小时

    发表于 2019.11.27 10:06:12 | 显示全部楼层 |阅读模式
    差异分析是二代测序分析的最基础分析之一。从最常见的转录组测序,到chip-seq、m6A-seq等都会用到差异分析。在平时的测序数据解读中,大家往往会遇到这些问题,包括表达差异的标准是什么?为什么我的差异基因这么少?为什么我的差异基因这么多?我如何调整参数,从而可以调整差异基因的数量。下文,我们以转录组测序为例,讲讲表达差异分析。

    差异显著的概念

    基础概念

    二代测序看起来逼格比较高,所以有时候大家反而忘了转录组测序的本质。转录组测序本质就是定量实验,只不过平行同时进行了几万个基因的定量而已。所以其本质还是与Qpcr类似,都涉及定量以及差异性检验。表1以单个基因为例,看看单个基因的差异分析是怎么做的。

    表1 某个基因在组间的表达情况

    表1是某个基因在处理组和对照组的定量结果(比如FPKM值)。可以看到处理组4个重复,对照组3个重复,最终可以算计算两组的均值。那么如果用T检验,进行差异分析的结果如下:


    差异倍数= 31.75/12.33=2.58

    Log2(差异倍数)= log2(2.58) = 1.36
    P值= 0.00242(基于T检验)

    我们常说的差异显著的标准就是:

    (a)差异倍数 ≥2        即log2(差异倍数)的绝对值≥1
    (b)P值<0.05   

    把以上两个标准翻译成白话就是:

    (a)组间表达水平差异足够大 (都2倍了,还嫌不够,你良心不痛吗?)
    (b)这种差异在统计学水平是显著的(没P值上不了台面)

    小结


    这里我先摆出几个结论,关键的内容下文再解释:

    (1)对于差异分析,处理组和对照的重复数不需要是相同的(比如2 vs 3 )。
    (2)差异倍数是基于两组的均值相除得到的。
    (3)转录组数据中每个基因的差异分析是独立进行了,所以转录组数据的差异分析本质上是进行了以上几万次单个基因差异分析。为了降低假阳性,我们需要对P值进行矫正,获得矫正后的p值,称为FDR值或Q value。所以我们常见的标准是FDR<0.05,而不是P值小于0.05。关于P值矫正,请见下文的Tips。
    (4)转录组差异分析的标准倍数≥2,FDR<0.05是个经验值。一般差异倍数可以在1.2~2倍间适当浮动调整,FDR值可以在0.1~0.01之间浮动调整。


    Tips: 多重检验矫正


    关于多次统计检验后的P值矫正,又称为多重检验矫正。主要是为了控制重复多次检验后假阳性结果数量上升的问题。具体的这部分内容的解释,可以参照Omicshare论坛的帖子:

    《显著检验与多重检验校正》

    或者,也可以收看Omicshare课题的录播视频


    差异分析的理论基础

    差异分析的朴素原理

    差异分析为什么要计算P值呢?因为我们观测到某个基因的表达量在不同处理组间存在差异的时候(完全一摸一样的情况几乎是不存在的),差异的来源有2种:
    1) 随机误差

    2) 真实实验处理导致的差异
    即:不同组样本间的平均差异(V1) = 随机误差效应+ 处理效应

    由于随机误差永远是存在的,但处理效应却未必(就是处理对样本没有效果)。那么,当我们观察到组间差异的时候,如何判断其不仅来源随机误差导致的差异,也来源处理效应导致的差异呢?那就需要把随机误差的大小计算出来。


    用什么计算随机误差?用组内样本间的差异计算随机误差,即:组内的重复样本间平均差异(V2) = 随机误差效应


    如果我们能在统计学水平证明:V1 > V2,或者V1/V2 >1,则证明处理效应是存在的。这是差异分析的统计学概念的简单解释。这也是为什么实验需要重复,如果没有重复,我们不能真正意义上预估实验随机误差的大小,自然无法证明处理效应是真实存在的。


    图1 误差来源的示意图

    二代测序中的差异分析

    差异分析的方法之间的区别,本质是统计学方法的差别。而不同统计学方法差别的核心是对随机误差的估计方法不同。转录组差异分析的方法,与常见t检验、方差分析等略有不同。T检验、方差分析等,对基于随机误差符合正态分布的假设来构建的。而转录组测序本质是测一条条mRNA的序列,利用不同mRNA的测序量来估计基因的表达量。这种测序引入的随机误差,并不符合正态分布,而是接近于一些更复杂的混合分布,如表2。

    表2 不同差异统计方法对误差分布的假设
    方法
    假设的误差分布模式
    T检验
    正态分布
    edgeR
    负二项分布
    Cuffdiff
    β负二项分布

    这也解释了,利用转录组测序数据进行进行差异检验,必须导入各个基因的测序reads数,而不是FPKM、RPKM等矫正后的表达量。因为只有用原始的reads数才能正确估计测序相关的随机误差。所以,对应转录组测序的差异分析两个指标,其数据来源是不同的:


    (a) 差异倍数  →来源FPKM、RPKM均值的差异倍数;

    (b) P值以及FDR值→来源基于基因reads数的差异检验。

    所以,有时候有些老师问:我现在只有转录组的RPKM值想进行差异分析,可以用edgeR等软件分析吗?严格意义上,这是不严谨的。如果你没有基因reads数的信息,那么还是用t检验等方法吧,不然用edgeR等基于二代测序的差异分析方法可能会有很大的误差。以上两个方法,在我们的omicshare 工具里面都有,你不需要任何编程技巧就可以批量完成上万个基因的差异分析。


    图2 我们Omicshare平台提供了多种差异分析的方法

    网址:
    [url=https://www.omicshare.com/tools/Home/Soft/getsoft/type/count/order/newest]https://www.omicshare.com/tools/Home/Soft/getsoft/type/count/order/newest


    为什么二代测序没有生物学重复也可以进行差异检验


    二代测序的随机误差实际上又由两个部分构成的:
    (a)测序仪读数引入的随机误差,这里我称之为效应A。
    (b)生物学实验引入的随机误差,这里我称之为效应B。这个效应包括生物学重复样本间的生物背景差异,实验处理过程中的人为差异等。

    效应A,可以通过测序量的多少估算出来。而效应B,则纯粹只能靠生物学重复间的差异来估算。如果没有重复,效应B理论上是无法计算的。不同某些软件,提供了一些备选方案。比如edgeR软件,允许你在没有重复的情况下,人为设定效应B的大小(就是所谓的离散系数)。这个数值可以根据以往项目的经验值中去设定。


    在我们Omicshare在线工具的差异分析工具中,就使用的edgeR这款软件,并为用户提供了没有生物学重复的情况下,人为设定离散系数进行差异分析的选项,并在使用说明里提供了推荐使用的经验值。

    图3 Omicshare在线edgeR差异分析工具截图

    网址:
    https://www.omicshare.com/tools/Home/Soft/diffanalysis

    今天的对差异分析的内容介绍就先讲到这里。在下一期的文章里,我将给大家继续介绍:

    (1)影响差异分析显著性的因素
    (2)如果差异分析结果不符合预期,可以如何进行调整

    如果你对差异分析感兴趣,可以收看omicshare在线课堂的对应专题课:
    https://www.omicshare.com/class/home/index/series?id=2


    以上介绍的,实际上都是转录组数据解析基础内容的一小部分。当然,如果能系统学习转录组数据的知识,对你后续的数据解析将有很大的帮助。要想系统掌握这些知识,一种比较好的选择就是参加一个系统的线下培训班,然后再后续不断学习巩固。我们新一期的转录组培训班2019年12月9日-12月13日进行,还有少量名额。这个时间学习一下,来年写基金,毕业都可以用得上。

    课程表

    报名费:5000元/人(交通和食宿费用自理)团购有优惠,2人报名95折,3人报名85折!

    报名方式:

    方式一:长按图片识别二维码填写信息报名(二维码见本文底部)
    方式二:发送“姓名、单位及电话”到邮箱[url=mailto:contact@genedenovo.com]contact@genedenovo.com
    ,主题注明“转录组培训班”
    方式三:登陆基迪奥线下培训班官网网站进行报名

    培训班官方网站:www.omicshare.com/train

    客服:020-39341079

    报名二维码

    名额有限,欲报从速~

    本文作者:基迪奥-周老师

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情
    害羞
    3 小时前
  • 签到天数: 681 天

    连续签到: 2 天

    [LV.9]以坛为家II

    迅猛龙

    Rank: 8Rank: 8

    主题
    26
    奥币
    3983
    积分
    1749
    注册时间
    2016.1.8
    在线时间
    418 小时

    发表于 2019.11.27 11:18:07 | 显示全部楼层
    此贴不赖,鉴定完毕
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    8 小时前
  • 签到天数: 938 天

    连续签到: 14 天

    [LV.10]以坛为家III

    中华鲟

    Rank: 5Rank: 5

    主题
    15
    奥币
    3105
    积分
    841
    注册时间
    2016.7.20
    在线时间
    444 小时

    发表于 2019.11.27 14:18:57 | 显示全部楼层
    如果我们能在统计学水平证明:V1 > V2,或者V2/V1 >1,则证明处理效应是存在的。
    这里是不是有问题

    点评

    是我们写错了,已经改过来了。  发表于 2019.11.30 09:42
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019.11.28 10:37
  • 签到天数: 9 天

    连续签到: 1 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    40
    积分
    138
    注册时间
    2016.9.13
    在线时间
    31 小时

    活跃会员


    发表于 2019.11.27 19:47:20 | 显示全部楼层
    q值是什么
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    15 小时前
  • 签到天数: 37 天

    连续签到: 3 天

    [LV.5]常住居民I

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    582
    积分
    450
    注册时间
    2019.3.19
    在线时间
    7 小时

    活跃会员最佳新人


    发表于 2019.11.28 08:04:14 | 显示全部楼层
    感谢楼主分享
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    15 小时前
  • 签到天数: 44 天

    连续签到: 3 天

    [LV.5]常住居民I

    中华鲟

    Rank: 5Rank: 5

    主题
    2
    奥币
    561
    积分
    686
    注册时间
    2019.10.25
    在线时间
    25 小时

    发表于 2019.11.28 08:08:22 | 显示全部楼层
    感谢周老师分享~
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    15 小时前
  • 签到天数: 37 天

    连续签到: 3 天

    [LV.5]常住居民I

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    582
    积分
    450
    注册时间
    2019.3.19
    在线时间
    7 小时

    活跃会员最佳新人


    发表于 2019.11.29 08:37:36 | 显示全部楼层
    感谢楼主分享
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    1 小时前
  • 签到天数: 285 天

    连续签到: 9 天

    [LV.8]以坛为家I

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    721
    积分
    228
    注册时间
    2018.1.22
    在线时间
    107 小时

    发表于 2019.11.30 10:08:42 | 显示全部楼层
    感谢分享
    回复

    使用道具 举报

  • TA的每日心情
    吃饭
    2019.11.2 21:41
  • 签到天数: 2 天

    连续签到: 1 天

    [LV.1]初来乍到

    钵水母

    Rank: 3Rank: 3

    主题
    2
    奥币
    212
    积分
    43
    注册时间
    2017.12.20
    在线时间
    14 小时

    发表于 2019.12.1 09:49:22 | 显示全部楼层
    感谢分享,豁然开朗
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    8 小时前
  • 签到天数: 210 天

    连续签到: 22 天

    [LV.7]常住居民III

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    559
    积分
    237
    注册时间
    2016.12.6
    在线时间
    90 小时

    发表于 2019.12.2 10:57:40 | 显示全部楼层
    感谢楼主分享,,,,
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    钵水母

    Rank: 3Rank: 3

    主题
    2
    奥币
    29
    积分
    29
    注册时间
    2019.11.27
    在线时间
    1 小时

    发表于 2019.12.4 19:31:25 | 显示全部楼层
    很好
    回复

    使用道具 举报

  • TA的每日心情
    no
    2019.11.16 15:23
  • 签到天数: 3 天

    连续签到: 1 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    50
    积分
    21
    注册时间
    2019.9.24
    在线时间
    5 小时

    发表于 5 天前 | 显示全部楼层
    还好还好好
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表