查看: 2175|回复: 0

[动植物重测序] 核酸突变与分化时间推测

[复制链接]

管理员

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

主题
153
注册时间
2019.7.8
在线时间
243 小时

发表于 2019.12.5 09:53:25 | 显示全部楼层 |阅读模式
一想到系统发生树,大家可能就会联想的进化分化时间。在上一本红宝书中,我们已经解释了树的解读。树型结构,只能由于评估个体样本间的相对差异度——也就是距离,并不包含分化时间这一信息。那么,两个物种(个体)的分化时间该如何计算获得呢?

图1 树的结构往往让我们联想到分化关系以及分化时间

在小学数学课上,我们都学过:如果两辆汽车从同一个地点出发,然后相背而行,在行使一定时间后,存在3个变量。两者的距离D,两者相对速度(也就是他们的速度之和V1+V2)、和行使的时间T,存在非常简单的线性关系(就是距离=相对速度×时间,如图2)。

类似的,对于物种进化和分化来说,对应的问题是一样的。两个物种在分化前,共享1个共同祖先,这时候它们分化的时间是T=0。但如果它们因为地理隔离等因素分化为两个种群后,开始朝着两个不同的方向演化。那么就如同汽车分离问题一样。两者以相似速度累积突变(近缘种的核酸突变速度是类似的),导致它们差异越来越大。


在分化一定的时间(T)后,它们的核酸替换率(相当于两个序列的差异,也就是平均每个位点的突变次数)是K ,而如果我们知道它们的核酸突变速度r (单位一般是每个位点每年的突变概率),那么就可以从公式反推它们的分化时间T=K/2r。


图2 小学学过的知识虽然很基础,但却可以用一辈子

这就是最简单基础的物种分化时间方法。当然,实际操作的时候,会涉及多种不同的计算方法。例如,给定来源两个物种的同源编码基因核酸序列,如何计算它们的核酸替换率r呢?有不少因素需要考虑:


(1)一般选择同源编码基因进行比较。因为只有编码基因在物种间才有保守性。为了避免多拷贝基因的选择压的不稳定,一般选择单拷贝同源基因进行比较。


(2)为了避免进化选择压变化对突变的影响,一般只分析编码基因的同义(synonymous)突变位点的差异度(即为Ks值)。


(3)核酸序列在突变过程中存在回复突变,以及转换、颠换的突变速度不同,所以两组核酸间观察到的差异度,并非实际在进化过程中的累积替换次数(比如,1个位点从C突变为T,又从T突变回C,从序列差异度上是0,但从替换次数来看应该是2)。


不同的算法通过矫正推算得的核酸替代率Ks有较大差异。以Kaks calculator软件为例,NG算法与YN算法的结果就可能不同。对于差异大(不同科甚至更大)的物种,YN算法偏向于严重高估Ks值,而NG算法的结果更稳定,目前使用更广泛。


至于核酸突变速度(r),这个本身是很有争议的东西。部分物种的r值是如何计算得到的呢?是这样的:

(1)从化石证据,找到两个物种最近的共同祖先,获得T;
(2)比较它们的同源基因,获得ks值;
(3)计算获得r=Ks/2T
(4)假设同一类物种的核酸突变速度是相似的,那么r值就可以推广到更多的物种里。

但这些过程也会产生争议:


(1)化石本身越挖越多,新的证据往往会推翻旧的证据。而且,用碳14等方法推算化石来源的年代也只是大概准的东西,有一定的误差;


(2)近缘种的突变速度相似,也只是一种模糊的假设。实际上也肯定是存在差异的。实际上在进化过程中,同一个物种的演化的不同阶段突变速度也可能不同。比如下图,如果物种AB比较,物种AC比较,得出的物种A的突变速率可能是不同的,可能是A是进化过程中在不同阶段(stageI 和stage II)的突变速率就是不同的。也可能是物种B和物种C的突变速度不同(注意,我们这里是计算的突变速度,本质是两个物种突变速度的均值,所以比较标准变了,也会导致结果不同)。


图3 物种A的分化路径示意图

另外,核基因和细胞质基因(叶绿体、线粒体)的突变速率也不同。以这篇1987年的PNAS文章为例,我们就可以看到不同物种,以及核基因与细胞质基因的突变速度差异极大。

同样是人类,与黑猩猩(chimpanzee)比较或与红毛猩猩(orangutan)比较,得出的突变速度也是不同的,前者均值大概是1.4E-9 substitution pernonsynonymous site per year(以下简称year),后者均值大概是1.95E-9/year。


图4 文献[1]计算得到的不同物种间的核酸突变速度(表格最后一列,单位是位点突变率/109年)

在一篇文章中[2],作者基于核基因Adh计算得出的单子叶禾本科和单子叶棕榈科的突变速率分别为6.5×10-9/year(以下简称per year)和2.5×10-9/year。在另一篇文章中[3],作者对拟南芥近缘种属的分析中,发现核基因的突变率约为15×10-9/ year。


所以,我们可以看出进化道路上,每个物种都在开车。不同物种开车的速度不同(突变速率不同),哪怕是同一辆车(同个物种)在前往未来的道路上也可能开的忽快忽慢的。因此,r值的估算本身存在争议的,不同来源的文献数值不同。


在其基础上计算得到的T值,能自圆其说就好,也不用太当真,反正也都经过几百万年了,谁都没法证明真假。遇到具体的项目,你就选一个r值(当然要有文献报道),得出你符合你预期的T值就好了。比如在人的进化研究文章里,有时候是使用1E-9/year,有时候还可能是0.5E-9/per year,你一点都不要感到奇怪,作者只是引用了符合他预期的数据而已。


了解以上知识了,我们就会更容易看懂具体文章中的描述。比如这篇研究报春花比较转录组的文章里,作者通过两个近缘种几千对单拷贝同源基因(来源转录组组装)的比较,得出两个物种间ks值约为0.0271(这里我们也可以看到,基因组中不同基因的突变速度是不同的,现在有了全基因组的数据,利用均值作为Ks值的评价会更准)。参考双子叶拟南芥属的突变速率,最后得出两个报春花种的分化时间是0.9百万年。



这里,我们可以注意到突变是非常低频的事情,大概是10-9级别的低概率事件。所以,核酸突变一般只能衡量以万年为单位计算的事件。有时候,老师测了某个品种的野生种和栽培种,也想推算分化时间,这是很难办到的。


因为物种驯化就是几千年的事情,在这么短的时间积累的突变还太少,如果强行计算Ks值的话,显然是不准的。那么,只能用其他方法,例如群体有效规模,来推算两个种群分化的时间。这我们会在后续文章里介绍。


关于核酸突变速度和分化时间的问题,文字比较枯燥,周三在Omicsmart基因组交流群中直播的在线课堂中我进行了更详细的讲解。错过直播的老师可以关注我们的omicshare在线课堂,这节直播课的录播将在近期上线:https://www.omicshare.com/class/home/index/series?id=53


参考文献:
[1] Wolfe K H, Li W H, Sharp P M. Rates ofnucleotide substitution vary greatly among plant mitochondrial, chloroplast,and nuclear DNAs[J]. Proceedings of the National Academy of Sciences, 1987,84(24): 9054-9058.
[2] Gaut B S, Morton B R, McCaig B C, et al.Substitution rate comparisons between grasses and palms: synonymous ratedifferences at the nuclear gene Adh parallel rate differences at the plastidgene rbcL[J]. Proceedings of the National Academy of Sciences, 1996, 93(19):10274-10279.
[3] Koch M A, Haubold B, Mitchell-Olds T. Comparativeevolutionary analysis of chalcone synthase and alcohol dehydrogenase loci inArabidopsis, Arabis, and related genera (Brassicaceae)[J]. Molecular biologyand evolution, 2000, 17(10): 1483-1498.
[4] Zhang L, Yan H F, Wu W, et al. Comparativetranscriptome analysis and marker development of two closely related Primrosespecies (Primula poissonii and Primula wilsonii)[J]. BMC genomics, 2013, 14(1):329.

本文作者:基迪奥-周老师

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表