查看: 3724|回复: 9

[多样性测序] 微生物数据处理的一些经验和建议

  [复制链接]
  • TA的每日心情

    2017.11.10 13:58
  • 签到天数: 353 天

    连续签到: 2 天

    [LV.8]以坛为家I

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    422
    奥币
    7526
    积分
    6612
    注册时间
    2015.11.23
    在线时间
    952 小时

    宣传达人优秀版主


    发表于 2016.8.29 16:42:34 | 显示全部楼层 |阅读模式
    本文转自胡行伟科学网博客,这篇文章的观点还蛮中肯,分享给大家,仅供参考。

    最近一年时间里收到很多同学和朋友关于微生物测序数据处理的询问,通过QQ,微信,人人网和邮件等各种途径,当然不少也是面对面的讨论。这些同学和朋友包括同组的,跨组的,同所的,跨所的,其他大学的,来自北京的、南京的、广州的、西安的,甚至也有国外的中国朋友。有些朋友我素未谋面,也不知长相如何,不知男女。有时候同一天能收到五六份邮件,问题之五花八门,有时已经超越了我所能够解答的范围。



    在这里我整理了几个问题,系统地回答一下。

    Mothur和QIIME那个软件更好?

    Mothur是美国密歇根大学的Patrick Schloss在2009年开发的数据处理平台,它的前身是Dothur软件,相信大家都听说过。这两个软件的发音分别为Mother和Daughter,是Dr Parick献给他的妻子和女儿的。另一个被广泛使用的数据处理平台是QIIME,也是美国科罗拉多Rob Knight等人于2009年开发出来的。截至今天,Mothur的方法文献已经被引用1229次,而QIIME被引用574次。这说明Mothur比QIIME有更广泛的群众基础。

    我刚开始学习使用的就是Mothur,我个人非常喜欢这个开源的数据处理平台,基本能够实现我的所有数据处理目的。Mothur软件无需安装,在Windos,Linix,和MacOS系统上都可以运行。

    我研究了Mothur每一个中间导出文件的格式和原理,所以我能够将这些中间产生的文件导入其他软件进行处理和做图,比如R语言。很多人不喜欢Mothur,都是因为Mothur不能够直接出图,必须依赖于其他软件。而这正式我所喜欢的原因,我现在也正在进一步学习R语言,R的做图功能是非常强大的,其实大家平时看到文章上那些非常漂亮的图,大都是R语言做出来的。

    所以,如果将Mothur和R结合,我认为是一个能正确处理数据并完美展现数据的途径。除了二代测序数据处理之外,Mothur现在也有了针对Illumina数据的处理方式,大家从Mothur的网页上就可以读到Dr. Patick写的标准数据处理流程。

    现在QIIME携苹果电脑的时髦,也得到了很多人的青睐。这个软件我本人没有真正使用过,但是知道QIIME只能在MacOS和Linix系统上运行,当然也可以通过在Windos系统上安装Virtual Box来运行。这个软件出图的效果比较好,很多人把直接出的图用来发表文章。我所在的悉尼这边的研究所的生物信息学专家也是用QIIME来处理数据。我就这个软件问题和他讨论了好多次。基本来说,两个软件都可以帮助我们实现正确的数据处理,并不存在哪个更好的问题,只有个人在使用上的喜好。

    我希望你无论使用那个软件,都仔仔细细阅读软件网页上的教程,并熟悉所有的命令。自己一一试试各个命令,合理组合命令,这样才会通过修改命令来正确处理自己的数据。这个过程没人可以帮你,只有你自己能够救赎自己。

    数据处理难学吗?


    这是一个我一直以来很想告诉所有人的问题。说实话,那两个软件都很好使用,有标准的处理流程在那里等着你,把所有数据处理下来绝对不超过十天时间。但是,为什么我们几个月甚至一年都拿不下来数据处理?

    因为数据处理的难点不在于软件的使用,而在于你对微生物生态学基本概念的了解。我认为我们需要在数据处理之前就应该特别清楚的是:

    1)α多样性的各种指标。数据条数的多少会直接影响α多样性的计算结果,它们之间是正相关关系。所以计算α多样性必须统一序列条数。而我们知道统一序列条数就会舍弃很多条数不足的样品,这个取舍就涉及到很多的经验问题,需要你阅读很多的文献来了解。

    2)β多样性的表征方式。我研究β多样性的时候,阅读了很多相关的文献,对Bray-Curtis指数,UniFrac等都非常了解。选择能够最好表现你多样性差异的指数,需要花很多很多的汗水。

    3)多元统计方法。这个又是更大的难点了,Mothur不会告诉你,QIIME也不会告诉你。你只有去阅读教材,阅读文章,才能弥补这些缺陷。不然你连那些命令都读不懂,还谈什么数据处理,修改命令。

    4)文章的构思。这又是更高一级的知识预储备了。在你的数据处理之前,请阅读所有高质量期刊上的相关文章,至少需要预估计,你可以出哪些图,做哪些分析。其实在数据处理的过程中已经是你不断验证假设和推翻假设的过程。

    希望你在数据处理之前踏踏实实地做好这些功课,不然你很难完美运行各个命令。另外,要仔细研究各个软件的原理,做到人机合一的效果。因为有时候软件并不能解决所有问题,比如在alignment的时候,有时候在部分区域比对效果不好,你需要使用合适的软件打开这些中间文件,手动进行删除,不然会影响后续的多样性计算。所以,你需要把自己练成一台机器。2010年我做过同位素超高速离心,尽管已经有很多文献可供参考,我当时还是研究了离心机的原理和等密度梯度离心的原理,所以自己就很清楚应当如何优化实验条件,获得最好的数据。

    细菌和古菌16S数据和功能基因数据处理的不同?


    如果你处理的是细菌16S数据,那么恭喜你,你应该很容易完成数据处理,因为Mothur和QIIME都包含了细菌16S比对和分类的数据库。因为细菌的研究已经非常多,所以分类的效果也很好,未知的类别一般也很少。

    如果是古菌16S的话,RDP,Greengenes,SILVA等数据库我都用过,分类效果都很差,但是不影响你的多样性分析。因为古菌的纯培养仍然很少,分类问题仍然是处于发展阶段。你基本也可以顺利按照标准流程完成数据处理。

    但是功能基因的话,就面临很大很大的难题。如果想测序功能基因的同学,一定要三思而后行,我自己在这方面进行了很多的尝试,虽然知道处理的方式,但是解释起来真的很难。就像我在上面所说的,如果你不了解Mothur和QIIME的文件格式,基本架构,我很难告诉你怎么去实现自己的目的。所以大家也可以看到,现在发表的关于功能基因测序的文章很少很少。大家基本都是DIY,都是一些很熟悉生物信息学的国外实验室发表的。希望你能认识到功能基因处理的难点:

    1)第一步是比对alignment,一开始就做不了。因为没有可供使用的alignment reference数据库。我的经验是自己做一些,从NCBI上下载功能基因序列,然后自己通过MUSCLE或者ARB比对的很齐,然后作为参比序列。

    2)分类。
    这个更难,需要经过alignment之后,分成不同的OTU,然后从每个OTU中选择一个代表序列,通过BLAST进行分类。

    3)分OTU。对于细菌和古菌16S而言,97%代表species水平,但是功能基因就完全不一样。以氨氧化微生物研究为例,AOA的species-level OTU应当是87%,而AOB应当是80%,所以和16S数据完全不同。

    以上所写,难免有错误之处。我以分享知识为乐趣,也祝各位同学和朋友数据处理顺利。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    有问题请发贴提问
    回复

    使用道具 举报

  • TA的每日心情

    2017.4.4 21:12
  • 签到天数: 93 天

    连续签到: 1 天

    [LV.6]常住居民II

    钵水母

    Rank: 3Rank: 3

    主题
    2
    奥币
    788
    积分
    130
    注册时间
    2016.9.29
    在线时间
    74 小时

    发表于 2016.9.30 09:18:32 | 显示全部楼层
    回复

    使用道具 举报

  • TA的每日心情
    no
    2018.12.24 22:55
  • 签到天数: 21 天

    连续签到: 1 天

    [LV.4]偶尔看看III

    钵水母

    Rank: 3Rank: 3

    主题
    4
    奥币
    636
    积分
    136
    注册时间
    2016.4.8
    在线时间
    27 小时

    发表于 2016.11.24 13:44:47 | 显示全部楼层
    牛叉好好学习啦
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    3 小时前
  • 签到天数: 292 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    5
    奥币
    3716
    积分
    661
    注册时间
    2017.4.28
    在线时间
    102 小时

    发表于 2018.4.23 09:42:00 | 显示全部楼层
    好好学习,不错
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    yes!
    2019.3.21 10:22
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    93
    积分
    31
    注册时间
    2018.9.22
    在线时间
    8 小时

    发表于 2019.3.21 10:41:55 | 显示全部楼层
    学习一下
    回复

    使用道具 举报

  • TA的每日心情
    no
    2019.9.2 14:45
  • 签到天数: 18 天

    连续签到: 1 天

    [LV.4]偶尔看看III

    草履虫

    Rank: 2

    主题
    0
    奥币
    166
    积分
    39
    注册时间
    2018.10.15
    在线时间
    13 小时

    发表于 2019.6.1 09:55:42 | 显示全部楼层
    这个领域水太深,但是不后悔,加油!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    草履虫

    Rank: 2

    主题
    0
    奥币
    22
    积分
    14
    注册时间
    2018.8.28
    在线时间
    4 小时

    发表于 2019.6.16 00:26:13 | 显示全部楼层
    楼主说的有道理
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    好棒
    2019.7.3 16:06
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    草履虫

    Rank: 2

    主题
    0
    奥币
    41
    积分
    10
    注册时间
    2018.12.26
    在线时间
    6 小时

    发表于 2019.6.26 11:39:04 | 显示全部楼层
    您好,我想问一下从16s测序结果中想挑取部分功能基因的相关物种,怎么挑取啊,新手一枚,一脸懵,求教
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    9 小时前
  • 签到天数: 102 天

    连续签到: 1 天

    [LV.6]常住居民II

    帝王蝶

    Rank: 4

    主题
    0
    奥币
    511
    积分
    265
    注册时间
    2019.6.24
    在线时间
    21 小时

    发表于 2019.7.1 20:51:56 | 显示全部楼层
    有时候在思考自己是该什么都学一点,还是专攻一个领域。。。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    14 小时前
  • 签到天数: 14 天

    连续签到: 6 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    204
    积分
    197
    注册时间
    2019.3.19
    在线时间
    4 小时

    发表于 2019.11.8 15:11:50 | 显示全部楼层
    感谢楼主!
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表