NBT：用16S及18S rRNA全长进行微生物多样性研究

摘要

前段时间热心肠先生导读了《Nature子刊：高通量&无偏差，分析微生物群落的新方法》。
文中摘要提到：1.几十年以来细菌16S以及真核生物18S小亚基核糖体RNA（SSU rRNA）一直是研究微生物多样性以及进化生物学系统发育树构建的标准标记基因。然而，由于SSU rRNA 数据库收录的全长SSU都是一些研究较多的生态系统中的物种，而且SSU引物具有偏好性并且在PCR扩增中会有嵌合体的产生，会导致在研究中对样品中的实际多样性产生偏差。2. 本文中作者通过结合poly(A)的尾巴以及SSU的反转录序列高通量的合成了高质量的全长SSU序列。用该方法分析7种环境样本的微生物群落构成，得到超过一百万个SSU rRNA序列，涵盖细菌、古细菌和真核生物，原始错误率约0.17%，与鸟枪法RNA测序相比无明显偏差；3. 对比现有SILVA数据库，观察到约半数新多样性，并且其中包含了几个与古菌Asgard Archaea 门水平相关的新谱系。4. 该方法可使现有参考数据库以数量级方式扩展，帮助完善对全球微生物的分类和编目，以及生命之树的构建。

小编觉得本文还是很有指导性意义的，本文中我们将对此文进行详细的解读与读者共享。

前言

在1990年两个研究团队第一次报导了从复杂环境样品中获得的一些16S rRNA序列，第一次打开了地球上巨大的，未知的微生物世界的大门。近些年来，SSU rRNA 的短片段测序已经成为了大多数微生物生态学研究的的骨干。然而，决定这些SSU rRNA 片段是否有用很大程度都取决于构建一个高质量的SSU rRNA数据库。在过去的20年中，近200万条的全长SSU序列被上传到了SILVA数据库中。这些序列只代表了地球微生物多样性的一部分，据估计地球上微生物物种多样性高达100万到1000万种之间。大多数全长的SSU序列都是通过PCR扩增，克隆然后通过一代焦磷酸测序获得的，但这种方法成本极高，并不适用于构建生命之树的等大规模测序计划。由于技术条件的限制，全长的SSU (1,400–1,900 bp)片段不能通过成本低廉的二代短读长高通量测序获得。三代单分子测序具有超长读长的优势，但也具有测序错误率高，通量低，价格贵等缺点。结合基于CCS Reads 的原始错误自我校正方法使得三代长读长测序 (PacBio和Oxford Nanopore) 能够在错误率为0.5%的技术条件下实现对16S全长进行测序。此外，高质量的16S全长序列也能通过分子标记Illumina的短读长序列合成得到。尽管目前已经取得了很多进展，但是长读长的技术还是未能实现高的通量，并且还很依赖于特定引物来扩增SSU片段，这也限制了我们去发现新的物种多样性的能力，尤其是对于古菌和真核生物来说更是缺少好用的通用引物。

实验设计

为了避免全长SSU序列引物的偏好性，作者结合分子标记合成长读长技术，优化了产生全长SSU的方法。全长的SSU分子片段从提取的总RNA中选择并富集起来，并通过通过poly(A)尾巴以及单链捆绑的方法转变成双链的cDNA(图1a和附图1)。在第一链和第二链cDNA合成过程中，单独的SSU分子的两端都被特殊的分子片段进行标记。这种被标记的长序列能用于进行短读长测序的文库制备，从而使得最终的单独的序列都能根据原始的临时标记分子而被标记上。通过把短读长的序列通过分子标记放到不同的bins中，通过de novo 的手段能够各自单独的bins组合成全长的SSU序列。此外，作者还开发了一个基于引物的版本使得不使用引物的优势能直接的展示出来(附图2)。

二代测序全长SSU方法

图1. 全长SSR rRNA测序。为方便手机阅读，我们会对每个子图分别放大和详细讲解。

(a) 如何从群体RNA来准备全长测序。主要分为以下三个步：

1. RNA处理过程

采用凝胶电泳按片段大小选择富集群体RNA中SSU(SSU为RNA电泳图的最大主峰，图中红色区域)；
然后基于SSU共有的polyA来后成cDNA。这个特异的PolyT引物包括3个额外特殊序列结构，分别为引物结果位点，唯一序列标签和引物结合位点；
采用分子连法加入接头用于cDNA第二链的合成所需的通用引物结合位点；再使用含有另一个引物结合位点和唯一序列标签的引物合成cDNA的第二链。
这样我们获得双链cDNA，它包括全长SSU，双端包括双引物结合位点和标签序列。

2. 文库制备和测序

双链DNA片段进行扩增，并再次使用电泳进行片段选择，去除(反转录)不完整的SSU；
再次扩增，使每一个唯一序列至少扩增10000次(至少2的15次方)；
扩增的文库分为两部分，主要的部分用于建立测序文库(Read-tag library)，采用Illumina的标准Nextera tagmentation片段化建库；小部分用于建立接头文库(Linked-tag library)，先进行自身环化。
测序文库片段化的结果再进行添加接头，PCR扩增，及高通量测序获取SSU序列；而接头文库利用inner引物扩增及测序，获取成对的标签可用于确定每个序列片段的来源(传说中的binning)。

3. 数据分析

采用接头文库来确定哪些测序结果来自同一分子；
同来自同一分子的序列进行分箱(binning，宏基因组中用了好多年的技术终于反向应用于扩增子了，高！)
对分箱的序列进行独立拼接获得SSU的全长序列；
最后进行接头切除，SSU筛选，和HMM结构域预测的方法对序列进行分类，如细菌、古菌和真核生物。

为了评估本研究方法的错误率以及嵌合体数量，作者用Escherichia coli MG 1655, Bacillus subtilis str. 168和 Pseudomonas aeruginosa PAO1 这几种菌的混合群落进行了测试，这几株菌的16S rRNA 的拷贝数量4–10×，拷贝位置从0-19不等，并且有高达1.3%的种内序列变异度。在一个Illumina MiSeq Run 中，它们共得到了10,575 条长度超过1200 bp的16S全长序列(Fig. 1b)，平均的测序错误率为0.17%，嵌合体比例为0.4%(Fig. 1c)。这个测序错误率与PCR反应时的Taq酶的错误率基本一致。而且0.4%的嵌合体的比例大约比传统的基于PCR反应的嵌合体比例低50倍。这种低错误率使得研究者能把所有16S全长序列注释到它们的操纵子中去，这也是我们方法优势的例证。有趣的是，对B. subtilis来说，三个操纵子(rrnI, rrnH and rrnG)并不表达(通过RNA-seq验证)。这三个操纵子在基因组中距离很近，并且被同一promoter调控。作者为了展示他们的方法在复杂的环境样品中的应用，作者通过对7个不同的环境的19份样品进行了多个MiSeq 和 HiSeq Run的测序，拿到了2,285,691 条不基于引物的RNA序列。在一个单独的Miseq Run中我们能拿到54,489 条1200 bp长度序列，而一个Hiseq Run中能拿到541,676 条1200 bp长度序列。这其中SSU 占总数的24-76%，LSU占剩下序列的绝大多数。由于在测序之前使用了SSU富集的方法，结果LSU序列的相对丰度如此之高是之前未预料到的 (图1a)。然而这种现象在之前也发现过，很可能是由于LSU片段的长度和SSU类似，从而污染了富集的序列。LSU片段最初是在提取的过程中从降解的RNA获得的，由于环境压力等因素导致了其原位降解，而且大多来自细菌以及低等的真核生物的裸露的核糖体RNA中。

作者总共从7个不同的环境样品中获得了985,266条primer-free的全长16S序列。而用我们的基于引物的扩增方法，我们还额外获得了477,055条16S全长序列。为了拿到高质量的SSU rRNA的OTU，作者以97%的相似度将所有序列与SILVA数据库(SILVA SSU Ref v. 128)进行比对。共拿到了44,902个细菌OTU，去掉singleton 之后还有31,125个OTU剩余。这些OTU中含有目前已知的75个细菌门中的65个 (图2a, 附图4和附表4)。并且通过与SILVA数据库进行比对，发现了大约有58%的OTU与SILVA差异度大于97% (图2b和附表5)这意味着环境中还有大量的新物种还未被人们所发现。发现新相似度低的OTU的比例很大程度上都和生态系统的特异性相关，比如在深海沉积物中发现新OTU的比例大概为67%，而在人体的肠道中发现新OTU的比例大约为40%。

图2. 生命之树中覆盖率。

本研究中作者一共获得了61,266条古菌全长16S序列，这比目前整个SILVA数据库中的古菌序列还多(39,138 sequences > 1,200 bp)。通过聚类之后，共拿到了3,410个古菌的OTU，去掉singleton之后还剩2,197个古菌OTU。作者还获得了70,883，条真核生物18S序列，这些序列共聚类得到了415个非singleton的OTU。而且这些OTU数量都是经过保守估计获得的，因为18S rRNA的全长有将近2000bp,这个长度将是本技术测序长度的上限。这些全长的18S序列只占测序产生序列总数的55%，而对于细菌和古菌来说这一比例分别是90%和94%。
作者还评估了在研究复杂微生物群落常用的SSU 的PCR引物的覆盖率，通过使用97%的相似度进行聚类。这将有助于估算使用SSU引物进行PCR扩增造成的多样性丢失的比例。正如作者所预料的，多样性丢失的比例和样品与引物的结合相关。例如，16S通用引物27F/1492R丢失比例约为8.5–14.7%。这个发现也与最近发现的在宏基因组测序中的引物偏好性一致，有研究者发现用传统的PCR扩增的方法总会丢失掉9.6%的细菌多样性。

作者为了估计他们的非引物方法的物种偏好性，作者对三个用传统的RNA-seq测序的文库样品(沉积物，土壤和人类肠道)进行了测试，并将获得的数据和RNA-seq数据进行了对比。由于目前还没有非常完整的SSU数据库存在，所以潜在的偏好性是通过对比能匹配到SILVA数据库的RNA-seq序列数来估算的。对细菌来说，大约有3.7-6.6% 的RNA-seq获得的假定SSU不能匹配到非基于引物的测序方法中，稀释曲线显示这种多样性的不足主要是由于测序深度不足造成的。所以在这些环境样品中作者未检测到明显的引物偏好性。

在本研究中，作者通过序列相似度比对细菌和古菌数据库，在一些很具有代表性的门，比如Proteobacteria, Patescibacteria / Candidate Phyla Radiation (CPR)和古菌门 Asgard Archaea发现了大量的新的纲，目，科等分类单元。有趣的是，系统发育分析显示几个位于系统发育树底部的古菌分支并不与目前SILVA已知的任何古菌分支聚在一起，而是单独聚成几支(图3)。

图3. 古菌域中覆盖率。

这些新OTU序列相似度与目前已知古菌门水平的相似度为75%。系统发育分析显示这些序列属于Asgard Archaea这个超级古菌门中。想要解决这些序列的系统发育问题还需要获得更多的相关的序列。Asgard Archaea古菌门通常是被作为真核生物的祖先，所以重建它们的系统发生关系将有助于解决生命进化的重大科学问题。其实解决生命进化之间关系的问题最好还是用全基因组进行系统发育分析，作者提供的方法只是用SSU保守序列片段进行进化分析，此研究可以作为全面用基因组建树之前的先导研究。

这种不基于引物的测序方法尤其适用于古菌这种缺少合适的通用引物的类群。比如基于引物扩增的测序方法在对深海沉积物进行研究时会丢失掉大约28-77%的古菌OTU多样性。

作者很难用本研究获得的序列去估算真核生物真实的多样性，这是由于这些序列的分歧和这个门的系统发生关系并不一致。另外，使用SSU序列作为这个门的系统发育界限的方法还在发展之中，尤其是对那些单细胞真核生物来说。例如土壤中获得的新物种大多在在原生动物Amoebozoa门，然而用传统的方法获得的Amoebozoa门的序列严重不足。由于原生动物变形虫门(Amoebozoa)对土壤微生物群落的影响十分显著所以提高对变形虫门物种的认识对更好的理解土壤生态系统非常重要。

本研究中获得的1,168,276 条LSU 序列要比目前整个SILVA数据库的LSU序列还要多。尽管有的序列不是全长，但是这些序列极大地提高了依靠rRNA的原位研究的探针数量，比如依靠探针的荧光原位杂交技术将更为便捷的被研究者所使用。由于Illumina的读长限制导致我们的技术测到的读长上限是2000 bp，作者也尝试用Nanopore取代Illumina，此方法虽然得到了更长的读长但很容易产生错误序列。作者发现用他们自己的方法能有效校正Nanopore的测序错误，所以未来用这种方法可能得到高质量的全长LSU序列。未来随着SSU和LSU数据库的扩增，研究者们也将开发出更好的能扩增整个rRNA区域的引物。

小结

本研究作者一共得到了超过160万条和SILVA数据库中SSU一样长度的SSU序列。本方法不仅现在可以用于ILLumina测序平台而且也适用于Nanopore长读长测序平台。作者也期待广大研究者使用他们的技术来快速增加SSU全长序列的数量。此方法还能够用于研究目前了解很少的，没有很好代表数据库的特殊环境样品。尤其是作者展望用该方法为那些目前缺少参考数据库的类群，比如古菌和单细胞真核生物提供一个覆盖度更高的方法。目前包括“真核生物参考数据库”等计划在内的一些国际计划也在努力扩充其数据库。最后，作者说他们的方法不仅可以用于扩充参考数据库，而且也对任何不超过2000 bp的标记基因进行多样性分析。

数据更为全面的SSU参考基因数据库可以更好的为一些特殊生态类型的研究提供帮助，比如帮助扩充人类口腔微生物数据库。高质量的生态系统或特定研究专一性的数据库将有助于研究者设计出更好的引物以及荧光探针。比如，设计精度更高的FISH荧光探针将有效提高原位单细胞生理研究的分辨率，而这对原位生态分化的研究非常重要。

写在后面

小编读完此文也对本文做点个人理解的解读：

做扩增子测序你一定纠结过到底测细菌的哪个区呢，V3+V4，或者V4+V5？细菌的16S全长一共有V1-V9九个区不管选一个区还是两个区，我们在进行物种注释时都无法将其准确注释到物种水平而仅仅是属水平。这也与目前最为广泛所有的Illumina技术特点有关，尽管其不断发展可以扩大其测序的通量，但其进行测序反应扩增的极限长度也不过单端300bp。目前Pacific 和Nanopore可以实现超长读长测序，但其测序的错误率还很高，只能用CCS Read(校正后正确率 > 99%) 方法进行自我校正。本文中提供的不经过PCR扩增的方法很好避免了引物偏好性对样品中实际微生物多样性造成的影响，而且通过加特殊标记实现了用Illumina平台进行超长序列测序的方法。此方法尤其适用于研究一些极端环境的微生物多样性，比如深海等等。而且随着人们用这种方法或者传统方法获得的SSU等全长序列越来越多，这将极大促进研究者们对地球上未知微生物的认识。完善整个生命之树，同时随着大家对古菌等特殊类群微生物认识越来越全面将更有助于研究者们设计出更好的，更为通用的引物或者探针。未来大家可以广泛的使用这些新设计的引物以及探针用于自己的研究。

就目前来说，本人觉得本文中此方法步骤过多，操作也很复杂，还是比较适用于构建一些重要的长片段生物条形码数据库的研究。大家如果仅仅是只想做多样性研究，而且一定要用全长的SSU片段或者SSU片段的话，可以考虑挑选一些偏好性小的覆盖物种比较全面的引物进行扩增后，直接用PacBio等三代仪器进行测序。之前有些文献报道了用三代Pacbio进行细菌16S全长测序。文章选取了27F和1492R引物对细菌16s全长进行了测序。作为微生物的重要组成部分真菌也开始了用三代测序仪进行宏基因组测序了。在第二代高通量测序中研究者通常只能针对ITS中的ITS1片段或者ITS2片段进行高通量测序。然而这只能给真菌的分类与系统发育分析提供很有限的物种鉴定和分类信息。

微生物物种水平的鉴定与功能注释是微生物学研究的核心目标之一。目前在真菌多样性研究上已经有将近10篇文章开始用全长 SSU+ITS, 或者部分SSU + ITS + 部分LSU 进行三代测序研究 (Bender, 2016; Melo et al., 2017)。比如，Tedersoo在他的论文中通过三代测序全面对比了目前发表的一些真菌SSU, LSU以及ITS的通用引物，并且推荐好几对适用于真核生物的引物(Tedersoo et al., 2018)。

这些研究都是利用新技术做的一些探索性研究。未来随着三代测序技术更加成熟，当其测序错误降低，通量进一步提高，未来进行微生物多样性条形码研究肯定会用16S全长，ITS全长等大片段来取代现在的短条形码片段。

Reference:

Karst, S. M., Dueholm, M. S., Mcilroy, S. J., Kirkegaard, R. H., Nielsen, P. H., & Albertsen, M. (2018). Retrieval of a million high-quality, full-length microbial 16s and 18s rrna gene sequences without primer bias. Nature Biotechnology.

Tedersoo, L., Toomingklunderud, A., & Anslan, S. (2018). Pacbio metabarcoding of fungi and other eukaryotes: errors, biases and perspectives. New Phytologist, 217(3), 1370-1385.

Schlaeppi, K., Bender, S. F., Mascher, F., Russo, G., Patrignani, A., & Camenzind, T., et al. (2016). High-resolution community profiling of arbuscular mycorrhizal fungi. New Phytologist, 212(3), 780-791.

Melo, C. D., Luna, S., Krüger, C., Walker, C., Mendonça, D., & Fonseca, H. M. A. C., et al. (2017). Communities of arbuscular mycorrhizal fungi under picconia azorica, in native forests of azores. Symbiosis, 1-12.

驯鹿短科普 https://www.xunludkp.com/papers/read/1080038166?kf=xread_daily

猜你喜欢

10000+：菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature Cell专刊肠道指挥大脑

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。