序列组装

序列组装（Sequence assembly）是生物资讯学中的一种分析方法。此方法通过序列比对和序列合并等演算，将短片段的DNA建构成为较长的连续序列。此技术的创立，是因为被测序的核酸分子通常长度都远大于目前存在的DNA测序技术。而此分析能试图从有限长度的DNA测序结果，重建出原本被测序分子的样貌。

序列组装最常被使用在高通量测序资料的分析上（例如基因组霰弹枪定序，或者RNA转录体测序）。这一类的测序技术会产生大量的测序片段（read，复数reads），而这些片段的长度依照不同的技术，短为数十，长可至上万个碱基对（前者如Illumina的定序平台，后者如太平洋生物科学公司（英语：Pacific Biosciences）的SMRT-测序（英语：Single molecule real time sequencing）或奈米孔洞测序）^[1]。而序列组装旨在合并这些短片段来重建原本的分子序列。

我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程：被测序的分子就是那篇文章，而测序片段就是那段文章中，随机切取出来的句子。其中一种重建出这段文章的方式，就是找到句子中重叠的部分，因为一旦找到够多重叠的部分，我们就有机会将每个句子连接到一起，进而得到原始的文章。不难想像，此过程的困难不仅仅在于需要进行大量的片段比对，还会因原本文章的复杂度而制造更多问题：例如原本的文章可能有许多重复的段落，而带有这些重复段落的文句可能会重叠在一起；又或者我们所拿到的句子中若有错别字，亦会增加寻找重叠片段的难度。同样的问题也同样存在于生物资讯的序列组装分析里。

重复片段(repeats)的问题：假设黑色序列是原来被测序分子，我们可难到这段序列中有两次CGGAGAGG的重复。如果我们今天只能拿到较短的测序片段（上方，粉红色），那么我们会无法断定CGGAGAGG这个序列来自分子的何处。相反的，较长的测序片段（下方，绿、红、蓝色）则可解决这个问题。

[1]