
在过去几年里,下一代DNA测序的快速发展,使生物和生态研究发生了翻天覆地的变化。DNA测序成本大幅度下降,测序仪器也成了实验室的标准配备。测序技术的低廉和普及,使得科学家们可以通过DNA测序技术发现疾病患者与健康人的基因差异,更深入地探讨人类肠道或者大海深处微生物菌落的基因组成,并且可以快速识别可抵御感染的器官。
虽然测序成本已经大幅度降低,但是结果数据的准确性提高速度缓慢:大约1%的碱基生成仍然被称不准确。生物信息学协会通过研究专业的纠错工具回应了这一问题,该工具主要是利用固有且冗余的测序数据,发现并修复其他测序错误。测试表明,将这些最好的纠错工具纳入标准的生物信息学分析方法,该变异基因对分析结果质量更高更准确。
然而,事实证明,准确地纠正错误是一个困难的问题,很大程度在于基因组重复及模糊的特性。简单的替代错误可以很容易纠正,比如,当50序列读取说,给定的碱基是A,也只有读取被纠正说这是G。这样简单的错误是由下游工具,如汇编和调整,进行纠正的。挑战在于,当遇到多个可行的纠正方案时,如何选择正确的修正。例如,当读取到基因组中重复区域的结束,50读取A,49读取G,被纠正的会读取T。只有让事情变得更有挑战性,这样的纠正在基因组没有任何知识时也能被测序,并且唯一的纠正线索是,纠正的正确信息来自序列的数据本身。
美国联邦科学与工业研究组织的研究人员在联邦科学与工业研究组织(CSIRO)刚刚发布了一个自主开发研究使用的纠错工具,称之为“Blue”。Blue是一种高性能的C++应用程序,既可以在Windows系统上运行,也可以在Linux和OSX系统上使用。研究结果发表在Bioinformatics上,测试结果表明,Blue的运行速度明显快于其他应用工具,尤其是在windows系统上,并且更准确。
Blue另外一个优势是,可以纠正所有类型的错误(替换、删除和插入),使其适合应用于罗氏454和Life Technologies Ion Torrent systems生产的数据。Blue还允许reads(reads指的是片段,读取数据的意思)的纠正与共识来自另一reads,并且该功能已被应用于正确的少量的长的罗氏454共识,来源于一个Illumina公司读取的更便宜的大文件。这种“交叉纠错”的方法非常有效地用于提高几个引用基因组的质量,范围可从细菌到飞蛾和草。
(编辑:泡菜豆芽汤)