Nature子刊:新技術攻克單分子測序大問題
日期:2012-07-03 08:23:14
來自冷泉港實驗室(CSHL)的一位定量生物學家及同事們開發出了一種混合錯誤校正新方法攻克了單分子測序的重大問題,可將長讀(long reads)的準確度提高到99.9%。這一研究成果發布在7月1日的《自然生物技術》(Nature Biotechnology)雜志上。
領導這一研究的是冷泉港實驗室助理教授Michael Schatz以及馬里蘭大學國家生物防衛分析和反制中心的Adam Phillippy 和 Sergey Koren。
在這篇文章中,研究小組開發了一個軟件包可校正單分子測序新技術中的一個嚴重的問題:它生成的每五個或六個DNA“堿基”就有一個錯誤。高錯誤率是這一新技術主要優點的另一面:它生成了更長的基因組reads,相比于當前使用的其他技術要長100倍,因此可以提供相比當前第二代技術獲得的更為完整的基因組結構圖譜。
利用數學算法,Schatz及研究團隊保留了第三代技術的巨大優勢,消除了它的主要缺點。他們將錯誤率從大約15%或以上減少到不到千分之一。這一數學計算以開放源代碼發布到萬維網上,大大提高了第三代測序在整個生物醫學研究界的實用價值。
研究小組通過將他們的算法應用到從在難度規模一端的微小噬菌體病毒到另一端的巨大的更為復雜的鸚鵡基因組的測序任務中,證實了單分子測序潛在應用的寬度。鸚鵡基因組的大小超過人類基因組的三分之一。“鸚鵡基因組遠遠優于從前測序的所有鳥類基因組,”Schatz說。
了解它更好的原因是為了正確評估第三代測序的優勢。主要的優勢與每個read(例如測序儀生成的基因組片段read)的平均長度有關。個體序列被組裝成contigs(重疊群),以拼圖的方式組裝片段。在當前使用的第二代技術中,contigs非常小,且有大量冗余。每個片段的“共有序列”( consensus),代表了許多分層reads的結果,往往非常準確。而小拼圖片段(puzzle pieces)則阻礙了某些基因部分,如包含長重復序列部分的準確裝配。
兼備兩代的優勢
用單分子測序,組裝的contigs更長,提供了對相對較大基因組片段,包括那些包含冗長重復的片段的更好的圖譜。這是Schatz和研究團隊希望保留的,同時他們提高了無錯誤率。通過有效地利用了第二代和第三代技術的最佳方面做到了這一點。
“我們稱我們的做法為‘混合錯誤校正’(hybrid error correction),”Schatz解釋說。
研究小組的主要觀點是利用他們實驗中所利用的第三代測序儀Pacific Biosciences RS sequencer提供的長讀數據,混合到另一臺第二代測序儀獲得的高度精確短讀中。通過一種稱為Celera Assembler的開放源基因組組裝程序運行兩種數據類型生成的最終的序列裝配證實為99.9%的無錯率,其中contigs的中位數大小是第二代“短讀”測序儀的兩倍。在隨后重復的混合方法中Contig大小被預計隨單分子長讀測序改善略微增多。
高質量的基因組組裝對于基因組注釋和比較基因組分析尤為重要。許多微生物基因組分析取決于完成的基因組,但利用舊技術它們的成本高昂。高質量分析更高等生物的基因組依賴連續序列捕獲拼讀基因的長DNA片段。近年來發現基因組中自發性發生的結構改變,即拷貝數變異表明了能夠獲得疾病受累個體干凈準確的全基因組圖譜的重要性。
利用混合錯誤校正,Schatz和他的同事們證實與長度相關的高錯誤率不會是基因組組裝的障礙。高錯誤的長讀可有效組裝與互補的短讀結合生成從前不可能獲得的組裝。
上一篇: 日本研究者發現“萬能細胞” 或可再造血管
下一篇: 美國科學家培育出世界上第一批轉基因嬰兒