Nature Methods:De Novo基因組序列組裝的新方法
日期:2016-05-18 09:26:18
對于de novo人類基因組序列組裝而言,短讀長簡直意味著不可能的任務(wù)。不過,加州大學(xué)舊金山分校、BioNano Genomics和10X Genomics的研究人員近日開發(fā)出一種新的組裝方法,它將short-read測序與10X的linked-read測序相結(jié)合。這項成果于近日發(fā)表在《Nature Methods》上。
如今,測序人類基因組已并非難事,但如果要獲得高質(zhì)量的基因組序列組裝,人們必須克服三大挑戰(zhàn):1) 幾乎100%相同的重復(fù)序列,它們存在于大多數(shù)高等真核基因組中;2) 二倍體的DNA;3) 缺乏能夠產(chǎn)生準(zhǔn)確的長讀取的低成本測序平臺。
去年,西奈山伊坎醫(yī)學(xué)院的Matthew Pendleton去年開發(fā)出一種方法,將Illumina測序、PacBio測序和BioNano Genomics的基因組作圖相結(jié)合,對HapMap樣品NA12878進行了高質(zhì)量的組裝。不過,這種方法的缺點在于PacBio測序的成本相對較高,通量較低。
于是,加州大學(xué)舊金山分校的Pui-Yan Kwok及其同事用10X Genomics的linked-read數(shù)據(jù)取代了Pacific Biosciences的long-read序列。在一項試驗性研究中,他們利用這種方法來測序和組裝HapMap項目的個體基因組,看看效果如何。
這種新方法主要依靠兩個平行過程。首先,利用SOAPdenovo短寡核苷酸分析軟件將Illumina的序列組裝成scaffold。為了讓這些scaffold有序排列成更長的片段,研究人員調(diào)入10X GemCode平臺所產(chǎn)生的序列數(shù)據(jù),并利用fragScaff來產(chǎn)生新的scaffold。同時,他們利用BioNano Genomics的Irys系統(tǒng)來產(chǎn)生序列motif的物理圖譜,之后結(jié)合10X scaffold來產(chǎn)生最終的混合組裝圖譜。然后,他們利用10X Long Ranger軟件對混合組裝的scaffold進行分相,并借助BioNano Genomics的圖譜來分辨一些重復(fù)區(qū)域。
在試驗性研究中,研究人員利用這種方法對人類HapMap樣品NA12878進行組裝和分相。最初的Illumina組裝產(chǎn)生了超過14,000個scaffold,而N50為0.59 Mb。在混合組裝后,scaffold數(shù)量降為170個,而N50大小達到33.5 Mb,相對之前有57倍的改善。
與參考基因組相比,研究人員發(fā)現(xiàn)他們的組裝結(jié)果比2011年發(fā)表的ALL-PATHS組裝更準(zhǔn)確,與Pendleton等人的方法有95.2%相似。此外,他們還指出,95.7%的外顯子存在于他們的新組裝中。
盡管Kwok及其同事認(rèn)為這種方法是一種改進,但也存在一些局限。例如,10X的方法依賴于高分子量DNA的制備,這對長期保存的樣品而言很難做到。另外,linked-read是通過50-100 kb分子的隨機k-mer擴增產(chǎn)生的,但這些分子不一定北擴增。因此,人們需要產(chǎn)生不同大小的多個測序文庫,這增加了工作量。
“通過這個原理驗證研究,我們證明了使用這三組互補的作圖-測序數(shù)據(jù)能克服之前的限制,而普通實驗室可在短時間內(nèi)以合理的成本平行生成這些數(shù)據(jù),”作者在文中寫道。