構建詳細全面的染色體互作圖
日期:2012-10-08 07:50:18
染色體構象捕獲(3C)技術正在改變我們對于基因組空間組織構架的理解。然而目前推測染色質相互作用,卻受限于兩個方面的困難:其一是生成高分辨率信號,其二是從多個背景來源中分辨信號。
近期兩項最新的研究報道了這些方面的技術進展,第一篇文章描述了一種高分辨率4C-seq 新型工作流程和計算通道,第二篇則報告一種新策略,能同時消除Hi-C數據中多個背景來源。
上篇: 兩篇Nature技術文章介紹基因組組織
重要的是,為了能最大限度地增加互作片段的數目,研究人員兩輪消化采用的是具有四種堿基特異性的限制性內切酶,從而可用片段池中的片段數,相較于之前采用的six-base切斷法提高了十倍。
可能會有人認為減少片段大小就足以提高分辨率了,但是更高的分辨率也意味著更多的背景誤差。比如說,4C-seq技術降低了初次限制性片段的平均長度,也就相應的增加了不包含二次限制性酶切位點片段的初次片段比例。所以最終的溶液里有消化了兩次的一些片段,也有只消化了一次的片段。由于PCR擴增對于較短的片段更有效,因此讀取數據就會出現系統誤差。
此外,實驗覆蓋率也會受到其它多個誤差的影響,包括限制性內切酶的效率和基因組測序片段的可作圖性,所以說改進實驗需要兩手抓,需要更加嚴格的統計學處理,消除數據誤差的影響。
Werken等人提出了一種糾正誤差的計算機框架,他們將限制性片段根據相似特性進行分類,比如GC含量和片段長度,期間采用兩個互補的策略,糾正接觸強度。對于遠程相互作用,研究人員預計了每個片段類的覆蓋背景率,分別計算各類觀察到的和預期的片段覆蓋之間的富集。而對于近程相互作用,研究人員又采用了另外一種不同的方法,因為接觸范圍隨著序列距離變化大。但是因為不同片段類的覆蓋譜代表著相同的相關分布,所以研究人員能在位數正常化后進行比較。
研究人員通過三個不同的基因位點驗證了這種技術,這三個位點分別是β-珠蛋白,Oct4和SATB1。他們在150kb β-珠蛋白區域中檢測了大約1,000片段末端,將其與以前的實驗報道進行比較,進一步證明了同一位點上全基因組范圍內的互作圖譜具有高度重現性。這些實驗表明高清晰度4C-seq是一種全基因組范圍內,篩選包含目標啟動子在內的調控DNA元件,強大有效的直接方法。
第二篇文章“Iterative correction of Hi-C data reveals hallmarks of chromosome organization”,是由麻省理工的Mirny和Dekker研究組完成,主要聚焦于低分辨率所有區域中的全基因組范圍相互作用。
與4C-seq方法一樣,HI-C數據也受到多個技術和生物學來源誤差的影響,要糾正這些誤差很困難,不僅是因為必須預料到所有可能的誤差來源,而且還由于某種誤差的大小和方向會根據不同實驗方法而變化。
為了應對這一挑戰,Imakaev等人開發出了一個集成方案,可以在未知這些技術或生物來源的前提下,消除Hi-C數據中的許多誤差。換句話說,通過一種無偏差方式消除了誤差。
Imakaev這篇文章的核心假設是,在一個無誤差實驗中,所有的基因組區域應該通過同一“可見性”進行分析,這樣實驗中觀察到基因組區域的概率就相同了。而且作者假設每對相互作用的可見誤差是會消失的,也就是說,這種偏差是隨著相互作用的兩個區域各自作用區域出現的誤差而出現的。
在這些假設的基礎上,Hi-C原始計數矩陣可以反復驗證,在一個重復循環中,Hi-C圖譜的每一組分都能通過兩個互作區域的可見誤差產物區分開來。同樣,Imakaev等人也在人淋巴母細胞系實驗中驗證了這種方法,獲得結果出現的誤差與近期概率方法計算出來的限制性片段水平誤差相關性很好,從而相互確認了這兩種方法的作用。
從這兩篇論文中,我們可以看到染色質互作圖譜實驗技術與分析方法上的極大進步,這些成果將有助于科學家們深入了解基因組的三維結構,極大地改變我們對于人類基因組全圖的認識。