Nature：基因組語言的復雜語法

日期：2015-11-11 09:21:12

瑞典卡羅林斯卡學院的一項新研究證實，人類遺傳密碼的“語法”遠比世界上最精心建立的語言還要復雜。發表在《自然》（Nature）雜志上的研究結果，解釋了人類基因組如此難以解譯的原因——并有助于進一步了解遺傳差異在個體水平上影響疾病形成風險的機制。

論文的主要作者、生命科學與營養學系博士生Arttu Jolma說：“基因組中包含了構建和維持生物體所需的所有信息，也儲存著有關個體形成如糖尿病、心臟病和癌癥等常見疾病的風險的詳細信息。如果可以提高我們閱讀及理解人類基因組的能力，我們將能夠更好地利用很多疾病迅速累積的基因組信息來獲得醫學利益。”

2000年的人類基因組測序揭示出了，構成人類基因組的30億A、C、G和T堿基是如何排列的。然而，只知道堿基的順序不足以將基因組發現轉化為醫學利益；還需要了解堿基序列的意思。換句話說，有必要識別出基因組語言的“單詞”和“語法”。

我們體內的細胞具有幾乎完全相同的基因組，細胞之間彼此不同是因為不同的基因在不同類型的細胞中活化（表達）。每個基因都有一個調控區域，包含了控制基因何時及在何地表達的指令。轉錄因子結合特異的“DNA單詞”來讀取這一基因調控密碼，上調或是下調了相關基因的表達。

在Jussi Taipale教授的領導下，卡羅林斯卡學院的研究人員鑒別出了個別轉錄因子識別的大多數DNA單詞。就像在人類自然語言中一樣，DNA單詞可以結合組成被多個轉錄因子讀取的復合單詞。但以往從未探討過讀取這樣的復合單詞的機制。因此，在他們近期的Nature研究中，Taipale研究小組檢測了成對轉錄因子的結合偏好，系統繪制出了它們結合的復合DNA單詞圖譜。

分析結果解釋，遺傳密碼的語法比最復雜的人類語言還要復雜。并非簡單地刪除一個空格讓兩個單詞結合到一起，結合組成復合DNA單詞的單個單詞發生了改變，生成了大量全新的單詞。

Arttu Jolma 說：“我們的研究發現了許多這樣的單詞，增進了我們對正常發育和癌癥中基因調控機制的認識。這些研究結果為破解控制基因表達的遺傳密碼鋪平了道路。”