Science最新成果:利用宏基因組序列來確定蛋白質結構
日期:2017-02-03 09:16:28
對于蛋白質而言,外觀很重要。當然,這并不是指顏值,而是三維結構。蛋白質是由長的氨基酸鏈組成的,但一維的氨基酸序列似乎沒有意義。只有了解三維結構,研究人員才能弄清蛋白質的結構如何決定它的功能。
在蛋白質家族數據庫Pfam中有接近15,000個蛋白質家族。對于近三分之一(4,752)的家族,每個家族中至少有一種已通過實驗確定其結構的蛋白質。對于另三分之一(4,886)的家族,可根據一定程度的置信度建立比較模型。然而,對于另外5,211個蛋白家族,目前沒有任何結構信息。
近日,美國華盛頓大學David Baker領導的團隊與美國能源部聯合基因組研究所(JGI)合作,在《Science》雜志上報道了614個蛋白家族的結構模型,而它們之前沒有結構信息。在這項研究中,Baker實驗室的蛋白質結構預測服務器Rosetta分析了JGI集成微生物基因組(IMG)系統上的宏基因組序列。
文章的第一作者Sergey Ovchinnikov表示:“大量的蛋白質家族有著很少的序列。這導致沒有人關心這些家族,且不能應用協同進化的方法來研究它們。有了宏基因組學,我們發現一些被忽略的家族也有著豐富內容。另外,我們提供這些家族代表性序列的3D模型。我們希望這能激發大家的一些興趣。”
有了基因組序列,Baker等研究人員能夠鑒定出同時進化的氨基酸,即時它們在未折疊的鏈上彼此不相鄰。這些事件表明,這些氨基酸在折疊蛋白質中是鄰居,為研究人員研究蛋白結構提供了線索。結構上的接近可以提示功能關系,以及自然選擇在功能上的作用。
JGI的Nikos Kyrpides表示,Baker實驗室與JGI之間的合作讓團隊提出了一個強大的方法來預測結構和結構比對。“正如預期的那樣,當我們增加了宏基因組學數據,利用我們數據庫中50億個組裝好的宏基因組序列,我們能夠明顯增加許多已知蛋白家族的覆蓋。”
研究人員確定了建模所需的序列數量,開發出模型質量的標準,并且在可能的情況下,將預測的接觸與已知結構進行匹配來改進建模。這種方法預測出614個蛋白質家族的優質結構模型,其中約140個帶有PDB中未出現的折疊。這種方法提供了大蛋白家族的代表性模型,向著蛋白質結構計劃的目標邁進了一大步。