PNAS:不同生物統一DNA代碼
日期:2012-04-11 15:25:18
大型數據分析已經正式納入了國家計劃——近期美國白宮科學與技術政策辦公室宣布了“大型數據研究和發展倡議(Big Data Research and Development Initiative)”。近期來自密蘇里大學的多學科研究人員發表了題為“Long Identical Multispecies Elements in Plant and Animal Genomes”的文章,利用開創性的計算機算法,直面迎擊大型數據的挑戰,發現了不同植物和動物物種中統一的DNA序列。
文章的第一作者,密蘇里大學計算機科學助力教授Dmitry Korkin表示,“我們的計算算法發現了多種植物基因組中完全不同位置上,統一的DNA序列”,“從來沒有人進行過這樣規模的分析。”
另外一位作者,動物科學助力教授Dmitry Korkin補充道,“我們的發現揭示了植物進化的一些奧秘”,“植物基因組相關基礎研究將能提供原始材料,促進機械和農作物研發技術。”
之前的研究曾在不同物種動物DNA中發現統一的代碼,但是在這項最新研究之前,計算機程序還未能在植物DNA中找到統一的序列,因為研究人員并未在同一點上發現統一的區域。
研究人員已經進行了六種動物基因組:狗,雞,人類,小鼠,獼猴和大鼠的比對分析,同樣六種植物物種:擬南芥,大豆,水稻,棉花,白楊,高粱和葡萄也進行了基因組比對。比對所有的基因組序列需要48臺計算機處理器,進行四個星期的分析,每小時完成一百萬的搜索,總共要完成32億次搜索。
研究人員發現了統一的植物物種序列,并指出這些序列與動物存在進化差異。植物和動物都是復雜的多細胞生物,與相同的環境條件進行反應,比如攝入氧氣,水,與天氣變化協調等,但是植物的基因組編碼在處理這些方面具有不同的方式。
研究人員研發了新型計算方法,為進化探討不同遺傳機制和功能奠定了基礎。而且這種新方法也有助于發展新型儀器。
“這一計算機算法還可以用于識別生物整個蛋白質組中的相同序列模式”,Korkin說,“這將能用于發現已有藥物的新靶標,以及這些藥物的副作用”。