Science公布數(shù)據(jù)處理新工具:MINE
日期:2011-12-19 08:55:58
來(lái)自哈佛大學(xué),Broad研究院的研究人員發(fā)表了題為“Detecting novel associations in large data sets Science”的文章,介紹了一種強(qiáng)大的在龐大數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的統(tǒng)計(jì)方法,這種方法能快速通過(guò)給不同類型關(guān)聯(lián)進(jìn)行評(píng)估,從而發(fā)現(xiàn)廣泛范圍的關(guān)系類型,這將有助于生物學(xué),及其它學(xué)科的研究,相關(guān)成果公布在Science雜志上。
文章的第一作者是哈佛大學(xué),麻省理工健康科學(xué)與技術(shù)組的David N. Reshef,以及Yakir A. Reshef,前者表示,“標(biāo)準(zhǔn)的方法只能通過(guò)一種模式觀察一種信號(hào),而把其它作為了背景”,“但是關(guān)系數(shù)據(jù)集中存在許多不同類型的關(guān)聯(lián),我們的這種方法令人激動(dòng)之處在于它能尋找任何類型數(shù)據(jù)清楚結(jié)構(gòu),并嘗試發(fā)現(xiàn)它們。”
現(xiàn)代社會(huì)充斥著各種各樣的信息,生命科學(xué)領(lǐng)域尤其是在測(cè)序技術(shù)飛速發(fā)展以來(lái),獲得了大量的DNA基因組信息,比如國(guó)內(nèi)的華大基因,據(jù)稱其167臺(tái)DNA組序器每天制造著相當(dāng)于2000人的基因組,如此多的基因組使測(cè)序機(jī)構(gòu)常常很難通過(guò)互聯(lián)網(wǎng)或其他通訊線路將這些結(jié)果傳送給客戶或是合作伙伴,因?yàn)檫@需要幾周時(shí)間,因此出現(xiàn)了通過(guò)快遞郵寄包含了這些數(shù)據(jù)的電腦磁盤的現(xiàn)象。
而且如果需要從這些龐大的數(shù)據(jù)集里找到其中的關(guān)聯(lián),更加是令人感到頭疼,在這篇文章中,研究人員提出了一種在龐大的數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的強(qiáng)有力的統(tǒng)計(jì)方法。
利用這種方法——被稱為MINE,研究人員無(wú)需事前對(duì)其尋找的關(guān)系類型有所了解,就檢測(cè)由多種因素驅(qū)動(dòng)的復(fù)雜模式。MINE基于最大信息系數(shù)(MIC),其依據(jù)的理念是,如果2個(gè)變量之間存在著一種關(guān)系,那么就應(yīng)該有一種方法在那些變量的散點(diǎn)圖上畫一個(gè)網(wǎng)格,使得大多數(shù)的數(shù)據(jù)點(diǎn)集中在該網(wǎng)格的幾個(gè)單元格中。通過(guò)搜尋這種“最適合”的網(wǎng)格,計(jì)算機(jī)可以計(jì)算MIC及一族可用來(lái)發(fā)現(xiàn)并描繪關(guān)系的相關(guān)的統(tǒng)計(jì)數(shù)據(jù)。
研究人員將MINE方法與其它的方法進(jìn)行了比較,結(jié)果發(fā)現(xiàn)MINE更適合于作快速的數(shù)據(jù)探索。他們利用這一方法,揭示了4例真正的數(shù)據(jù)集中的熟悉的和先前未知的關(guān)系:世界衛(wèi)生數(shù)據(jù)、棒球統(tǒng)計(jì)數(shù)據(jù)、酵母菌基因表達(dá)數(shù)據(jù)及一組人類腸道中細(xì)菌豐度的數(shù)據(jù)。
同期Science觀點(diǎn)欄目也對(duì)這一研究進(jìn)行了討論,并回顧了相關(guān)系數(shù)的歷史,該歷史以1888年由查爾斯-達(dá)爾文的半表親Francis Galton所發(fā)明的相關(guān)系數(shù)開始。
近期值得關(guān)注的還有,由中國(guó)科學(xué)家主導(dǎo)的研究完成了50個(gè)水稻基因組重測(cè)序及遺傳變異數(shù)據(jù)庫(kù)構(gòu)建等,這首次對(duì)栽培稻和野生稻基因組進(jìn)行了大規(guī)模的遺傳變異分析,為科學(xué)家深入挖掘水稻重要農(nóng)藝性狀基因及促進(jìn)水稻分子育種改良等研究提供了寶貴的基因資源。