2014年,Broad研究所和麻省總醫(yī)院的研究人員在ExAC數(shù)據(jù)庫(the Exome Aggregation Consortium,外顯子組整合數(shù)據(jù)庫)中公布了約1000萬個遺傳變異。研究人員近日描述了他們收集數(shù)據(jù)的過程,并鑒定出了3200個可能與人類遺傳病發(fā)展相關的基因,這項研究8月17日發(fā)表在《Nature》上。
文章通訊作者Daniel MacArthur說,“像世界各地的許多實驗室一樣,我的實驗室從四年前開始對罕見病患者進行測序起就發(fā)現(xiàn),分析患者外顯子組測序數(shù)據(jù)的一個關鍵挑戰(zhàn)是,每個人都攜帶了成千上萬個基因變異。” MacArthur是Broad研究所醫(yī)學和群體遺傳學的聯(lián)合主任,麻省總醫(yī)院和哈佛醫(yī)學院的助理教授。他表示,研究人員和臨床醫(yī)生需要數(shù)據(jù)庫告訴他們,哪些在患者中發(fā)現(xiàn)的基因變異在健康人中也出現(xiàn),以及這些基因變異有多普遍,以便研究人員根據(jù)這些信息識別那些真正導致疾病的基因變異。
MacArthur指出,該項工作突顯了數(shù)據(jù)共享的重要性,如果這項工作中的20多個研究小組和30多個首席研究員沒有共享數(shù)據(jù),這個項目就不可能完成。
研究人員收集了歐洲人、非裔美國人、東亞人、南亞人和拉美人的外顯子組測序數(shù)據(jù)。他們使用Broad研究所開發(fā)的新版本的基因組分析工具包(GATK)HaplotypeCaller對原始數(shù)據(jù)進行分析,識別了60702個樣本共有的一組變異。
研究人員生成了匯總文件,通過公開訪問的網(wǎng)站于2014年公布了這些識別的變異。自公開以來,該資源已經(jīng)被世界各地的研究人員使用了超過五百萬次。MacArthur說,“它主要用于罕見病患者基因變異的解讀中,如今幾乎所有的臨床診斷實驗室都在使用ExAC資源作為診斷罕見病患者的標準資源庫。”
在他們的新研究中,研究人員過濾并分析了ExAC數(shù)據(jù)庫的數(shù)據(jù),來計算序列變異致病性的客觀指標,并鑒定經(jīng)受住各類突變的強力選擇的基因。
MacArthur解釋,數(shù)據(jù)庫中的健康人能幫助研究者鑒定出耐受變異的基因,進而縮小范圍,更容易地找到導致遺傳病如肌肉萎縮癥或癲癇的基因。
MacArthur說,“我們利用這個資源,總共找出了3000多個基因最有可能與疾病相關。但是其中超過2/3的基因還沒有與具體的疾病關聯(lián)起來。”
另外,MacArthur和他的團隊發(fā)現(xiàn),近200個被報道導致疾病的基因變異在ExAC數(shù)據(jù)庫中太常見了而不可能與疾病相關。他說,“它們是由于錯誤進入數(shù)據(jù)庫的無害變異,我們應該使用這個資源來糾正這類錯誤。”
研究人員表示,盡管ExAC數(shù)據(jù)庫幾乎是以前資源的十倍大,且包含了相當多的多樣性,但它還不能代表全球的人口。MacArthur說,他們鑒定出的可能與遺傳病相關的基因可以優(yōu)先用在下游的研究中。
參考文獻:Analysis of protein-coding genetic variation in 60,706 humans. Nature, doi:10.1038/nature19057