人工智能(AI)解決了生物學(xué)的一項(xiàng)重大挑戰(zhàn):預(yù)測(cè)蛋白質(zhì)如何從氨基酸的線性鏈卷曲成3D形狀,從而使它們能夠執(zhí)行生活任務(wù)。今天,兩年一次的蛋白質(zhì)折疊競(jìng)賽的主要結(jié)構(gòu)生物學(xué)家和組織者宣布了英國(guó)AI公司DeepMind的研究人員所取得的成就。他們說(shuō),DeepMind方法將產(chǎn)生深遠(yuǎn)的影響,其中包括極大地加快新藥的開發(fā)速度。
歐洲生物信息學(xué)研究所名譽(yù)主任珍妮特·桑頓說(shuō):“ DeepMind團(tuán)隊(duì)所取得的成就非常了不起,它將改變結(jié)構(gòu)生物學(xué)和蛋白質(zhì)研究的未來(lái)。” “這是一個(gè)已有50年歷史的問(wèn)題,”馬里蘭大學(xué)Shady Grove的結(jié)構(gòu)生物學(xué)家,該競(jìng)賽的共同創(chuàng)始人,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的關(guān)鍵評(píng)估(CASP)的約翰·莫爾特(John Moult)補(bǔ)充道。“我從沒(méi)想過(guò)我會(huì)一輩子看到這個(gè)。”
人體使用成千上萬(wàn)種不同的蛋白質(zhì),每種蛋白質(zhì)包含數(shù)十至數(shù)百個(gè)氨基酸。這些氨基酸的順序決定了它們之間無(wú)數(shù)的推拉作用如何產(chǎn)生蛋白質(zhì)的復(fù)雜3D形狀,進(jìn)而決定了它們的功能。了解這些形狀有助于研究人員設(shè)計(jì)出可以滯留在蛋白質(zhì)口袋和縫隙中的藥物。能夠合成具有所需結(jié)構(gòu)的蛋白質(zhì)可以加快酶的發(fā)展,這些酶可以制造生物燃料并降解廢塑料。
數(shù)十年來(lái),研究人員使用諸如X射線晶體學(xué)或低溫電子顯微鏡(cryo-EMscopy,cryo-EMscopy)等實(shí)驗(yàn)技術(shù)來(lái)解密蛋白質(zhì)的3D結(jié)構(gòu)。但是,這種方法可能要花費(fèi)數(shù)月或數(shù)年,并且并不總是有效。在生命形式中發(fā)現(xiàn)的超過(guò)2億種蛋白質(zhì)中,只有約170,000種的結(jié)構(gòu)已被解析。
在1960年代,研究人員意識(shí)到,如果他們能夠計(jì)算出蛋白質(zhì)序列內(nèi)的所有個(gè)體相互作用,就可以預(yù)測(cè)其3D形狀。每個(gè)蛋白質(zhì)具有數(shù)百個(gè)氨基酸,并且每對(duì)氨基酸可以通過(guò)多種方式相互作用,但是,每個(gè)序列可能的結(jié)構(gòu)數(shù)目是天文數(shù)字。計(jì)算科學(xué)家跳上了這個(gè)問(wèn)題,但進(jìn)展緩慢。
1994年,Moult及其同事發(fā)起了CASP,每?jī)赡暾匍_一次。進(jìn)入者獲得約100種蛋白質(zhì)的氨基酸序列,其結(jié)構(gòu)未知。一些小組計(jì)算每個(gè)序列的結(jié)構(gòu),而另一些小組則通過(guò)實(shí)驗(yàn)確定它。然后,組織者將計(jì)算預(yù)測(cè)結(jié)果與實(shí)驗(yàn)室結(jié)果進(jìn)行比較,并為預(yù)測(cè)結(jié)果提供全球距離測(cè)試(GDT)分?jǐn)?shù)。穆爾特說(shuō),零分到100分的90分以上得分與實(shí)驗(yàn)方法相當(dāng)。
即使在1994年,小而簡(jiǎn)單的蛋白質(zhì)的預(yù)測(cè)結(jié)構(gòu)也可以與實(shí)驗(yàn)結(jié)果相匹配。但是對(duì)于較大的,具有挑戰(zhàn)性的蛋白質(zhì),計(jì)算的GDT得分約為20,“完全是一場(chǎng)災(zāi)難”,馬克斯·普朗克發(fā)育生物學(xué)研究所的CASP法官和進(jìn)化生物學(xué)家安德烈·盧帕斯說(shuō)。到2016年,競(jìng)爭(zhēng)小組的最堅(jiān)硬蛋白質(zhì)得分已達(dá)到約40,主要是通過(guò)從與CASP目標(biāo)密切相關(guān)的已知蛋白質(zhì)結(jié)構(gòu)中得出的見解。