PRODUCT CLASSIFICATION
產品分類了解蛋白質挑戰的AI解決方案
根據一項嚴格的獨立研究,在一項重大的科學進步中,DeepMind的AI系統AlphaFold的-新版本已被認為是解決已有50年歷史的蛋白質結構預測挑戰(通常稱為“蛋白質折疊問題”)的解決方案。評定。從長遠來看,這一突破可以大大促進生物學研究,從而在疾病理解和藥物發現等領域開辟新的可能性。
CASP14的結果表明,DeepMind的-新AlphaFold系統在結構預測中達到了無與-倫比的準確性。該系統能夠在幾天之內確定高精度結構。CASP是蛋白質結構預測的關鍵評估,是始于1994年的兩年一次的社區運行評估,是評估預測技術的金標準。參加者必須盲目地預測剛剛通過實驗確定的蛋白質(或者在某些情況下尚未確定)的蛋白質結構,并等待將其預測與實驗數據進行比較。
CASP使用“全-球距離測試(GDT)”度量標準來評估精度,范圍為0-100。新的AlphaFold系統在所有目標上的GDT總體平均得分為92.4。系統的平均誤差約為1.6埃,大約是原子的寬度。根據CASP聯合創始人兼主席John Moult教授的說法,大約90 GDT的分數被非正式地認為與通過實驗方法獲得的結果具有競爭力。
馬里蘭大學CASP聯合創始人兼主席John Moult教授說:“近50年來,我們一直在解決這個問題(蛋白質如何折疊)這一問題。親身經歷了DeepMind對此的解決方案在這個問題上停留了這么長時間,經過了無數停頓,開始思考我們是否會到達那里,這是一個非常特殊的時刻。”
對現實世界的影響
DeepMind很高興能與其他人合作,以了解有關AlphaFold潛力的更多信息,AlphaFold團隊正在研究蛋白質結構預測如何與少數專家小組一起幫助理解某些疾病。
還有跡象表明,作為科學界開發的許多工具之一,蛋白質結構預測可能在未來的大流行應對工作中有用。今年早些時候,DeepMind預測了SARS-CoV-2病毒的幾種蛋白質結構,實驗人員令人印象深刻的快速工作現已證實AlphaFold在其預測中達到了很高的準確性。
AlphaFold是DeepMind迄今為止重要的改進之一。但是,與所有科學研究一樣,還有許多工作要做,包括弄清楚多種蛋白質如何形成復合物,它們如何與DNA,RNA或小分子相互作用以及如何確定所有氨基酸側鏈的精-確位置。
與早期的CASP13 AlphaFold系統一樣,DeepMind計劃在適當的時候向同行評審的期刊提交詳細介紹該系統工作原理的論文,并同時探索如何-好地以可擴展的方式為系統提供更廣泛的訪問。
AlphaFold在展示AI作為輔助基礎科學發現的工具的驚人潛力方面開辟了新天地。DeepMind期待與他人合作以釋放這種潛力。
諾貝爾獎得主,皇-家學會主席Venki Ramakrishnan教授說:“這項計算工作代表了蛋白質折疊問題的驚人進展,蛋白質折疊問題是生物學界50年來的巨大挑戰。它已經發生了數十年,而該領域的許多人將我們已經預見到了。很高興看到它將從根本上改變生物學研究的許多方式。”
為什么蛋白質結構預測很重要
蛋白質對生命至關重要,其形狀與功能密切相關。準確預測蛋白質結構的能力使人們能夠更好地了解它們的作用及其運作方式。目前,主數據庫中有超過2億種蛋白質,而它們的3-D結構中只有一小部分已經被繪制出來。
一個主要的挑戰是蛋白質在理論上可以折疊成終的3-D結構之前可以折疊的天文方法。從根本上說,社會面臨的許多大挑戰,例如開發疾病的治療方法或尋找可分解工業廢物的酶,都與蛋白質及其作用密切相關。確定蛋白質的形狀和功能是科學研究的一個主要領域,主要是使用實驗技術,每個結構可能要花費數年的艱辛和艱巨的工作,并且需要使用數百萬美元的設備。
DeepMind解決蛋白質折疊問題的方法
突破性突破是DeepMind在2018年*參加CASP13的基礎上,初的AlphaFold版本在所有參與者中都達到了-高的準確性。現在,DeepMind為CASP14開發了新的深度學習體系結構,從生物學,物理學和機器學習領域以及過去半個世紀蛋白質折疊領域的許多科學家的工作中汲取了靈感。
折疊的蛋白質可以被認為是“空間圖”,其中殘基是結點,邊緣將殘基緊密相連。該圖對于理解蛋白質內的物理相互作用及其進化歷史非常重要。對于在CASP14上使用的-新版本的AlphaFold,DeepMind創建了一個基于注意力的神經網絡系統,端到端進行了培訓,該系統試圖解釋該圖的結構,同時對所構建的隱式圖進行推理。它使用進化相關序列,多序列比對(MSA)和氨基酸殘基對表示來完善此圖。
通過重復此過程,系統可以對蛋白質的潛在物理結構進行強有力的預測。此外,AlphaFold可以使用內部置信度量度來預測每個預測的蛋白質結構的哪些部分是可靠的。
該系統接受了來自蛋白質數據庫中約170,000種蛋白質結構組成的公開數據的培訓,使用的是現代機器學習標準,使用的計算量相對較小-大約運行了128個TPUv3核(大約相當于100-200個GPU)幾個星期。