計算機如何幫助生物學家破解生命的秘密

一旦對30億字母長的人類基因組進行測序,我們就會衝進一個新的“組學“生物研究時代。 科學家現在正在競相對各種生物的基因組(所有基因)或蛋白質組(所有蛋白質)進行測序 - 並且正在編制大量數據。

例如,科學家可以使用“組學”工具(如DNA測序)來梳理哪些人類基因在病毒性流感感染中受到影響。 但由於人類基因組總共至少有25,000基因,即使在如此簡單的情況下,基因的數量也可能有數千個。

雖然測序和鑑定基因和蛋白質給了他們一個名字和一個地方,但它並沒有告訴我們他們做了什麼。 我們需要了解這些基因,蛋白質和蛋白質 介於兩者之間的所有東西 在不同的生物過程中相互作

今天,即使是基礎實驗也會產生大數據,而最大的挑戰之一就是從背景噪聲中解開相關結果。 計算機正在幫助我們克服這一數據; 但他們甚至可以更進一步,幫助我們提出科學假設並解釋新的生物過程。 從本質上講,數據科學可以實現前沿的生物學研究。

計算機到救援

計算機具有處理海量數據集的獨特資格,因為它們可以同時跟踪分析所需的所有重要條件。


內在自我訂閱圖形


雖然他們 可以反映人為錯誤 他們被編程,計算機可以有效地處理大量數據,並且他們不會像人類調查員那樣偏向熟悉的數據。

計算機也可以被教導在實驗數據集中尋找特定的模式 - 這個概念稱為機器學習,最初在1950中提出,最著名的是數學家 阿蘭·圖靈。 然後,可以要求已經從數據集學習模式的算法基於之前從未遇到的新數據進行預測。

機器學習已經徹底改變了生物學研究,因為我們現在可以利用大數據集並要求計算機幫助理解潛在的生物學。

通過模擬腦過程訓練計算機進行思考

我們在自己的實驗室中使用了一種有趣的機器學習方法,稱為人工神經網絡(ANN)。 大腦是高度互聯的神經元網絡,通過神經佈線發送電脈衝進行通信。 類似地,ANN在計算機中模擬神經元網絡,因為它們響應於其他神經元的信號而打開和關閉。

通過應用模擬真實神經元過程的算法,我們可以使網絡學會解決許多類型的問題。 谷歌使用功能強大的ANN,因為它現在很有名 深夢項目 計算機可以分類甚至創建圖像。

我們小組研究免疫系統,目標是 找出治療癌症的新療法。 我們使用ANN計算模型來研究我們的免疫細胞使用的短表面蛋白質代碼,以確定某些物質是否對我們的身體是陌生的,因此應該受到攻擊。 如果我們更多地了解我們的免疫細胞(如T細胞)如何區分正常/自身和異常/外來細胞,我們可以設計出更好的疫苗和療法。

我們搜索了研究人員多年來發現的數千種蛋白質代碼的公開目錄。 我們將這個大數據集分成兩部分:來自健康人類細胞的正常自身蛋白質代碼,以及源自病毒,腫瘤和細菌的異常蛋白質代碼。 然後我們轉向我們實驗室開發的人工神經網絡。

一旦我們將蛋白質代碼輸入ANN,該算法就能夠識別 根本差異 正常和異常蛋白質代碼之間。 人們很難跟踪這些生物現象 - 在大數據集中有數千個這樣的蛋白質代碼需要分析。 它需要一台機器來解決這些複雜問題並定義新的生物學。

通過機器學習的預測

機器學習在生物學中最重要的應用是它在基於大數據進行預測時的實用性。 基於計算機的預測可以理解大數據,檢驗假設並節省寶貴的時間和資源。

例如,在我們的T細胞生物學領域,了解哪種病毒蛋白質代碼對於開發疫苗和治療至關重要。 但是,任何給定的病毒都有很多單獨的蛋白質代碼,它們非常昂貴且難以通過實驗測試每種病毒。

相反,我們訓練人工神經網絡,以幫助機器學習兩種蛋白質代碼的所有重要生化特徵 - 正常與異常。 然後我們要求模型“預測”哪些新的病毒蛋白質代碼類似於“異常”類別,並且可以被T細胞和免疫系統看到。 我們測試了以前從未研究過的不同病毒蛋白的ANN模型。

果然,就像一位渴望取悅老師的勤奮學生一樣,神經網絡能夠準確地識別出這種病毒中大多數此類T細胞活化蛋白質代碼。 我們還通過實驗測試了它標記的蛋白質代碼,以驗證ANN預測的準確性。 因此,使用這種神經網絡模型,科學家可以 快速預測 來自有害病毒的所有重要的短蛋白質代碼,並測試它們開發治療或疫苗,而不是單獨猜測和測試它們。

明智地實施機器學習

由於不斷完善,大數據科學和機器學習越來越成為任何科學研究不可或缺的一部分。 使用計算機在生物學中訓練和預測的可能性幾乎是無窮無盡的。 從確定哪種生物標誌物組合最適合檢測疾病到理解為什麼只是 一些患者受益於特定的癌症治療,利用計算機挖掘大數據集已成為研究的寶貴途徑。

當然,也有局限性。 大數據科學的最大問題是數據本身。 如果通過-omics研究獲得的數據開始時是錯誤的,或者基於劣質科學,那麼機器將接受關於不良數據的培訓 - 導致 糟糕的預測。 學生和老師一樣好。

因為電腦不是有感知的(),他們可以在他們尋求模式的過程中提出它們,即使不存在,也會再次出現,以及糟糕的數據和不可重複的科學。

一些研究人員對計算機的成長提出了擔憂 黑匣子的數據 對於那些不清楚他們代表他們進行的操縱和陰謀的科學家。

儘管存在這些問題,大數據和機器的好處將繼續使它們成為科學研究中的寶貴合作夥伴。 考慮到警告,我們通過機器的眼睛獨特地了解生物學。

關於作者談話

Sri Krishna,生物設計博士候選人,亞利桑那州立大學生物與健康系統工程學院和Diego Chowell,亞利桑那州立大學應用數學博士

這篇文章最初發表於 談話。 閱讀 原創文章.


相關圖書:

at InnerSelf 市場和亞馬遜