Netflix可以教我們如何治療癌症

兩年前,前總統巴拉克奧巴馬宣布了這一消息 精準醫學倡議 在他的國情咨文中。 該倡議渴望建立一個“醫學新時代”,疾病治療可以根據每個患者的遺傳密碼進行專門定制。 談話

這在癌症醫學中引起了共鳴。 患者已經可以使用針對特定腫瘤中特定基因的治療來治療癌症。 例如,由基因HER2的擴增引起的患有乳腺癌的女性通常用稱為赫賽汀的治療劑治療。 因為這些靶向治療劑對癌細胞具有特異性,所以與傳統的化學療法或放射療法相比,它們的副作用往往更少。

然而,大多數癌症患者無法獲得此類治療。 在許多癌症中,導致癌症的特定基因改變仍然未知。 為了創建個性化的癌症治療,我們必須更多地了解功能性遺傳改變。

隨著癌症遺傳學數據迅速增長,數學和統計數據現在可以幫助解開這些數據中隱藏的模式,找到導致個體癌症的基因。 有了這些知識,醫生可以選擇適當的治療方法來阻止這些基因的作用,為個體患者個性化治療。 我的研究旨在改善癌症中的精準醫學 - 建立在用於查找Netflix電影評級模式的相同方法上。

篩選數據

今天,公眾可以獲得前所未有的癌症遺傳學數據。 這些數據來自慷慨的患者,他們捐獻腫瘤樣本進行研究。 然後,科學家應用測序技術來測量人類基因組中每個20,000基因的突變和活性。


內在自我訂閱圖形


所有這些數據都是直接的結果 人類基因組計劃 在2003中。 該項目確定了構成健康人類DNA的所有基因的序列。 自該項目完成以來,人類基因組測序的成本已經降低 每年減少一半以上,超越了中國所描述的計算能力的增長 摩爾定律。 這種成本降低使研究能夠從癌症患者中收集前所未有的遺傳學數據。

全世界大多數關於癌症遺傳學的科學研究都將其數據發佈到美國國立衛生研究院(NIH)國家醫學圖書館提供的集中式公共數據庫中。 美國國立衛生研究院國家癌症研究所和國家人類基因組研究所也通過一個名為11,000癌症類型的33腫瘤免費發布基因數據。 癌症基因組圖譜。

每種生物功能 - 從食物中提取能量到治療傷口 - 都是由不同基因組合的活動引起的。 癌症劫持了使人們能夠長大成人並保護身體免受免疫系統侵害的基因。 研究人員稱這些為 “癌症的標誌。” 這種所謂的基因失調使腫瘤不受控制地生長並在原始腫瘤部位的遠端器官中形成轉移。

研究人員正在積極利用這些公共數據來找出導致每種腫瘤類型的基因改變集。 但是這個問題並不像在每個腫瘤中識別單個失調的基因那麼簡單。 人類基因組中的數百個(如果不是數千個)20,000基因在癌症中被失調。 在每個患者的腫瘤中,失調的基因組不同,較小的常用重複基因組使每個癌症標誌化。

精準醫學依賴於尋找較小的失調基因組,這些基因負責每個患者腫瘤的生物學功能。 但是,基因在不同的環境中可能具有多種生物學功能。 因此,研究人員必須揭示一組在一組癌症患者中具有共同功能的“重疊”基因。

將基因狀態與功能聯繫起來需要復雜的數學和巨大的計算能力。 這些知識對於預測阻斷這些基因功能的療法的結果至關重要。 那麼,我們如何才能發現這些重疊的特徵來預測患者的個體結果呢?

Netflix可以教給我們什麼

對我們來說幸運的是,這個問題已經在計算機科學中得到了解決。 答案是一類稱為“矩陣分解”的技術 - 您可能已經在日常生活中與這些技術進行了互動。

在2009, Netflix面臨挑戰 為每個Netflix用戶個性化電影評級。 在Netflix上,每個用戶都有不同的電影評級。 雖然兩個用戶在電影中可能有相似的口味,但在特定類型中它們可能會有很大差異。 因此,您不能依賴於比較類似用戶的評分。

相反,矩陣分解算法在較小的用戶組中找到具有相似評級的電影。 每部電影的用戶群會有所不同。 計算機基於其個人品味將每個用戶與一組電影相關聯到不同程度。 用戶之間的關係被稱為“模式”。這些模式是從數據中學習的,並且可以找到僅由電影類型無法預見的共同排名 - 例如,用戶可以共享對特定導演或演員的偏好。

癌症4 21Genevieve Stein-O'Brien, CC BY

同樣的過程可以在癌症中起作用。 在這種情況下,基因失調的測量類似於電影評級,電影類型對生物功能和用戶對患者的腫瘤。 計算機搜索患者腫瘤以發現導致每個腫瘤中惡性生物功能的基因失調模式。

從電影到腫瘤

電影評級與癌症遺傳學之間的類比在細節上有所體現。 除非他們是未成年人,否則Netflix用戶不會受限於他們觀看的電影。 但是,我們的身體更願意減少用於任何單一功能的基因數量。 基因之間也存在大量冗餘。 為了保護細胞,一個基因可以很容易地替代另一個基因以起到共同的作用。 癌症中的基因功能更加複雜。 根據癌細胞和相鄰健康器官之間的隨機相互作用,腫瘤也是高度複雜和快速進化的。

為了解釋這些複雜性,我們開發了一種稱為矩陣分解方法 模式集中的協調基因活動 - 或簡稱CoGAPS。 我們的算法通過將盡可能少的基因納入每個腫瘤的模式來解釋生物學的極簡主義。

不同的基因也可以彼此替代,每個基因在不同的環境中起到相似的作用。 為了解釋這一點,CoGAPS同時估計了所謂的基因功能“模式”的統計數據。 這允許我們計算每個基因在腫瘤中的每個生物功能中使用的概率。

例如,許多患者服用稱為西妥昔單抗的靶向治療劑以延長結腸直腸癌,胰腺癌,肺癌和口腔癌的存活率。 我們最近的研究發現,這些模式可以區分對靶向治療劑西妥昔單抗有反應的癌細胞中的基因功能與那些沒有的基因功能。

未來

不幸的是,靶向基因的癌症療法通常無法治愈患者的疾病。 他們只能推遲幾年的進展。 然後大多數患者復發,腫瘤對治療不再有反應。

我們最近的工作 發現在對西妥昔單抗有反應的細胞中區分基因功能的模式包括產生抗性的基因。 新興的免疫療法很有希望,似乎治癒了一些癌症。 然而,患有這些治療的患者往往也會復發。 追踪治療後癌症遺傳學的新數據對於確定患者不再反應的原因至關重要。

除了這些數據,癌症生物學還需要新一代科學家,他們可以將數學和統計學聯繫起來,以確定耐藥性隨時間發生的遺傳變化。 在其他數學領域,計算機程序能夠預測長期結果。 這些模型通常用於天氣預報和投資策略。

在這些領域和 我以前的研究,我們發現從大型數據集中更新模型 - 例如天氣情況下的衛星數據 - 可以改善長期預測。 我們都看到了這些更新的影響,天氣預測改善了我們對風暴的接近程度。

正如所使用的計算機科學工具可以適應電影推薦和癌症一樣,未來的計算科學家將採用精確醫學領域的預測工具。 最終,通過這些計算工具,我們希望能夠預測腫瘤對治療的反應,就像我們預測天氣一樣,也許更可靠。

關於作者

Elana Fertig,腫瘤學生物統計學和生物信息學助理教授, 約翰斯·霍普金斯大學

這篇文章最初發表於 談話。 閱讀 原創文章.

相關書籍

at InnerSelf 市場和亞馬遜