根據維基百科,截至2014年,全球共有超過4.2億人患有糖尿病,這個數字在近年來有所減少,但形勢仍不容樂觀。而作為糖尿病的併發症之一,糖尿病性視網膜病變(Diabetic Retinopathy)正在侵蝕著長期糖尿病患者。醫學人士發現,對於一般患者,患病10年以上會開始出現病變,導致失明。10年後聽起來很遙遠,但情況其實比想像中更緊急,因為對於那些血糖控制差,或者是胰島素依賴型糖尿病的患者來說,他們完全有可能更早出現眼底病變,失明的風險比其他人甚至是糖尿病患者都更高。
問題在南亞國家尤為嚴重。截至2015年,印度有超過7000萬名糖尿病患者,而由於生活習慣、遺傳因素、缺少醫生和足夠的醫療資源等社會原因,接下來20年的情況很令人擔憂,到2040年南亞國家糖尿病患數字將會增長至1.4億。但擺在印度公共衛生部門面前的直接問題更加棘手:根據官方統計,由於全國存在一個大約12萬名眼科醫師的缺口,糖尿病和糖尿病性視網膜病變患者無醫可投,大約45%的患者在被確診之前已經失去了部分或全部的視力。
莉莉.彭(Lily Peng)是Google旗下科研機構Google Research的一名研究員。在Google年度開發者大會I/O 2017即將召開前夜,她介紹了一個激動人心的科研項目:用機器學習技術來提早發現糖尿病性視網膜病變,進行及時甚至是預防性治療,從而讓那些可能將在3年、5年甚至10年後失去視力的人們,獲得一個寶貴的提前治療機會。
「我們的任務:使用深度學習技術訓練一個演算法,能夠從病人的視網膜眼底照片中自動診斷出潛在的病變情況。」她介紹道。任務邏輯聽起來很簡單,但實際上並非如此,因為訓練這個演算法的過程才是關鍵。為了提供高品質的訓練素材,科研人員找來了54名美國食藥監局(FDA)資質認證的眼科醫師和專業人士,從2015年5月到12月期間對總共128,175張視網膜眼底照片素材進行標記和評級,最終標記出超過88萬個確診症狀。
接下來,神經網路技術就該派上用場了。莉莉.彭的團隊搭建了一個26層的深度卷積神經網路(Convolutional Neural Network),然後用標記好的素材進行訓練。
這種神經網路結構較為特殊,它的特性是對於二維結構的資料——也就是圖片——有著較好的性能,因此經常被用於對大量圖片進行學習。
2016年1月和2月,Google Research分別找來兩個不同的眼科專業的視網膜眼底照片庫,讓演算法和眼科醫師一較高下。這次嘗試的結果是顯著的:演算法在發現症狀的敏感度(98.8)和判斷症狀的準確性(99.3)上,都比人的得分要高(在統計學上這個得分叫做F-score,眼科醫生的分數是0.91,而演算法拿到了 0.95)。
同年,這份研究報告發佈在了美國醫學會的專業期刊JAMA上,獲得了醫學界的大量好評。哈佛醫學院的安德魯·比姆和以撒.柯漢表示,「這一研究展示了醫學新世界的樣子。」
將電腦科學和醫學進行結合,竟然達成了意想不到的效果。
當然,這已經不是電腦科學第一次跟醫學產生有價值的交集,甚至醫學界已經對「機器學習」這一術語感到並不陌生。事實上在過去的幾十年間,醫學科研人員一直在採用機器學習這種更為先進的技術來嘗試攻克只有大計算量才可以解決的醫學難題。但隨著近幾年來計算性能的飛躍式突破,機器學習的子集「深度學習」技術開始流行——毫無疑問,後者將成為醫學科研工作者手中的最新利器。
身兼生物醫學、醫學雙料博士的莉莉.彭,還對深度學習頗有瞭解,這種跨學科的才能讓她格外矚目,但她又怎樣看待醫學和電腦之間的關係?「其實不是所有的醫學難題都要機器學習來解決,比如洗手這件事……我更重要的任務是幫助我的團隊找到那些機器學習可解的難題,幫助他們理解我們的訓練資料。」
她認為,機器學習是醫學的一個很好的輔助工具——用來輔助醫生做出診斷,而不是決定診斷。也正因此,Google Research團隊對該技術的推進仍然比較謹慎,莉莉.彭一再明確,這項研究只是為了證明通過機器學習的路徑來解決問題,成效是顯著且可預期的。然而這個電腦診斷的過程,還沒有達到絕對科學可靠的程度。說到底,她們只是知道電腦能做出準確的診斷,並不完全明白它為什麼能做出準確的診斷。
其實問題又回到了深度學習技術的一個核心辯題:無論識別圖像、聽懂語音,神經網路技術總能輸出一些很不錯的結果,但還是沒人解釋的清,它到底是怎樣做到的。一些深度學習專家曾對我說,神經網路的節點和層級,模擬的是人腦神經元(neuron)之間互相連接以及層級式(hierarchy)的思考模式,但另一些腦科學家卻向我指出,就連他們都沒完全搞清楚人腦到底怎樣思考。因此你可以說,現在的電腦神經網路結構與其說在類比人腦,其實更像是依葫蘆畫瓢。
似乎這個問題可以爭論下去無休無止,但爭論可能更多發生在學界內部。好在,Google已經可以確認用這種技術來診斷糖尿病性視網膜病變是有效的。接下來,Google Research要和尼康等的眼科儀器/醫療服務機構進行合作推廣這項技術。更進一步,她們希望能為這項技術取得FDA以及印度方面權威機構的認證,讓全世界視力被糖尿病所威脅的人們能夠儘早診斷、儘早治療。
她們發現,其實診斷晚的這個情況,不僅在印度,在美國甚至全世界都是個問題,儘管原因不盡相同。
「在美國,很多情況是人們提交了自己的資料(注:眼底掃描)給醫療機構等待檢查。但時間長了,人們搬家了、換電話了,當醫療機構診斷出病症時,病人卻失聯了。」莉莉.彭說,而機器學習檢查的最大優勢在於可以當場出結果。研究團隊也在進行嘗試,設立了網站讓使用者提交自己的眼底掃描照片進行分析——儘管這不是專業診斷,但仍足以提前5年甚至10年,拯救現在的普通人,未來的失明者。
前面提到,莉莉.彭的分享會發生在Google I/O 2017的前一天。在一整天的圓桌討論議程中,我不止一次聽到Google科研人員做出「我們的重心不是那些未來50甚至100年的新技術,但10年是一個很值得抓住的節點」或類似的表述。
的確,我們暫時無法解釋神經網路到底是為什麼這麼厲害,但我們還是可以、應該用它來做一些很好的、在10年內可以幫到我們的事情。前沿科技其實都是如此,核心原理搞沒搞清楚,並不妨礙我們去利用它改善生活。就好比我們的祖先不知道哪天突然發現了鑽木或撞擊石頭可以取火,當時他們沒能研究明白火到底是什麼,但人類還是從茹毛飲血的時代向農耕文明邁出了那重要一步。
本文授權自《PingWest》,作者:光譜