從單項能力來說,現在的AI已經很先進了,比如說AI能識別我們說的話,照片裡面的物品,下棋能勝過人類冠軍等等。但是就像交互設計之父Alen Cooper所說那樣,電腦能識別你說的話,但它可能不懂你的意思。為什麼?上下文語境、背景等資訊對於理解意思和意義是非常重要的。如果我們希望未來的機器人執行我們的命令的話,就必須讓它們能徹底理解周圍的世界——如果機器人聽見了狗叫,它要知道是什麼導致了狗發出叫聲,那條狗是長什麼樣的,以及它想要什麼。
過去的AI研究注重的是單項突破(感知世界和執行任務方面)。可以想像一下,如果你一次只能使用一種感覺,不能同時將你聽到的東西跟看到的東西進行配對的話會是什麼感覺?這個就是AI的現狀。但是要解決深層次的問題,就需要將這些單項的成功進行統合。幸運的是,目前MIT 和Google 的研究人員已經展開這方面的探索。這兩家機構最近發表了相關論文,解釋了協調AI進行看、聽和讀方面的初步研究,這些成果有望顛覆我們教機器瞭解世界的辦法。
MIT的AI博士後Yusuf Aytar是論文的共同作者之一,他說:「你是看到了汽車還是聽見了引擎並沒有關係,你馬上就能識別出這事同一個概念。你大腦中的資訊已經自然地把它們協調統一起來了。」
協調正是研究的關鍵。研究人員並沒有教演算法任何新東西,而是建立了一種方式讓演算法將一種感覺獲得的知識與另一種進行連接或協調。Aytar舉了一個無人車的例子,比方說無人車的聲音感測器可能會先聽到救護車的響聲,然後雷射雷達才看到救護車(視線受阻)。有關救護車的鳴叫聲、樣子以及職能的知識可以讓無人車放慢速度,切換車道,給這輛車騰出地方。
為了訓練這套系統,MIT的研究小組首先給神經網路示範了與音訊相關的影片幀。在神經網路發現了影片中的物件並且識別出特別的音訊之後,AI就會嘗試預測哪一個物件跟聲音關聯。比方說,招手會不會發出聲音呢?
接下來,研究人員把帶有標題的類似情況下的圖像提供給同一個演算法,這樣它就能夠將文字與物件和圖中的動作關聯起來。想法跟前面一樣:首先網路會單獨識別出圖中所有的物件以及相關問題,然後進行配對。
乍看之下這種網路似乎沒什麼了不起,因為AI獨立識別聲音、圖像、文字的能力已經很了不起了。但當我們對AI進行聲音/圖像、圖像/文字的配對訓練時,系統就能在未經訓練指導哪個單詞與不同聲音妹對的情況下將聲音與文字關聯起來。研究人員宣稱,這表明神經網路對於所看到的、聽到的或者讀到的東西已經形成了一種更加客觀的看法,而這種看法的形成並不是完全依賴於它用來瞭解這一資訊的媒介。
能夠統合物件的觀感、聽覺以及文字的演算法可以自動將自己聽到的東西轉化成看到的東西。比方說,演算法聽到斑馬在叫的時候,它會假設斑馬的樣子類似斑馬(在不知道斑馬樣子的情況下):
它會知道斑馬是一頭動物,它會知道這頭動物會發出這類的聲音,並且自然地將這一資訊在不同形態間做轉化。
這類假設使得演算法會在想法之間建立新的連接,強化了演算法對世界的理解。
Google也進行了類似的研究,不過Google更強一點的是它還能夠將文字轉化成其他的媒體形式。但是從準確率來說這些技術還比不上單用途的演算法。不過Aytar的看法很樂觀,他覺得這種情況不會持續太久:
如果你有了更多感覺的話,準確率就會更高。
提供您第一手最豐富的創業資訊!
現在就加入「創業小聚 Line@-數位創新與創業的社群平台!」
還有每週聚焦徵才、創業活動的「創業小聚每週電子報!」
本文授權自《36氪》,作者:boxi