時(shí)間:2021-10-27
2021世界機(jī)器人大會第二天線下主論壇——“未來峰會”群星璀璨,產(chǎn)、學(xué)、研各領(lǐng)域大咖齊聚首,共話巔峰,為機(jī)器人未來發(fā)展領(lǐng)航。
峰會現(xiàn)場,暢銷書《復(fù)雜》作者,波特蘭州立大學(xué)計(jì)算機(jī)科學(xué)教授、復(fù)雜系統(tǒng)前沿科學(xué)家Melanie Mitchell通過視頻形式進(jìn)行演講,演講主題為《AI3.0——人工智能的能與不能》。以下為Melanie Mitchell演講內(nèi)容全文整理。
大家好!我是Melanie Mitchell,是美國圣菲研究所的一名教授。今天我要和大家談一談,要怎樣才能讓人工智能達(dá)到第三層次變得穩(wěn)健,具有適應(yīng)性和可解釋性,也就是我們所說的人工智能3.0。
你們很多人可能都知道,人工智能的起源可以追溯至1956年,在達(dá)特茅斯學(xué)院舉行的一個(gè)研討會,該研討會由麥卡錫、明斯基、羅切斯特和香農(nóng)等先驅(qū)者主辦。這是當(dāng)時(shí)研討會提案的第一頁,他們認(rèn)為在一個(gè)夏天之內(nèi),他們將能夠研究出如何讓機(jī)器使用語言形成抽象理解和概念,解決現(xiàn)在留給人類的各種問題,完成自我改進(jìn)。但是現(xiàn)在快過去70年了,所有這些關(guān)于如何讓機(jī)器完成這些事情的問題仍然沒有完全得到解決。
人工智能的第一階段,我們稱之為“人工智能1.0”。是利用人機(jī)工程學(xué)知識,來讓機(jī)器擁有智能行為,例如一個(gè)專家系統(tǒng)可能會有一系列的規(guī)則來對不同種類的鳥兒進(jìn)行分類。大家可以看到,這樣的做法在很多情況下都是可行的,但是這些系統(tǒng)又是很不穩(wěn)定的。因?yàn)樵谟龅揭恍┖币娗闆r時(shí),比如一只翅膀受傷的鳥,系統(tǒng)可能就無法對其正確分類。這些專家系統(tǒng)得到了應(yīng)用廣泛,但是它們并不能真的像人類一樣處理所有事情。
人工智能2.0,下一階段是機(jī)器學(xué)習(xí)階段,也就是從數(shù)據(jù)中學(xué)習(xí),以及我們現(xiàn)在所說的深度學(xué)習(xí)革命。從數(shù)據(jù)中學(xué)習(xí)包括聚類或分類,使用的是稱為支持向量機(jī)的統(tǒng)計(jì)學(xué)習(xí)技術(shù),或者近期使用的受人腦結(jié)構(gòu)啟發(fā)的神經(jīng)網(wǎng)絡(luò)。利用像大腦中視覺系統(tǒng)一樣的結(jié)構(gòu),通過多層信息 處理各種分類和語言問題,深度神經(jīng)網(wǎng)絡(luò)徹底改變了人工智能的許多領(lǐng)域。
例如著名的ImageNet圖像識別大賽,我們可以在這張圖中看到歷年比賽選出的最佳程序的誤差率。大家可以看到,一旦開始使用深度神經(jīng)網(wǎng)絡(luò),誤差率就大幅下降了。到今天,它們的誤差率甚至低于人類在識別該數(shù)據(jù)集時(shí)的預(yù)計(jì)誤差率,這使得很多人工智能應(yīng)用成為可能。比如面部識別,能夠識別道路上物體的自動駕駛汽車,能夠擊敗世界上最厲害的圍棋手的Alpha Go,以及像ALEXA這樣能夠和用戶對話、回答簡單問題的智能助手、機(jī)器翻譯?,F(xiàn)在使用深度神經(jīng)網(wǎng)絡(luò)能夠在一瞬間將英語翻譯成中文,還有最近的一些成就,比如OpenAI的GPT-3系統(tǒng)能生成類似人類的語言,以及DeepMind的AlphaFold系統(tǒng)能夠僅從蛋白質(zhì)的基因序列預(yù)測其結(jié)構(gòu)。盡管這些系統(tǒng)已經(jīng)取得了許多成就,卻也有其局限性。其中一個(gè)局限就是機(jī)器太復(fù)雜了,深層神經(jīng)網(wǎng)絡(luò)可能有超過10億個(gè)參數(shù),這是模擬神經(jīng)元之間的權(quán)重,所以很難準(zhǔn)確地理解它們到底學(xué)到了什么。
而且事實(shí)證明,有時(shí)這些系統(tǒng)學(xué)會的東西并不是我們想要教給它們的。舉個(gè)簡單的例子,
在我實(shí)驗(yàn)室工作的一個(gè)學(xué)生訓(xùn)練了一個(gè)深層神經(jīng)網(wǎng)絡(luò),他嘗試用這個(gè)系統(tǒng)來區(qū)分照片中是否有動物。在左邊大家可以看到,有一個(gè)動物是一只鳥,而在右邊沒有動物。這名學(xué)生用了一組自然照片來訓(xùn)練該系統(tǒng),并且完成得很好。但是當(dāng)他詳細(xì)觀察機(jī)器所學(xué)到的內(nèi)容時(shí),他發(fā)現(xiàn)系統(tǒng)是利用背景的模糊度來判斷照片中是否有動物,因?yàn)樵谶@些有動物的照片中,攝影師會聚焦在前景的動物上,而背景是模糊的,然而沒有動物的圖片則背景清晰。所以盡管這并不是我們希望機(jī)器學(xué)習(xí)的內(nèi)容,但是它利用統(tǒng)計(jì)上的相關(guān)性很好地完成了任務(wù),我們可以在許多機(jī)器學(xué)習(xí)項(xiàng)目中看到這種情況。
另一組研究表明,當(dāng)一個(gè)深度神經(jīng)網(wǎng)絡(luò)經(jīng)過了ImageNet圖像訓(xùn)練,以99%的置信度識別像消防車這樣的物體。如果這些物體經(jīng)過圖像處理呈現(xiàn)出不同的位姿,像這樣,現(xiàn)在神經(jīng)網(wǎng)絡(luò)會以高置信度將其歸類為校車、消防船或雪橇,而人類是不會做出這樣的分類的。這確實(shí)表明該網(wǎng)絡(luò)所依賴的特征并不是人類所使用的對圖像進(jìn)行分類的特征,而是其他我們根本不清楚的特征。很多例子都能說明這種情況,我們稱之為捷徑學(xué)習(xí),這就是深度神經(jīng)網(wǎng)絡(luò)如何學(xué)習(xí)統(tǒng)計(jì)關(guān)聯(lián)。在特定的數(shù)據(jù)集上表現(xiàn)不錯,但是卻不能進(jìn)行很好地概括。而在語言處理中,機(jī)器有時(shí)可能是對的,但卻是誤打誤撞,對手可以利用深度神經(jīng)網(wǎng)絡(luò)的這些弱點(diǎn),以非人類的方式來愚弄它們。
卡內(nèi)基梅隆大學(xué)的一組研究人員設(shè)計(jì)出了一種眼鏡框,上面有五顏六色的圖案專門用來欺騙一個(gè)面部識別系統(tǒng)。他們用他們展示了不同類型的眼鏡框來騙系統(tǒng),比如系統(tǒng)認(rèn)為該論文的其中一個(gè)作者是女演員米拉·喬沃維奇,人不會犯這樣的錯誤。但不知何故,神經(jīng)網(wǎng)絡(luò)根據(jù)某些神秘特征來進(jìn)行分類,使得系統(tǒng)變得脆弱,從而受騙。
另一個(gè)例子來自加利福尼亞大學(xué)的一個(gè)小組,他們把白色和黑色的貼紙貼在這樣的一個(gè)停車標(biāo)志上欺騙深度學(xué)習(xí)視覺系統(tǒng)。即使在不同距離和多角度拍攝下,使其認(rèn)為這是一個(gè)限速80的標(biāo)志,所以這就關(guān)系到自動駕駛汽車的配置問題。自動駕駛汽車在很大程度上依賴于這類深度神經(jīng)網(wǎng)絡(luò)視覺系統(tǒng),所以下一步我們想要實(shí)現(xiàn)的就是人工智能3.0,我們需要克服許多還未解決的重大的挑戰(zhàn)。
第一個(gè)就是小樣本學(xué)習(xí),現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)需要從人類標(biāo)記的成百萬上千萬個(gè)例子中學(xué)習(xí),但在人類學(xué)習(xí)時(shí)不需要那么多例子。我們看幾個(gè)關(guān)于橋的例子就能認(rèn)出不在我們訓(xùn)練集中的新橋,這就是小樣本學(xué)習(xí)。我們也可以歸納出與我們學(xué)習(xí)內(nèi)容大不相同的新概念,例如前一張幻燈片中的圖片沒有一座像這樣的橋,這座橋看起來大不相同,但是我們很快就能認(rèn)出這是一種橋。同樣的我們也能確定,這張有意思的照片是一座水橋,而不是別的。汽車在高速路上過河,我們可以看出來是船在河上路過高速,高速公路就在這條河下方,這是對橋的概念的一種顛覆。但我們很容易理解并且認(rèn)出來,我們必須要讓計(jì)算機(jī)能夠識別出來,不僅僅是概括,還要能抽象和類比。
接著講橋的例子,我們可以認(rèn)出這是一種橋,和我們之前看到的不太一樣,這群螞蟻在用身體搭橋來越過這個(gè)縫隙。還有更抽象的,我們會說雙手搭在一起或者鼻梁,我們把鼻子這個(gè)部分叫做鼻梁,因?yàn)樗_實(shí)是連接臉部兩側(cè)的橋梁。在說到歌曲的時(shí)候,我們也會說歌的橋段。一首歌可以有一段主歌、一段副歌,一段主歌、一段副歌,所謂的橋段就是將歌曲引入一個(gè)新的部分,所以橋這個(gè)詞某種程度上是有很大隱喻意義的。我們可以對這個(gè)基本概念進(jìn)行拓展,并且在各種各樣更加抽象的語境中使用。還有很多英語短語,比如縮小男女之間的性別差異,又比如拜登在競選總統(tǒng)期間,稱自己是通往新一代領(lǐng)袖的橋梁。我們可以非常清楚地理解這些隱喻,甚至沒有注意到它們是隱喻含義。所以這種抽象和類比的能力是讓機(jī)器能夠理解人類語言,像人類一樣進(jìn)行概括的關(guān)鍵。
霍夫斯塔特在他的文章《類比是認(rèn)知的核心》中指出,事實(shí)上概念是一系列的類比,從橋的例子中大家就可以看出這一點(diǎn)。我們還需要機(jī)器穩(wěn)健且具備常識,我之前舉的一些例子確實(shí)提出這樣的疑問,我們用數(shù)百萬個(gè)的例子訓(xùn)練出來的系統(tǒng)到底有多穩(wěn)健?舉個(gè)例子,這是一張高速公路的照片,這條公路在暴風(fēng)雪來臨前已經(jīng)提前鋪好了融雪鹽,這些融雪鹽在經(jīng)常下雪的地方很常見,融雪鹽會防止車輛在雪地或冰上打滑。但特斯拉的自動駕駛系統(tǒng)會對此感到很困惑,因?yàn)樗鼪]有暴風(fēng)雪或者鹽線的概念,它之前從來沒有見過這樣的東西,所以它無法根據(jù)自己的認(rèn)識判斷將要發(fā)生什么,也不知道這些是不是車道。我們還看到,特斯拉撞上了停下來的車輛。比如這輛特斯拉在自動駕駛的過程中,撞上了這輛停下來的消防車,原因是特斯拉公司發(fā)現(xiàn),它們的車沒有常識,不知道在哪些靜止物體,如廣告牌前面應(yīng)該停下來,所以他們設(shè)置成在許多靜止物體前不需要停下來,因此它就撞上了這輛消防車。
類似的自動駕駛汽車往往會在人們預(yù)想不到的情況下剎車,這樣一來,人們會撞上去追尾。也就是說,他們撞上了停著的車的車尾,是因?yàn)檫@些自動駕駛汽車很難弄清楚遇到什么樣的障礙物需要停下來。例如,他們可能不知道在遇到一個(gè)漂浮的塑料袋或者是風(fēng)滾草,或是一群可能會飛走的鳥的時(shí)候是否需要停下來,而我們?nèi)祟愔?。如果前面的路上有很多碎玻?nbsp; 應(yīng)該停下來,根據(jù)常識,我們知道這個(gè)雪人不是要過馬路的行人,這些都是我們?nèi)祟愃f的常識。這也正是今天的機(jī)器缺少的東西,所以有很多人在研究讓機(jī)器掌握常識。比如微軟聯(lián)合創(chuàng)始人保羅·艾倫,他投入了大量資金,在一所機(jī)構(gòu)研究機(jī)器常識以及美國國防部正在試圖投入資金,研究如何讓機(jī)器擁有常識。但對于人工智能來說,這是一個(gè)巨大的挑戰(zhàn)。
最后一個(gè)例子,大家看一下這張照片想象一下,假如你是一輛自動駕駛汽車,遇到這種情況你需要知道什么?我們常識的核心部分是我們的物理直覺,我們知道物體之間是如何相互作用的。比如說這位女士推著嬰兒車,嬰兒車有輪子,我們可以猜測它的速度。而且我們知道 如果她拉著這條狗,而這條狗站著不動,那么她得使勁拉才能讓狗動起來,這些都是我們的物理直覺。我們可以借此來預(yù)測接下來的場景,這一點(diǎn)對于安全駕駛來說是非常重要的??偟膩碚f,要人還有動物在現(xiàn)實(shí)世界里互動,我們也有直覺心理學(xué)的知識。比如說我們知道這位女士分心了,她不會注意到周圍的司機(jī),我們知道很多這種因果關(guān)系的心理模型,我們知道是什么導(dǎo)致嬰兒車移動。而如今的機(jī)器深層神經(jīng)網(wǎng)絡(luò)是利用統(tǒng)計(jì)關(guān)聯(lián)來做出決策的,它們無法輕易地找出原因。我們有著廣博的知識,比如我們知道這個(gè)人有腿,即使他的腿在嬰兒車后面我們看不到,我們也知道他可能穿了鞋子。即使我們看不見他的鞋子,因?yàn)槲覀儗θ祟惖男袨榉浅A私?。最后,我們可以進(jìn)行抽象和類比,這樣我們就可以對這種情況進(jìn)行抽象分類。也就是分心的行人或者是類似的事物,最后我們可以適當(dāng)?shù)貙ξ覀兊臎Q定給出詳細(xì)的解釋,機(jī)器目前是完全無法做到這一點(diǎn)的,讓我們很難理解他們?yōu)槭裁磿高@樣的錯誤。所以所有這些常識的核心組成部分將成為人工智能3.0系統(tǒng)打造的重點(diǎn),這些都是為了實(shí)現(xiàn)我們想要的人工智能必須克服的挑戰(zhàn)。如果你有興趣想要了解更多內(nèi)容,可以看我的書《AI 3.0》,我在書中詳細(xì)地討論了很多這方面的問題。
感謝各位的聆聽!