時間:2021-09-23
2021世界機器人大會第一天線下主論壇——“領航峰會”群星璀璨,產(chǎn)、學、研各領域大咖齊聚首,共話巔峰,為機器人未來發(fā)展領航。
峰會現(xiàn)場,2017年圖靈獎獲得者、現(xiàn)任谷歌Alphabet公司董事會主席John Hennessy通過視頻形式進行演講,演講主題為《智能機器人感知與控制技術應用及發(fā)展趨勢》。以下為John Hennessy演講內(nèi)容全文整理。
大家好,我是John Hennessy。是斯坦福大學電氣工程和計算機科學系教授,是斯坦福大學電氣工程和計算機科學系教授,也是2017年圖靈獎得主。今天,我很高興能夠通過視頻連線方式和各位一起參加世界機器人大會。今天,我想講的是利用機器學習與機器人技術改善人類生活,提高人類生活質(zhì)量,幫助人類,讓人類過上更加美好的生活。
大家想一想我們在世界各地面臨的一些挑戰(zhàn),中美兩國都面臨著人口迅速老齡化的問題。我們怎樣才能造出智能機器人,來為老年人排憂解難,幫助他們完成一些力不從心的事情,支持他們、鼓勵他們。以感同身受的方式與他們進行情感交流?或者我們說說自動駕駛問題,每年有100多萬人死于車禍。我相信,如果有了自動駕駛汽車,我們可以把這個數(shù)字降低90%,挽救無數(shù)人的生命并減少費用開支或者想想醫(yī)學診斷領域存在的挑戰(zhàn)。盡管我們現(xiàn)在有很多非常尖端的診斷工具,但醫(yī)學診斷仍是一個巨大的難題。很多時候,醫(yī)生還是會誤診 或者無法及時得到準確診斷結(jié)果。
如果我們能夠利用機器學習和機器智能改進診斷質(zhì)量,我們就可以挽救生命并降低醫(yī)療系統(tǒng)成本?;蛘呦胂搿躲y河系漫游指南》里提到的巴別魚,巴別魚是個很小的設備,把它放在耳朵里就能聽懂全宇宙所有語言,巴別魚就像巴別塔一樣。當然,有了巴別魚我們就可以和世界各地的人互動,不需要翻譯就能對話?;蛘呖梢杂^看世界各地的視頻、電影、網(wǎng)頁內(nèi)容,我們可以通過技術解決很多問題從而改善人類生活質(zhì)量。
當然,大部分技術都是由機器學習驅(qū)動的。事實上,是大數(shù)據(jù)使機器學習成為可能機器學習基于我們所說的人工神經(jīng)網(wǎng)絡,人工神經(jīng)網(wǎng)絡不是人腦的準確表現(xiàn)形式也不是人類神經(jīng)元如何工作和連接的準確表現(xiàn)形式,而是這些東西的人工數(shù)字化表現(xiàn)形式。關鍵結(jié)構設置在輸入層,輸入的信號可能是語音或者文本,也可能是我們想要看的圖像。中間有一層代表著不同神經(jīng)元,然后是輸出層。輸出層會對我們看到的內(nèi)容進行分類,輸出我們想要的結(jié)果。
神經(jīng)元由一系列帶有權重的弧線連接起來,權重告訴我們在進入下一層時,應當把多大比例的上一層輸入量計算在內(nèi)各層結(jié)果相加,然后將結(jié)果傳給下一層,關鍵在于如何設置權重。
設置權重需要使用大量準確數(shù)據(jù)進行訓練,這就是我們所說的監(jiān)督學習,也是最常見的機器學習形式。
但是,訓練神經(jīng)網(wǎng)絡用于圖像識別等任務需要大量計算。例如,我們用了許多貓的圖片,先把圖片放到輸入層,然后把輸出層標記為貓?,F(xiàn)在我們使用一種叫做反向傳播的技術,確定如何設置權重。所以當我們把貓的圖片放在輸入神經(jīng)元上,我們看到輸出結(jié)果是貓不是狗、魚或者大象,而是貓。我們必須使用很多很多貓的圖片,才能恰當?shù)卦O置權重,使這個神經(jīng)網(wǎng)絡具有靈活性及通用性。
上述計算過程量非常龐大,而且由于需要許多圖片才能完成,完成計算過程也需要較長時間。一旦我們訓練好了神經(jīng)網(wǎng)絡,并設置好了權重就可以開展推理。推理是一種反演問題,我們采用一張從未見過的圖片。這張圖片不在訓練集范圍內(nèi),我們把它放在輸入層確保識別出來的結(jié)果是貓。如果恰當?shù)赜柧毼覀兊木W(wǎng)絡,我們得到的結(jié)果就是貓 而不是狗、大象或者長頸鹿。
但是請記住,下面這一點非常重要,結(jié)果好壞只取決于訓練集質(zhì)量。假如我們漏掉了某些具有獨特特征的貓品種,然后我們把其中一只貓的圖片展示給這個神經(jīng)網(wǎng)絡,那么得到正確答案的幾率就會很低。我們也許可以得到正確答案,也許得不到。
所以,關鍵在于要用大量數(shù)據(jù)集進行訓練,這些神經(jīng)網(wǎng)絡的規(guī)模非常龐大。想想看,高達幾十萬、幾百萬個節(jié)點以及幾百萬個權重,真的是規(guī)模龐大。
最新的GPT-3以及類似神經(jīng)網(wǎng)絡系統(tǒng)擁有數(shù)十億個權重,具體是什么情況,是什么推動了人工智能?特別是深度學習技術的興起,深度學習技術確實是多年努力之后,人工智能領域出現(xiàn)的突破性技術,這一突破性技術為什么會出現(xiàn)在當下?
神經(jīng)網(wǎng)絡并非新概念,深度學習技術也不是什么新技術。這些概念實際上幾十年前就已經(jīng)出現(xiàn)了,不過發(fā)生了兩件絕對非常重要的事情。
第一件事是可用于訓練的,優(yōu)質(zhì)數(shù)據(jù)大量增加。例如,由我的斯坦福大學同事李飛飛研究的ImageNet,里面有8萬余個對象。每個對象有500多張圖片,而且數(shù)字還在不斷增加。我們有很多狗、貓、卡車、魚、汽車、飛機的圖片,你想要的都在里面,互聯(lián)網(wǎng)使數(shù)據(jù)得以整合這非常重要,其中大部分數(shù)據(jù)也是通過眾包方式獲取的。
第二,我們投入用于解決相關問題的計算資源數(shù)量大幅增加,這也得益于新的計算技術,包括GPU和TPU以及位于云端的大型數(shù)據(jù)中心。我們可以采用這些技術大幅增加計算資源數(shù)量,訓練需要很長時間,經(jīng)常要用到成千上萬個專用處理器。因此,獲得計算資源是關鍵所在。
在這兩件事中我們可以看到,可用數(shù)據(jù)量或可用計算資源量都在增加,可能是我們以前所用數(shù)據(jù)量或計算資源量的一千倍。不過,訓練涉及極為密集的計算理解這一點至關重要。如果大家想想各種事情所需的培訓,你就會發(fā)現(xiàn)培訓需求增長得非常快,實際上它比摩爾定律增長得還要快。因此,要滿足這些培訓需求,就需要在GPU、TPU和其他加速器的制造方式上進行大量創(chuàng)新,以便訓練自然語言系統(tǒng)。我們還得擴大規(guī)模、采用新技術。我們無法通過使用通用處理器提供所需的巨大計算能力,大家可以看一下。
從六、七年前的早期推理問題到訓練Alpha Zero之間計算量的增加情況,Alpha Zero是DeepMind研發(fā)的學習下棋的程序,它只知道圍棋規(guī)則。Alpha Zero起初并未植入任何策略,它學習了與圍棋相關的一切知識,它通過與自己對弈100多萬盤圍棋來學習。我們稍后會介紹這種名為強化學習的技術,這一點很重要。
AlphaGo通過與自己對弈100多萬次學習下棋,為了做到這一點,我們需要的計算能力大約是早期用于推理,識別一張圖像計算能力的1億倍,甚至與七八年前的早期訓練例子相比,我們現(xiàn)在使用的計算能力已經(jīng)是當時的一百萬倍。所以大量計算能力至關重要,訓練才是真正的關鍵問題。顯然,訓練通常是在云端進行,而推理則通常在手機端、攝像頭端、或者是在其他設備端完成,也就是在網(wǎng)絡邊緣完成推理。推理、訓練、推理可以在網(wǎng)絡邊緣完成。
但在可預見的未來,訓練必須在大型數(shù)據(jù)中心完成。我覺得真正令人驚訝的是在過去五到七年里,我們確實實現(xiàn)了人工智能系統(tǒng)的突破。對于特定任務,人工智能系統(tǒng)表現(xiàn)與人類表現(xiàn)不分上下。以圖像識別問題為例。
這是自動駕駛汽車涉及的一個關鍵問題,這些圖像識別系統(tǒng)使用卷積神經(jīng)網(wǎng)絡可以像人類一樣,又好又快地識別圖像。如果經(jīng)過良好訓練,這些系統(tǒng)可以處理實時事務。比如駕駛汽車或以某種方式在城市中移動,這是圖像識別領域的重大突破。
這些系統(tǒng)識別圖像的準確性,已經(jīng)完全超越了早期方法?;蛘咭晕夜雀韬退固垢M潞献鞯囊粋€案例為例,他們通過分析皮膚病變圖像,確定病變是惡性還是良性。起初他們用教科書上的圖像訓練這些系統(tǒng),皮膚科醫(yī)生在準備做這種診斷工作時也會用相同圖像開展訓練。經(jīng)過這樣的訓練之后,人工智能系統(tǒng)就能夠分析它從未見過的圖像,并能準確預測與之匹配的圖像,準確度媲美皮膚協(xié)會認證的皮膚專科醫(yī)生。
所以我們在這方面就達到了人類的水平,我們再以巴別魚為例,在兩種不同語言之間進行翻譯。這是計算機科學領域中一個長期存在的問題。在這張圖中,大家可以看到最近幾年發(fā)生了什么,我們最初使用所謂基于短語的方法達到了一定的翻譯水平。如果應用人工智能和深度學習技術,我們就能達到綠色部分。這說明翻譯準確度非常接近人類水平。最新系統(tǒng) 比如谷歌GPT-3和Bert的翻譯準確度,基本上能夠媲美人類雙語譯員翻譯準確度。有些語言翻譯起來比較困難,比如從中文翻譯為英文要比從拉丁語系語言翻譯為英文更難。不過我們已經(jīng)非常接近能夠?qū)崿F(xiàn)準確的中英互譯了,這對人類來說是一個難題。
機器人汽車是很有意思的例子,因為這個問題融合了我們對機器人技術的了解。因為,畢竟自動駕駛汽車實際上就是機器人,與我們對機器學習應用的融合。說到這里,我想給大家看看斯坦福大學研發(fā)的Stanley,它贏得了DARPA挑戰(zhàn)賽。在沙漠、泥路等極為復雜的地形上行駛了202公里贏得了挑戰(zhàn)賽。此前,從來沒有車輛能在這項挑戰(zhàn)賽中行駛超過10英里。Stanley以足夠快的速度完成挑戰(zhàn),贏得了這項比賽。
機器學習是整合這個系統(tǒng)的關鍵因素。我的同事塞巴斯蒂安·特龍在領導斯坦福大學賽車隊做這個項目的時候,意識到一個非常關鍵的問題,那就是如何在存在不確定性的情況下設定安全速度。Stanley使用雷達與攝像頭組合導航,關鍵問題是如果你不確定自己看到的是什么,應該如何設定速度?特別是在看攝像頭拍攝的圖像時,你可能無法準確判斷你看到的是什么,雷達可以給你提供更準確的信息。比如說三維圖像,但是在行駛路程和視野方面還有其他挑戰(zhàn)。
塞巴斯蒂安做了一件非常聰明的事,他利用基于人類觀察的機器學習判斷,在穿越沙漠時,如果前方情況不明應該如何設定安全速度,機器學習已經(jīng)成為影響自動駕駛汽車的絕對關鍵因素。
Waymo公司和世界其他公司正在進行的所有相關新工作,都是由機器學習領域的這種突破推動的。首先,我們通過卷積神經(jīng)網(wǎng)絡進行圖像識別,識別我們看到的東西。我們看到一輛自行車、看到另一輛車、一輛巴士,看到它停下來。我們看到一個信號傳感器融合,如何才能將從各種傳感器獲得的信息整合到一起?
比方說,短距離傳感器,例如雷達與長距離傳感器。比如攝像頭,如果把這些信息整合在一起就可以準確傳達看到的事物。如何應對不確定情況呢?
例如,你不知道在路上看到的是什么,或者有些司機出乎意料的舉動,如何應對不良的駕駛條件呢?在雪天或雨天如何設置自動駕駛車輛速度?
我們試圖通過算法、編程方法來解決這些問題,機器學習能以更靈活的方式解決這些問題。當然在其他情況下,機器學習對機器人技術而言也是至關重要的。機器人技術的一個真正難題是,機器人編程極其困難,制造機器人已經(jīng)夠難了。但是機器人編程更難,即使是微小的調(diào)整也很難處理,想想在帶有螺紋的瓶子上擰蓋子的問題,你可能會擰錯方向,螺紋可能會錯位,我們是如何學會擰瓶蓋的?
我們通過實踐學習,通過強化學習,我們知道最終目標是什么。當我們弄清楚的時候,我們知道需要微調(diào)瓶蓋,或者假如我們感覺到螺紋沒有對齊重新擰即可。我們需要教機器人更多才多藝,當機器人執(zhí)行裝配任務時,如果螺栓沒有對準螺孔,如何移動螺栓使之與螺孔對準?如何將螺紋排成一排?
這些依靠強化學習的方法,其有趣之處在于它們與兒童學習方式相仿,這真的非常了不起。他們用了一種類似于兒童學習的方法,這就是為什么在使用機器學習這一技術的過程中強化學習絕對是至關重要的。想想我們可以做些什么,我們可以教機器人幫助老年人,幫他們做一些力不從心的事情。而且還可以給予人們情感支持,幫助人們走出困境,用更加人性化的方式與他們互動,這一定會很棒。
當然,人工智能的遠大夢想就是,我們所說的人工通用智能。人工通用智能不僅僅局限于很好地解決一個問題,大家注意到我之前談了很多關于識別的問題。關于理解你看到的或者聽到的、讀到的東西,人工通用智能的任務是建立一個人工智能系統(tǒng),這個系統(tǒng)非常靈活 ,可以像人類一樣完成很多任務,做到這一點的一個關鍵是能夠歸納并從事物中學習。人工智能系統(tǒng)尚未具備這種能力。
想想我們對貓的圖像識別,這個系統(tǒng)其實不明白,為什么貓狗看起來不一樣。但是5歲的孩子都能理解貓狗之間的差別,貓耳朵尖尖的,貓尾巴往往比狗尾巴更卷曲,貓的毛比狗多,我們的系統(tǒng)只能識別很多事情之間的統(tǒng)計關系。一旦它被告知什么是貓,然后就能判斷其他事物是不是貓。我們真正需要的是學習如何歸納,需要可解釋性,可解釋性問題至關重要。當我們處理諸如醫(yī)療診斷之類的事情時,可解釋性問題將變得至關重要。我需要這個系統(tǒng)不僅要告訴我,為什么它認為我得了重病,還要告訴我應該怎么辦,我們需要更加人性化的互動。
這些深度學習系統(tǒng),以簡單粗糙的方式模擬了人類的真實思考方式。人工智能系統(tǒng)什么時候才能與人類競爭?
我同事最樂觀的估計是最快需要十年,其他人認為需要二十年、三十年,甚至四十年。事實上,有一小部分人認為,人工智能系統(tǒng)永遠無法與人類競爭。確實,為了與人類競爭,我們需要采用更加自然的學習機制。想想嬰兒,嬰兒剛出生的時候什么都不知道,他們不認識自己的父母,他們什么都得學,他們什么都看不見,他們不識字也不會走路。他們學會的第一件事就是哭泣可以引起他人注意,從而讓別人喂他們食物或給他們換尿布。
他們通過我們所說的強化學習進行學習,他們通過嘗試進行學習,然后他們會得到正強化或負強化。他們會朝著另一個方向前進,這就是關鍵所在。
事實,DeepMind負責人最近發(fā)表了一篇論文,聲稱他們可以通過將強化學習用作關鍵工具,以實現(xiàn)人工通用智能。但在這個領域還有其他挑戰(zhàn),在能源效率方面就存在著巨大差距。人類大腦非同尋常,人類大腦只需消耗大約20瓦能量,就可以很好地完成所有推理和艱巨任務。而我們用于訓練的一個大型數(shù)據(jù)中心,一個大型神經(jīng)網(wǎng)絡 ,一個大型深度學習系統(tǒng),消耗的能量是人類大腦消耗能量的1000倍,不過兩者在學習速度上也有差別。
例如,一位頂尖的人類圍棋棋手,需要多年訓練才能成為圍棋大師。而AlphaZero的100萬局對弈訓練,只需短短幾天時間即可完成,我們還有很多東西需要學習:人腦如何工作、人類如何運轉(zhuǎn)。在弄明白這些問題之后,我們就可以改善我們構建機器學習系統(tǒng),以及機器人的方式,這些技術將有助于提高人類生活質(zhì)量。感謝大家觀看,預祝本次大會圓滿成功。