時(shí)間:2021-10-09
2021世界機(jī)器人大會(huì)第一天線下主論壇——“領(lǐng)航峰會(huì)”群星璀璨,產(chǎn)、學(xué)、研各領(lǐng)域大咖齊聚首,共話巔峰,為機(jī)器人未來(lái)發(fā)展領(lǐng)航。
峰會(huì)現(xiàn)場(chǎng),中國(guó)科學(xué)院院士、清華大學(xué)人工智能研究院院長(zhǎng)張鈸上臺(tái)發(fā)言,演講主題為《人工智能與機(jī)器人》。以下為張鈸院長(zhǎng)演講內(nèi)容全文整理。
大家好,我主要是搞人工智能的,二十多年前也搞過機(jī)器人,所以今天是從人工智能的角度談機(jī)器人的問題,主要包括幾個(gè)方面:機(jī)器人和人工智能的關(guān)系,也就是機(jī)器人應(yīng)該如何定位,如何擴(kuò)大機(jī)器人的應(yīng)用場(chǎng)景,現(xiàn)在機(jī)器人要發(fā)展和產(chǎn)業(yè)化,最關(guān)鍵的問題就是如何擴(kuò)大應(yīng)用場(chǎng)景,最后就是如何從結(jié)構(gòu)化環(huán)境走向非結(jié)構(gòu)化環(huán)境,人工智能會(huì)在其中起到什么作用。
可能大家對(duì)人工智能都比較感興趣,但大多數(shù)人對(duì)人工智能有很多誤解。人工智能究竟是干什么的?很多人都以為人工智能是用來(lái)模擬人類的智能,這個(gè)理解是錯(cuò)的,因?yàn)槲覀儗?duì)什么叫做人類的智能是說(shuō)不清楚的,我們連智能都定義都不清楚,怎么可能利用智能定義人工智能?所以人工智能不是用機(jī)器模擬人類的智能,而是用機(jī)器來(lái)模擬人類的智能行為。
大家注意這里多了兩個(gè)字,模擬智能和模擬智能行為是完全不同的。舉個(gè)例子,我們沒法模擬人類的情感,因?yàn)槲覀儾恢涝趺炊x,什么叫做快樂、什么叫做痛苦,快樂和痛苦在人類大腦和心理發(fā)生什么變化,到今天為止我們還不是很清楚,在這種情況下,我們不可能用機(jī)器模擬人類的痛苦和快樂,那我們用機(jī)器模擬人類的感情,模擬什么呢?模擬感情的表現(xiàn),痛苦和高興地表現(xiàn)自己的行為。大家知道情感主要是從三個(gè)方面表現(xiàn):臉部表情,你高興得眉開眼笑,還有語(yǔ)言和聲音,高興得哈哈大笑,肢體動(dòng)作,高興得手舞足蹈。
我們從人類的面部表情、語(yǔ)言、發(fā)表的言論和動(dòng)作判定你對(duì)這個(gè)事情的態(tài)度,這是情感分析,究竟是贊成還是反對(duì),所以應(yīng)該說(shuō)人工智能是用機(jī)器模擬人類的以下四個(gè)方面的智能行為,理性行為包括感知和動(dòng)作,此外還有情感和靈感等等。人工智能就是要模擬人類的這樣四個(gè)智能行為,那么大家肯定知道機(jī)器人和這個(gè)很相似。我們要做出一個(gè)機(jī)器,它的表現(xiàn)跟人相似,至于機(jī)器腦子里是不是這么想的,這不是人工智能現(xiàn)在要回答的問題,而是由心理學(xué)家和腦科學(xué)家逐步回答的問題。
但在這里有一個(gè)區(qū)別,機(jī)器人做的是機(jī)器,人工智能做的是智能體,就是用Agent來(lái)描述它,而不是智能機(jī)器,為什么?因?yàn)槿斯ぶ悄懿还庖鰴C(jī)器,還要做軟件、做器件,包括智能芯片,所以用智能體概括人工智能不僅要做硬件、做機(jī)器,還要做軟件、做系統(tǒng)、做元器件,這一點(diǎn)是和機(jī)器人有所區(qū)別的。
應(yīng)該怎么定義機(jī)器人?我專門找了網(wǎng)上的定義,這里有非常不同的層次,最低的層次就是看成一個(gè)數(shù)字化設(shè)備,操作手可以通過程序控制,這是最低的層次,最高的層次幾乎跟人工智能一樣定義,具有認(rèn)知、感知和情感的機(jī)器。實(shí)際上對(duì)機(jī)器人的理解寬度很大,最底層就是可編程的機(jī)器,最高層就是有各種各樣的智能的機(jī)器,我們?cè)诂F(xiàn)階段應(yīng)該怎樣看待機(jī)器人?我的看法是對(duì)機(jī)器人的認(rèn)識(shí)是逐步的,也有一個(gè)發(fā)展的過程,大多數(shù)人認(rèn)為機(jī)器人應(yīng)該這樣定義,包括三大部分:感覺或者感知,可能通常做不到感知,只能做到感覺,后面就是操作器、消音器等等,中間的部分目前主要還是集中在控制、編程這些領(lǐng)域,智能的成分要逐步增加。
之前參加前幾屆的時(shí)候提出的是智能機(jī)器人,所以我們?cè)O(shè)計(jì)了五個(gè)部分:機(jī)構(gòu)、控制、傳感器、視覺和人工智能,我是負(fù)責(zé)人工智能的,那個(gè)時(shí)候最主要的任務(wù)是在機(jī)構(gòu)和控制,雖然我負(fù)責(zé)人工智能,但我?guī)缀鯖]法布置人工智能項(xiàng)目,當(dāng)時(shí)我布置的人工智能項(xiàng)目主要是兩個(gè)內(nèi)容:機(jī)器人的運(yùn)動(dòng)規(guī)劃和任務(wù)規(guī)劃,所以當(dāng)時(shí)只是一個(gè)參與研究,根本入不了機(jī)器人主題的主要部分,但前年我到以色列碰到以色列的教授辦的一個(gè)公司,專門做機(jī)器人的任意規(guī)劃和運(yùn)動(dòng),所以我們可以認(rèn)識(shí)人工智能是不斷地、逐漸地深入到機(jī)器人,不是一步到位的。
人工智能怎么介入機(jī)器人的發(fā)展過程?機(jī)器人和人工智能有很多重疊的地方,但我覺得機(jī)器人更要面向任務(wù)、面向應(yīng)用。我們來(lái)看機(jī)器人和人的整個(gè)發(fā)展過程,可以看到中間有沒有交集,現(xiàn)代機(jī)器人的發(fā)展差不多也是上個(gè)世紀(jì)五十年代,跟人工智能差不多的時(shí)候,人工智能是1956年,機(jī)器人大致也是這樣,但我們可以看一看兩個(gè)發(fā)展的進(jìn)程非常不一樣。機(jī)器人基本上是平穩(wěn)發(fā)展,起伏不大,人工智能是起伏極大,一會(huì)兒高興一會(huì)兒低潮,那么人工智能在機(jī)器人今后的發(fā)展中會(huì)起到什么作用?
最初開始機(jī)器人是在美國(guó)實(shí)驗(yàn)室做的,六十年代主要是這兩個(gè)體系:比如斯坦福的機(jī)器人機(jī)械臂,工業(yè)機(jī)器人還沒有出來(lái),就是叫做Manipulator操作手,另外就是這樣一個(gè)車,差不多六十年代的時(shí)候就是這兩個(gè)實(shí)驗(yàn),這是現(xiàn)代機(jī)器人的兩個(gè)雛形,一個(gè)就是機(jī)械臂的發(fā)展,一個(gè)就是移動(dòng)機(jī)器人的發(fā)展。
機(jī)器人產(chǎn)業(yè)派出了兩個(gè)分支:一個(gè)是以多關(guān)節(jié)機(jī)械手為代表,最早用于制造業(yè),后來(lái)就是千方百計(jì)地希望用到其它領(lǐng)域,有的是建筑用的,有的是電線用的,就是機(jī)器人巡檢和建筑,大家應(yīng)該認(rèn)識(shí)到,那個(gè)時(shí)候叫做特種機(jī)器人,這是一條發(fā)展的路徑,大家可以看出走得還是很艱難的,不是機(jī)械臂那樣一下子形成大市場(chǎng),那么問題在哪里?
首先是安全性,我們?nèi)绻饕性诳刂频脑?,比如醫(yī)療機(jī)器人、手術(shù)機(jī)器人,也是類似機(jī)械臂那樣,但對(duì)安全性的要求有多高?國(guó)內(nèi)也有很多大型醫(yī)院購(gòu)買達(dá)芬奇機(jī)器人,最早的時(shí)候是1000萬(wàn)美金,現(xiàn)在變成1000-2000萬(wàn)人民幣,已經(jīng)做了兩三百萬(wàn)次手術(shù),因?yàn)闄C(jī)器人故障死了80個(gè)人,今后還會(huì)死人的,主要就是因?yàn)榭刂瞥雒?,或者漏電或者控制系統(tǒng)有問題,我們要將機(jī)器人變成產(chǎn)業(yè),而且還要求既廉價(jià)又可靠,這對(duì)產(chǎn)業(yè)來(lái)講是最大的困難,要是高質(zhì)量廉價(jià)我們會(huì)干,但又廉價(jià)又可靠很難,需要大家下功夫。故障的主要原因還是機(jī)構(gòu)和控制,這跟人工智能沒關(guān)系。
剛才講到可靠性,另外就是應(yīng)用場(chǎng)景,我們要為機(jī)器人選擇一個(gè)好的應(yīng)用場(chǎng)景不是很容易的,最近做的機(jī)器人主要就是教育、小型裝備這些領(lǐng)域,基本上可以做到年產(chǎn)量1萬(wàn)臺(tái),這在中國(guó)還算是不小的了,而且大部分是出口,其實(shí)是改變了應(yīng)用場(chǎng)景,因?yàn)樵瓉?lái)一個(gè)傳統(tǒng)的制造業(yè),特別是大型高精度高速,我們肯定不如國(guó)外,改變應(yīng)用場(chǎng)景以后完全可以自主生產(chǎn),所以這也是一個(gè)非常好的例子,國(guó)家也很重視,目前出口還是占了很大比例,所以我們要做傳統(tǒng)機(jī)器人,擴(kuò)大應(yīng)用場(chǎng)景,這本身就是一個(gè)非常大的創(chuàng)新。
現(xiàn)代工業(yè)機(jī)器人是美國(guó)人發(fā)明的,日本人買去專利,把它發(fā)展成為產(chǎn)業(yè),這是非常了不起的,特別是和汽車制造業(yè)結(jié)合起來(lái),才能使得機(jī)械臂變成一個(gè)產(chǎn)業(yè),美國(guó)人沒有把它變成產(chǎn)業(yè)。
另外一條路就和移動(dòng)機(jī)器人類似,現(xiàn)在用的比較多的就是倉(cāng)庫(kù)里面,包括無(wú)人機(jī)、水下機(jī)器人,為什么機(jī)器人在這些領(lǐng)域得到應(yīng)用,其它領(lǐng)域卻比較困難?就是我們下面要講的最重要的問題,如何突破從結(jié)構(gòu)化到非結(jié)構(gòu)化的環(huán)境?這就需要人工智能,下面我用幾個(gè)例子說(shuō)明。
機(jī)械臂最早的PUMA就是多關(guān)節(jié),之后變成工業(yè)機(jī)器人,七十年代到八十年代就是這些,現(xiàn)在要把它推廣到一個(gè)相對(duì)非結(jié)構(gòu)化的環(huán)境,所謂機(jī)械臂的非結(jié)構(gòu)化環(huán)境就是有人參與,最近提出了協(xié)作機(jī)器人這個(gè)概念,意思就是過去機(jī)器人肯定可以分開,大的機(jī)械臂在那里必須用鐵柵欄圍起來(lái),否則不安全,現(xiàn)在能夠和人交互,環(huán)境就已經(jīng)變成非結(jié)構(gòu)化了。
要想解決非結(jié)構(gòu)化環(huán)境的問題,必須把感知和動(dòng)作結(jié)合起來(lái),你們要做的動(dòng)作是把感知和動(dòng)作連接起來(lái),因?yàn)楦銠C(jī)器人的人對(duì)反饋的概念非常清楚,因?yàn)檫@里必須要用反饋,但人工智能缺少反饋的概念,所有搞計(jì)算機(jī)的人都缺少這個(gè)概念,因?yàn)檠芯康臇|西都是開放的算法,所以我覺得可以是人工智能和機(jī)器人結(jié)合是非常重要的點(diǎn),而且你們可以做好。
協(xié)作機(jī)器人原來(lái)是美國(guó)Brook教授做的,可以柔順控制,不會(huì)碰到周圍的事物,如果碰到的話?cǎi)R上速度就會(huì)降下來(lái),但始終形不成產(chǎn)業(yè)。最近我們國(guó)家把這項(xiàng)專利買下來(lái)了,就是我們有沒有可能把它發(fā)展成為一個(gè)產(chǎn)業(yè),因?yàn)榭梢杂迷诜墙Y(jié)構(gòu)化的環(huán)境下,所以對(duì)我們來(lái)講這也是一個(gè)考驗(yàn)。我國(guó)有沒有可能干成這件事?我覺得有可能,因?yàn)橛泻艽蟮男枨?,只有在有需求的情況下才能找到應(yīng)用場(chǎng)景。
過去我們也做過不少移動(dòng)機(jī)器人,基本上從美國(guó)開始,中國(guó)早期也是集中在搞越野的,慢慢地越野的任務(wù)就轉(zhuǎn)向軍方和自動(dòng)駕駛車輛,目前來(lái)講全世界都非常重視,就是走向自動(dòng)駕駛是必然的道路,大家可能也知道這一點(diǎn)。
自動(dòng)駕駛最重要的就是感知部分,也就是說(shuō)汽車必須可以感知周圍的環(huán)境,這里涉及的問題就比較多了,傳感技術(shù)的問題,這些當(dāng)然還是屬于機(jī)械手,移動(dòng)機(jī)器人主要是視覺傳感器,包括多模態(tài),我們用攝像機(jī)或者其它標(biāo)志感知周圍環(huán)境,這在人工智能看來(lái)就是深度學(xué)習(xí),我們現(xiàn)在就要說(shuō)這個(gè)技術(shù)可不可靠。我們用攝像機(jī)識(shí)別周圍的行人車輛,人工智能基本上可以做到這些,無(wú)論是圖像、語(yǔ)音還是文本都是用所謂的深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)。
大家都知道深度學(xué)習(xí)采用模式識(shí)別、人臉識(shí)別、圖像識(shí)別,原來(lái)誤識(shí)別率是50%,現(xiàn)在深度學(xué)習(xí)一下子降到3.57%,但我可以告訴大家,這個(gè)算法是非常有問題的,存在事故,不安全、不可靠、不可信、不宜推廣,這是信息時(shí)代我們沒有遇到過的問題,往往是設(shè)計(jì)大型軟件時(shí)的漏洞造成的,我在很多場(chǎng)合下都說(shuō)無(wú)人駕駛一定要非常慎重,可能在倉(cāng)庫(kù)人少的地方可以,但人流復(fù)雜的情況下要非常慎重。
圖中的廣告是噪聲,把這種廣告放在車的后艙,廣告只是噪聲不同,人看起來(lái)是一樣的,但上面的那個(gè)車計(jì)算機(jī)識(shí)別系統(tǒng)可以看到,以下的車計(jì)算機(jī)看不見,或者完全看錯(cuò)了,這是計(jì)算機(jī)視覺的脆弱性,也可以說(shuō)是計(jì)算機(jī)視覺算法的不安全性。
如果這種不安全性不消除,大家想一想會(huì)出多大的事故?為什么人工智能會(huì)出現(xiàn)這種波動(dòng)?就是由于產(chǎn)生方法以后,這種方法本身往往帶來(lái)另外的問題。
人工智能現(xiàn)有的方法只能處理結(jié)構(gòu)化環(huán)境下的問題,非結(jié)構(gòu)化環(huán)境下的問題,人工智能有待提高,所以我們提出第三代人工智能就是要解決非結(jié)構(gòu)環(huán)境下的感知問題。怎么解決這些問題?過去我們做人工智能的時(shí)候主要是靠知識(shí)、算法和算力,進(jìn)入數(shù)據(jù)驅(qū)動(dòng)時(shí)代以后主要靠的是數(shù)據(jù)、算法和算力,光是指定數(shù)據(jù)、算法和算力做出來(lái)的系統(tǒng)肯定是不安全的,怎么解決安全問題?我們的辦法就是充分地利用知識(shí)和數(shù)據(jù)、算法和算力。
大家可以看到自動(dòng)駕駛從L3、L4走到L5,我們必須要解決計(jì)算機(jī)視覺不安全性的問題,現(xiàn)在世界各國(guó)都在這樣做,因?yàn)樽詣?dòng)駕駛肯定要做未來(lái)汽車四個(gè)輪子上的超級(jí)計(jì)算機(jī),換句話說(shuō)就是用很少的錢買它的車,用大量的錢買上面的計(jì)算機(jī)設(shè)備,傳感器、攝像頭和激光掃描儀,所以很多公司都在做這些,包括特斯拉、Google和通用汽車。
我們現(xiàn)在是用大數(shù)據(jù)的方法對(duì)圖像進(jìn)行分割和識(shí)別,然后建模規(guī)劃,現(xiàn)在完全可以做到實(shí)時(shí),比如地平線上做的芯片是把算法做到芯片里面,識(shí)別和劃分都沒有問題,這樣的話車還能不能開?我們說(shuō)不能開,主要是兩個(gè)原因:視覺是不可靠的,有的東西是看不清楚的,最大的問題就是如果這個(gè)系統(tǒng)有人的話就會(huì)變成非常復(fù)雜的系統(tǒng),大家知道交通的人有兩種:一種是駕駛員,一種是行人,這兩種人都在有意無(wú)意地破壞交通規(guī)則,不光是中國(guó)人會(huì)破壞交通規(guī)則,外國(guó)人一樣會(huì)破壞交通規(guī)則,大家開車的時(shí)候有沒有違反過交通規(guī)則?我自己就違反過,慢速的情況下兩個(gè)車的車距應(yīng)該是多少?15米,你在北京試試看,兩個(gè)車距離15米,你這個(gè)車還能開得動(dòng)嗎?假設(shè)稍微有點(diǎn)空就被加塞,根本沒有辦法往前開,所以必須考慮實(shí)際,在這種情況下不可能所有人都按照規(guī)則來(lái)走,而且還會(huì)出現(xiàn)更多更復(fù)雜的情況,這種情況計(jì)算機(jī)就沒法處理。
怎么解決這些問題?實(shí)際上非常簡(jiǎn)單,人工智能里面有與環(huán)境交互的學(xué)習(xí),現(xiàn)在的做法是所有車都在那里做實(shí)驗(yàn),大家經(jīng)常說(shuō)美國(guó)人已經(jīng)給自動(dòng)駕駛發(fā)執(zhí)照了,可以上路去開了,其實(shí)這是錯(cuò)誤的,只是可以上路去試,美國(guó)人是在什么地方試?是在恭凡城的郊區(qū),中國(guó)是在開發(fā)區(qū),所以大家不要以為這個(gè)問題已經(jīng)完全解決了,那么請(qǐng)大家注意,如果我們開幾十萬(wàn)邁就會(huì)積累大量的經(jīng)驗(yàn),就會(huì)暴露很多計(jì)算機(jī)看不到的錯(cuò)誤的地方,加上知識(shí)和經(jīng)驗(yàn)完全自動(dòng)駕駛是可以做到的。
我想給大家傳達(dá)的就是這條信息,機(jī)器人往前發(fā)展的時(shí)候,人工智能會(huì)在某個(gè)地方和你有交集,我們可以和人工智能共同合作研究做到這一點(diǎn)。