時(shí)間:2022-09-15
編者按:
2022世界機(jī)器人大會(huì)主論壇群星璀璨,產(chǎn)、學(xué)、研各領(lǐng)域大咖齊聚首,共話巔峰,為機(jī)器人未來(lái)發(fā)展領(lǐng)航。
峰會(huì)現(xiàn)場(chǎng),張建偉發(fā)表了題為《敏捷服務(wù)機(jī)器人的多模態(tài)學(xué)習(xí)》的演講。以下為張建偉演講內(nèi)容的整理。
尊敬的世界機(jī)器人大會(huì)議的各位嘉賓、各位觀眾,大家好!我是來(lái)自德國(guó)漢堡大學(xué)的張建偉。首先祝賀2022年世界機(jī)器人大會(huì)的成功開(kāi)幕!盡管今年新冠疫情仍在持續(xù),困難重重。我今天演講的題目是:敏捷服務(wù)機(jī)器人的多模態(tài)學(xué)習(xí)。在我的演講中,我將首先介紹人工智能時(shí)代的出現(xiàn),以及人工智能物聯(lián)網(wǎng)(AIoT)如何賦能機(jī)器人系統(tǒng)。然后,我將介紹漢堡與北京合作的國(guó)際協(xié)作研究中心,以及我們?cè)跈C(jī)器人應(yīng)用中的實(shí)踐。最后,我將總結(jié)對(duì)未來(lái)機(jī)器人研究的展望。
眾所周知,過(guò)去30年里,計(jì)算能力呈指數(shù)級(jí)增長(zhǎng),而且90%的處理器都是隱藏式的。今天,我們身處大數(shù)據(jù)時(shí)代,可以通過(guò)數(shù)據(jù)集成實(shí)現(xiàn)數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)利用。今天,我們也有了多模態(tài)大數(shù)據(jù)可以實(shí)現(xiàn)用于自主決策的自主數(shù)據(jù)分類。圖靈測(cè)試是一種測(cè)試方法,測(cè)試在針對(duì)某種任務(wù)時(shí)人工智能和機(jī)器人技術(shù)可以如何與最優(yōu)秀的人類相抗衡。我個(gè)人也參加過(guò)有多個(gè)任務(wù)場(chǎng)景的圖靈測(cè)試,例如,基于圖像的深度學(xué)習(xí),機(jī)器人要與真正的人類羽毛球運(yùn)動(dòng)員抗衡還差距甚遠(yuǎn)。但在這個(gè)例子中可以實(shí)現(xiàn)實(shí)時(shí)跟蹤和防止碰撞。如果機(jī)器人與最優(yōu)秀的人類籃球運(yùn)動(dòng)員比賽,它可以在靜態(tài)環(huán)境中打敗一個(gè)人類運(yùn)動(dòng)員。但是,如果我們讓目標(biāo)移動(dòng)機(jī)器人要處理這些運(yùn)動(dòng)狀況以及環(huán)境的不確定性就存在很多困難。今天,我們也可以讓機(jī)器人自主檢測(cè)其他無(wú)人駕駛車輛,并捕獲到另一個(gè)機(jī)器人。然而,多個(gè)機(jī)器人的知覺(jué)和行動(dòng),以及很多限制因素仍需要得到改進(jìn)。
另一個(gè)展示機(jī)器人智能的圖靈測(cè)試是讓機(jī)器人,總結(jié)他的情景記憶,并用人類屬性的語(yǔ)言加以解釋。今天我們可以相當(dāng)真實(shí)的方式模擬這樣的機(jī)器人頭,但機(jī)器人真正的記憶開(kāi)發(fā),仍然需要進(jìn)一步的研究。20年前,我們已經(jīng)開(kāi)發(fā)了生物技術(shù)環(huán)境中的移動(dòng)機(jī)械手系統(tǒng),這個(gè)機(jī)器人配備了很多傳感器,包括激光掃描儀、便攜式相機(jī)、力矩傳感器等,可以操控真實(shí)實(shí)驗(yàn)室環(huán)境中的管狀容器。10年前,我們的機(jī)器人實(shí)驗(yàn)室與一家英國(guó)衛(wèi)生機(jī)構(gòu)合作,展示這只多手指的手可以完成很多視覺(jué)處理任務(wù)。在當(dāng)前應(yīng)對(duì)新冠疫情的背景下,我們已經(jīng)看到了很多機(jī)器人應(yīng)用,包括自主物體運(yùn)輸還有自主受力控制的新冠疫情取樣。最近,我們還開(kāi)發(fā)了一種方法,該方法基于機(jī)器人和動(dòng)畫(huà)技術(shù)中通用全身逆運(yùn)動(dòng)學(xué)的模因進(jìn)化原理。接下來(lái)我們可以看到機(jī)器人如何實(shí)現(xiàn)不同的姿勢(shì),我們?cè)谂c幾家初創(chuàng)公司的合作中應(yīng)用了很多軟件知識(shí),包括思靈機(jī)器人。這種力控和聲控協(xié)作機(jī)器人,可應(yīng)用于衛(wèi)生工程、觸覺(jué)制造業(yè)和零情景的未來(lái)工業(yè)。梅卡曼德機(jī)器人也是一家初創(chuàng)公司,在北京和慕尼黑等地有布局,該公司的主打產(chǎn)品是基于3D點(diǎn)云的智能相機(jī),可在物流和制造場(chǎng)景的應(yīng)用中對(duì)該產(chǎn)品進(jìn)行評(píng)估,然后針對(duì)機(jī)器人運(yùn)動(dòng)進(jìn)行規(guī)劃。
4年來(lái),我們也在組織機(jī)器人比賽,人形智能機(jī)器人的比賽。我們?cè)O(shè)計(jì)了一個(gè)比賽場(chǎng)景,讓機(jī)器人利用在線感知能力,識(shí)別橋梁、礦坑、應(yīng)對(duì)阻力、踢球等等。這些機(jī)器人完成任務(wù)只要幾分鐘。在這里我們也看到了我們漢堡大學(xué)的學(xué)生,參加本次在北京開(kāi)展的比賽和展覽。最近,自主靈巧機(jī)器人也應(yīng)用于農(nóng)業(yè)機(jī)器人技術(shù)。這里展示的是汽車機(jī)器人的幾個(gè)場(chǎng)景,分別在劍橋和上海啟動(dòng),涵蓋了物流、噴灑以及收割機(jī)器人。我們與上海理工大學(xué)合作、開(kāi)發(fā)了一個(gè)可動(dòng)態(tài)步行以及擁有類皮膚觸覺(jué)的人形機(jī)器人。該人形機(jī)器人還會(huì)有一個(gè)機(jī)器人腦袋。我們還應(yīng)用了機(jī)器學(xué)習(xí)和機(jī)器人技術(shù),來(lái)實(shí)現(xiàn)這個(gè)人機(jī)打乒乓球的場(chǎng)景。這個(gè)機(jī)器人因?yàn)樵谝粋€(gè)多小時(shí)的時(shí)間里,與一位人類對(duì)手打了6000多個(gè)回合,而獲得了吉尼斯世界紀(jì)錄。我們還對(duì)這個(gè)機(jī)器人應(yīng)用了強(qiáng)化學(xué)習(xí),能讓機(jī)器人把球打到任何位置。我自己協(xié)調(diào)了一個(gè)歐洲項(xiàng)目,是基于經(jīng)驗(yàn)學(xué)習(xí)的機(jī)器人項(xiàng)目。機(jī)器人可以基于八種類型的知識(shí)進(jìn)行建模,并對(duì)餐廳場(chǎng)景和圖書(shū)館服務(wù)進(jìn)行經(jīng)驗(yàn)學(xué)習(xí)。學(xué)習(xí)結(jié)束后,人類指導(dǎo)它的時(shí)間大大減少了。機(jī)器人也可以對(duì)環(huán)境理解有更精確的建模。
在另一個(gè)歐盟項(xiàng)目,我們實(shí)現(xiàn)了這樣一個(gè)服務(wù)機(jī)器人。它能幫助人類拿取不同物品,并有一個(gè)直觀的界面。在這一年里,我們還開(kāi)發(fā)了用于機(jī)器人和變量的,雙曲面彈性觸覺(jué)傳感器皮膚。這里我們看到一個(gè)人正在進(jìn)行靈巧操控,我們可以了解在現(xiàn)實(shí)中如何檢測(cè)到觸覺(jué)傳感器信息。然而,對(duì)于實(shí)際的應(yīng)用,機(jī)器人仍然需要穩(wěn)健的智能。由于機(jī)器人執(zhí)行仍是脆弱的,從錯(cuò)誤中恢復(fù)是非常重要的。我們看到很多自動(dòng)駕駛的車禍,工業(yè)機(jī)器人事故,網(wǎng)絡(luò)中的干擾還有誤判和錯(cuò)誤的決定。這就是為什么我們需要更多的基礎(chǔ)研究。從2017年開(kāi)始,我們就開(kāi)始了一個(gè)交叉模型學(xué)習(xí)項(xiàng)目,研究多模態(tài)機(jī)器人系統(tǒng)的適應(yīng)性、預(yù)測(cè)性和交互性。該項(xiàng)目是由DFG(德國(guó)科學(xué)基金會(huì))和中國(guó)國(guó)家自然科學(xué)基金委員會(huì)聯(lián)合發(fā)起的。我們的目標(biāo)是 迎接人-信息-物理系統(tǒng)中,不斷變化的信息環(huán)境的挑戰(zhàn)。我們看到了數(shù)據(jù)有許多不同的種類,例如視頻、圖像、文本、聲音、觸覺(jué)、非歐幾里德數(shù)據(jù)、神經(jīng)認(rèn)知系統(tǒng),非常高效和有效地學(xué)習(xí)和集成多模態(tài)信息。人工機(jī)器人系統(tǒng)必須學(xué)會(huì)在動(dòng)態(tài)、不確定和嘈雜的現(xiàn)實(shí)世界條件下處理多模態(tài)信息。除了單模態(tài)深度學(xué)習(xí),還需要新的計(jì)算范式。此外,需要更好地理解作為人類思維和大腦基礎(chǔ)的多感官過(guò)程。
因此,我們的目標(biāo)是建立一個(gè)理論框架來(lái)描述多模態(tài)學(xué)習(xí)的神經(jīng)、認(rèn)知和計(jì)算機(jī)制。我們相信學(xué)習(xí),是應(yīng)對(duì)現(xiàn)實(shí)世界的正確手段,可以適應(yīng)不斷變化的潛在不確定環(huán)境,利用注意力、情感、協(xié)同和冗余,將機(jī)器人的自上而下和自下而上建模相結(jié)合,使用抑制來(lái)選擇多感官數(shù)據(jù),并將新的、學(xué)到的信息來(lái)源與已有的知識(shí)來(lái)源相整合,可以鞏固預(yù)期和預(yù)測(cè)的所學(xué)知識(shí),即內(nèi)部模型。我們可以從認(rèn)知系統(tǒng)學(xué)到很多,如自上而下控制多模態(tài)整合、決策、溝通、行動(dòng)執(zhí)行,尤其是效率和穩(wěn)健性,如何建立人類探索多模態(tài)信息模型來(lái)提高預(yù)測(cè)的穩(wěn)健性和效率。我們認(rèn)為多模態(tài)學(xué)習(xí)是人類理解世界的核心,通過(guò)整合視覺(jué)、聽(tīng)覺(jué)、軀體感覺(jué)和其他方式。人類習(xí)得的大多數(shù)技能是多模態(tài)的,如抓取和操縱對(duì)象、理解語(yǔ)言和參照物、學(xué)會(huì)讀寫(xiě)、確定位置和方向,并且越是高級(jí)的技能,越具有多模態(tài)的性質(zhì),如社會(huì)認(rèn)知、理解他人的意圖、語(yǔ)言和非語(yǔ)言交流。我們是最感興趣的是感覺(jué)模態(tài) 如視覺(jué)、聽(tīng)覺(jué)、軀體感覺(jué),以及人工感覺(jué),作為信息來(lái)源,如過(guò)程傳感器、聲吶、測(cè)距儀、RGBD傳感器、大腦信號(hào)、短信等等。如何隨時(shí)隨地集成不同類型的傳感器,就像人類一樣,對(duì)我們來(lái)說(shuō)這是一個(gè)很有吸引力的研究課題。在我們的中德跨區(qū)域合作研究中心,我們?cè)噲D理解多模態(tài)學(xué)習(xí)的神經(jīng)、認(rèn)知和計(jì)算機(jī)制,并且嘗試?yán)眠@種理解來(lái)改善人為表現(xiàn),并且提高人工系統(tǒng),如機(jī)器人的性能。
—— Jianwei Zhang