時(shí)間:2020-07-03
模仿是最原始的學(xué)習(xí)方法,也是實(shí)現(xiàn)人工智能的基石。
通過(guò)深度學(xué)習(xí)和算法,機(jī)器人也可以通過(guò)看視頻學(xué)會(huì)各種各樣的技能。
先看個(gè)圖:
是不是覺得有點(diǎn)眼熟。
沒錯(cuò),它就是技藝高超,被大家所熟知的達(dá)芬奇機(jī)器人。
這次它又被賦予了新功能:通過(guò)觀看教學(xué)視頻,學(xué)會(huì)外科手術(shù)中的相關(guān)任務(wù)。比如縫合,穿針,以及打結(jié)等動(dòng)作。
讓達(dá)芬奇機(jī)器人變成‘模仿藝人’的關(guān)鍵,是一個(gè)叫做Motion2Vec的半監(jiān)督式學(xué)習(xí)算法,近日由谷歌大腦,英特爾公司和加利福尼亞大學(xué)伯克利分校合作開發(fā)。
起初,加州大學(xué)伯克利分校的教授曾使用YouTube視頻作為機(jī)器人學(xué)習(xí)各種動(dòng)作(例如跳躍或跳舞)的指南。機(jī)器人模仿視頻中的動(dòng)作,成功學(xué)習(xí)了20多種雜技,比如側(cè)空翻、單手翻、后空翻等高難度動(dòng)作。
谷歌此前也有過(guò)相關(guān)研究,例如使用視頻來(lái)教授四足機(jī)器人學(xué)習(xí)狗狗的靈活動(dòng)作。
這些經(jīng)歷促成了他們彼此的合作,他們將這些知識(shí)應(yīng)用于最新項(xiàng)目Motion2Vec中,在這個(gè)過(guò)程中,使用了實(shí)際手術(shù)過(guò)程的視頻進(jìn)行指導(dǎo)和訓(xùn)練。
在最近發(fā)布的論文中,研究人員概述了他們?nèi)绾问褂肶ouTube視頻訓(xùn)練兩臂的達(dá)芬奇機(jī)器人在織布機(jī)上插入針頭并進(jìn)行縫合。
人類在看視頻的時(shí)候可以迅速理解內(nèi)容,但機(jī)器人目前無(wú)法做到這一點(diǎn),它們只是將其視為像素流。因此,要以機(jī)器人的方式讓他們理解并學(xué)習(xí)——弄清并分析這些像素,然后將視頻分割成有意義的序列。
事實(shí)上,Motion2Vec算法的開發(fā)主要基于暹羅網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。
暹羅網(wǎng)絡(luò)(Siamesenetwork)就是“連體的神經(jīng)網(wǎng)絡(luò)”,神經(jīng)網(wǎng)絡(luò)的“連體”是通過(guò)共享權(quán)值來(lái)實(shí)現(xiàn)的。它的主要功能是衡量?jī)蓚€(gè)物體的相似度。比如,看看某兩個(gè)人長(zhǎng)得像不像。
這樣,研究人員就可以將視頻中相同動(dòng)作段的圖像放到一起,并給它們做一個(gè)標(biāo)記,比如‘針頭插入’,或‘瞄準(zhǔn)位置’等,從而對(duì)視頻中的圖像進(jìn)行分割和分類。
然后,研究人員使用遞歸神經(jīng)網(wǎng)絡(luò)來(lái)找到那些沒有被標(biāo)記的圖像,這些圖像會(huì)反饋到暹羅網(wǎng)絡(luò)中以改善動(dòng)作片段的比對(duì)。
對(duì)于縫合任務(wù),研究團(tuán)隊(duì)僅需要78個(gè)教學(xué)醫(yī)學(xué)視頻即可訓(xùn)練其AI引擎執(zhí)行該過(guò)程,成功率為85%。
這似乎意味著機(jī)器人可以在外科手術(shù)中承擔(dān)一些更基本,重復(fù)性的任務(wù),但它們目前還無(wú)法完全代替醫(yī)生來(lái)做手術(shù)。
加州大學(xué)伯克利分校實(shí)驗(yàn)室的負(fù)責(zé)人KenGoldberg解釋說(shuō)“我們想要看到的是,機(jī)器人在做基本縫合任務(wù),而外科醫(yī)生能夠監(jiān)視手術(shù)過(guò)程,比如像機(jī)器人表明他們想要在哪一排進(jìn)行縫合,或傳達(dá)出希望進(jìn)行六次覆膜縫合的想法。” “這樣,機(jī)器人能代替外科醫(yī)生做最基本的任務(wù),讓醫(yī)生們得到更多的休息,并能夠?qū)W⒂谑中g(shù)中更復(fù)雜或更細(xì)微的部分?!?/p>
(來(lái)源:機(jī)器人大講堂公眾號(hào))