【W(wǎng)RC ? 資訊】阿里斬獲AI領(lǐng)域 “奧斯卡” 四項冠軍，新研究可精準預(yù)測視頻目標(biāo)位置

時間：2020-06-29

業(yè)界普遍認為，視頻分割技術(shù)將成為線上會議、直播、自動駕駛、影視制作等場景的標(biāo)配。例如直播場景使用阿里 AI 算法，可以實現(xiàn)一秒鐘替換背景；在自動駕駛中，視頻分割也是自動駕駛系統(tǒng)識別障礙物的關(guān)鍵技術(shù)。因此，視頻分割技術(shù)將會和我們更加息息相關(guān)。

近日，全球計算機視覺頂會 CVPR 2020（CVPR，即 IEEE 國際計算機視覺與模式識別會議）公布各大挑戰(zhàn)賽結(jié)果，阿里巴巴（以下稱“阿里”）獲得四項比賽的世界冠軍，其中，在難度最高的 DAVIS（ Densely Annotated Video Segmentation，密集標(biāo)注視頻分割）挑戰(zhàn)賽中，阿里提出了可以精準預(yù)測視頻目標(biāo)位置的方法，并且首次以超過 80 分的成績奪得第一名。

CVPR 是 AI 領(lǐng)域規(guī)模最大的會議，被譽為計算機視覺領(lǐng)域“奧斯卡”，其范圍涵蓋計算機視覺領(lǐng)域的前瞻學(xué)術(shù)研究和工業(yè)應(yīng)用，會議的研究成果體現(xiàn)著視覺 AI 領(lǐng)域研究的趨勢。由于視頻會議、直播等應(yīng)用逐漸普及，2020 年頂級科技公司的研究成果逐步從圖像延伸到視頻領(lǐng)域，涉及視頻壓縮、視頻分割、三維視覺等領(lǐng)域。

和圖像識別不同，AI 分析理解視頻的技術(shù)門檻更高，長期以來，業(yè)界在視頻 AI 技術(shù)的研究上鮮有重大突破。以 CVPR 會議難度最高的比賽之一 DAVIS 為例，該比賽需要參賽團隊精準處理復(fù)雜視頻中物體快速運動、外觀變化、遮擋等信息。過去幾年，全球頂級科技公司在該比賽中的成績從未突破 80 分。

據(jù)介紹，阿里參加的四項比賽均為視頻技術(shù)領(lǐng)域。在 DAVIS 挑戰(zhàn)賽中，阿里達摩院團隊率先實現(xiàn)突破，力壓悉尼科技大學(xué) ReLER 實驗室，以 84.1 的分數(shù)獲得了第一名，比 2019 年第一名的中興和華中科技大學(xué)聯(lián)合團隊高出 7.4 分。

圖 | 阿里 AI 以 84.1 分的成績斬獲 DAVIS 比賽第一名

具體來說，阿里參與的是 DAVIS 半監(jiān)督賽道。要求是假設(shè)用戶不與算法交互以獲取分割掩膜，輸入值只給出第一幀的正確掩膜，算法需要在后續(xù)每一幀中實現(xiàn)對單個或多個目標(biāo)的分割，也就是要把目標(biāo)的像素標(biāo)注出來。

如上圖所示，衡量分割準確率有兩種標(biāo)準，分別以 J 和 F 為代號，代表區(qū)域相似度（Region Similarity）和輪廓準確度（Contour Accuracy）。前者測量正確像素的標(biāo)注數(shù)量，后者測量目標(biāo)輪廓的分割有多精準。最終成績是 J 和 F 標(biāo)準的綜合分。

公開資料顯示，在現(xiàn)有的 STMVOS 方法（利用空間 - 時間記憶網(wǎng)絡(luò)分割視頻目標(biāo)）基礎(chǔ)上，阿里提出了一種全新的空間約束方法，打破了傳統(tǒng) STM 方法缺乏時序性且會受到相似目標(biāo)誤導(dǎo)的瓶頸，可以讓系統(tǒng)基于視頻前一幀畫面預(yù)測目標(biāo)物體下一幀的位置；此外，阿里還引入了語義分割中的精細化分割微調(diào)模塊，大幅提高了分割精細程度。最終，精準識別動態(tài)目標(biāo)的輪廓邊界，并且與背景進行分離，實現(xiàn)像素級目標(biāo)分割。

圖 | 阿里 AI 可以基于視頻前一幀畫面，精準預(yù)測目標(biāo)物體下一幀的位置

作為對比，今年 DAVIS 挑戰(zhàn)賽第二名 ReLER 實驗室提出的 CFBI + 算法，原本領(lǐng)先基礎(chǔ) STMVOS 算法近 10 分，但阿里團隊使用空間約束方法、新型訓(xùn)練策略和微調(diào)等技術(shù)，將基礎(chǔ)算法的表現(xiàn)大幅提高了 12 分，摘下桂冠。

在另外兩個比賽，HACS 人類動作短視頻識別和 DeepFashion 服裝識別中，阿里團隊也獲得了第一名。

除獲得四項比賽冠軍，阿里還有 17 篇論文入選 CVPR 2020，其中包括一篇自動駕駛領(lǐng)域的研究成果，該論文提出了一個通用、高性能的自動駕駛檢測器，首次實現(xiàn) 3D 物體檢測精度與速度的兼得，可以有效提升自動駕駛系統(tǒng)安全性能。

目前，阿里視覺 AI 技術(shù)已在全球率先實現(xiàn)大規(guī)模落地。例如，城市大腦、拍立淘、優(yōu)酷視頻等阿里集團內(nèi)部業(yè)務(wù)場景均已大規(guī)模使用該技術(shù)；阿里 CT 影像 AI 已經(jīng)服務(wù)全球 600 多家醫(yī)療機構(gòu)，疫情期間已完成 50 余萬例病例臨床診斷。

（來源：DeepTech深科技公眾號）

日本少妇寂寞少妇aaa-亚洲av无码一区二区三区系列-精品久久人人妻人人做精品-久久精品麻豆日日躁夜夜躁

【W(wǎng)RC ? 資訊】阿里斬獲AI領(lǐng)域 “奧斯卡” 四項冠軍，新研究可精準預(yù)測視頻目標(biāo)位置

【W(wǎng)RC ? 資訊】阿里斬獲AI領(lǐng)域 “奧斯卡” 四項冠軍，新研究可精準預(yù)測視頻目標(biāo)位置