谷歌推出AVA數(shù)據(jù)庫(kù):讓機(jī)器識(shí)別視頻中人類行為
計(jì)算機(jī)視覺正在成為科技公司的一大福音,能夠讓機(jī)器加速運(yùn)轉(zhuǎn),并完成迄今為止只能由人類完成的任務(wù)。
本文引用地址:http://2s4d.com/article/201710/370380.htm幾個(gè)月前,eBay公布將要添加新的搜索功能,可以讓用戶使用現(xiàn)有照片來(lái)尋找類似商品,同時(shí)線上服裝零售商ASOS則在時(shí)尚領(lǐng)域涉足此項(xiàng)。Shutterstock上周公布了一項(xiàng)全新的測(cè)試功能,用戶可以根據(jù)自己的布局來(lái)搜索股票照片。過(guò)了幾天,谷歌照片應(yīng)用發(fā)布了新的寵物圖像識(shí)別功能。
簡(jiǎn)而言之,在計(jì)算機(jī)視覺領(lǐng)域,發(fā)展越來(lái)越激動(dòng)人心,同時(shí)也可以看到人們對(duì)人工智能領(lǐng)域的大量投資卓有成效。
目前,大多數(shù)計(jì)算機(jī)視覺技術(shù)的進(jìn)步主要發(fā)生在靜態(tài)圖像領(lǐng)域,但我們也開始在視頻中看到計(jì)算機(jī)視覺技術(shù)的成果。例如,俄羅斯當(dāng)局在全國(guó)的實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)中應(yīng)用了面部識(shí)別技術(shù)。Pornhub也在做類似的事情,自動(dòng)對(duì)“成人娛樂(lè)”視頻進(jìn)行分類,包括訓(xùn)練系統(tǒng)識(shí)別特定的性姿勢(shì)。此外,還有蓬勃發(fā)展的自動(dòng)駕駛汽車行業(yè),在很大程度上依賴于機(jī)器對(duì)現(xiàn)實(shí)世界行為理解的能力。
在這樣的背景下,谷歌推出了一個(gè)新的視頻數(shù)據(jù)庫(kù),希望能夠推動(dòng)計(jì)算機(jī)視覺識(shí)別影像中行為的研究?!霸右曈X行為”的英文縮寫“AVA”是一個(gè)由多個(gè)標(biāo)簽組成的數(shù)據(jù)庫(kù),用戶可以在視頻序列中進(jìn)行操作。
視頻中動(dòng)作識(shí)別的困難主要在于視頻中各種復(fù)雜的場(chǎng)景交織在一起,多個(gè)動(dòng)作也在同一時(shí)間由不同的人發(fā)出。
谷歌軟件工程師顧春暉和大衛(wèi)羅斯在一篇博客文章中解釋道:“教會(huì)機(jī)器去識(shí)別影像中的人類行為是發(fā)展計(jì)算機(jī)視覺的一大基本難題,但是對(duì)于個(gè)人視頻搜索和發(fā)現(xiàn)、體育分析和手勢(shì)界面等應(yīng)用至關(guān)重要。”“盡管過(guò)去幾年在圖像分類和尋找物體方面取得了激動(dòng)人心的突破,但識(shí)別人類行為仍然是一個(gè)巨大的挑戰(zhàn)?!?/p>
本質(zhì)上,AVA就是一堆被80個(gè)原子動(dòng)作標(biāo)注的YouTube網(wǎng)址,并延伸到了近5.8萬(wàn)個(gè)視頻片段,涉及到很多日?;顒?dòng),比如握手、踢腿、擁抱、接吻、喝酒、玩樂(lè)器、散步等等。
通過(guò)對(duì)外開放數(shù)據(jù)庫(kù),谷歌希望可以改進(jìn)機(jī)器的“社交視覺智能”,這樣他們就能理解人類在做什么,并預(yù)測(cè)他們下一步會(huì)做什么。
該公司表示:“我們希望,AVA的發(fā)布將有助于改進(jìn)人類行為識(shí)別系統(tǒng)的開發(fā),并有機(jī)會(huì)基于時(shí)空間隔標(biāo)簽對(duì)復(fù)雜的活動(dòng)進(jìn)行建模?!?/p>
評(píng)論