谷歌推出AVA數(shù)據(jù)庫：讓機器識別視頻中人類行為

作者：時間：2017-10-23 來源：網(wǎng)易智能

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　計算機視覺正在成為科技公司的一大福音，能夠讓機器加速運轉(zhuǎn)，并完成迄今為止只能由人類完成的任務(wù)。

本文引用地址：http://2s4d.com/article/201710/370380.htm

　　幾個月前，eBay公布將要添加新的搜索功能，可以讓用戶使用現(xiàn)有照片來尋找類似商品，同時線上服裝零售商ASOS則在時尚領(lǐng)域涉足此項。Shutterstock上周公布了一項全新的測試功能，用戶可以根據(jù)自己的布局來搜索股票照片。過了幾天，谷歌照片應(yīng)用發(fā)布了新的寵物圖像識別功能。

　　簡而言之，在計算機視覺領(lǐng)域，發(fā)展越來越激動人心，同時也可以看到人們對人工智能領(lǐng)域的大量投資卓有成效。

　　目前，大多數(shù)計算機視覺技術(shù)的進步主要發(fā)生在靜態(tài)圖像領(lǐng)域，但我們也開始在視頻中看到計算機視覺技術(shù)的成果。例如，俄羅斯當局在全國的實時監(jiān)控網(wǎng)絡(luò)中應(yīng)用了面部識別技術(shù)。Pornhub也在做類似的事情，自動對“成人娛樂”視頻進行分類，包括訓(xùn)練系統(tǒng)識別特定的性姿勢。此外，還有蓬勃發(fā)展的自動駕駛汽車行業(yè)，在很大程度上依賴于機器對現(xiàn)實世界行為理解的能力。

　　在這樣的背景下，谷歌推出了一個新的視頻數(shù)據(jù)庫，希望能夠推動計算機視覺識別影像中行為的研究。“原子視覺行為”的英文縮寫“AVA”是一個由多個標簽組成的數(shù)據(jù)庫，用戶可以在視頻序列中進行操作。

　　視頻中動作識別的困難主要在于視頻中各種復(fù)雜的場景交織在一起，多個動作也在同一時間由不同的人發(fā)出。

　　谷歌軟件工程師顧春暉和大衛(wèi)羅斯在一篇博客文章中解釋道：“教會機器去識別影像中的人類行為是發(fā)展計算機視覺的一大基本難題，但是對于個人視頻搜索和發(fā)現(xiàn)、體育分析和手勢界面等應(yīng)用至關(guān)重要?！薄氨M管過去幾年在圖像分類和尋找物體方面取得了激動人心的突破，但識別人類行為仍然是一個巨大的挑戰(zhàn)。”

　　本質(zhì)上，AVA就是一堆被80個原子動作標注的YouTube網(wǎng)址，并延伸到了近5.8萬個視頻片段，涉及到很多日常活動，比如握手、踢腿、擁抱、接吻、喝酒、玩樂器、散步等等。

　　通過對外開放數(shù)據(jù)庫，谷歌希望可以改進機器的“社交視覺智能”，這樣他們就能理解人類在做什么，并預(yù)測他們下一步會做什么。

　　該公司表示：“我們希望，AVA的發(fā)布將有助于改進人類行為識別系統(tǒng)的開發(fā)，并有機會基于時空間隔標簽對復(fù)雜的活動進行建模?！?/p>

新聞中心

谷歌推出AVA數(shù)據(jù)庫：讓機器識別視頻中人類行為

評論

相關(guān)推薦

技術(shù)專區(qū)