博客專欄

EEPW首頁(yè) > 博客 > Shikra:理解指向,說(shuō)出坐標(biāo),多模態(tài)語(yǔ)言模型超進(jìn)化

Shikra:理解指向,說(shuō)出坐標(biāo),多模態(tài)語(yǔ)言模型超進(jìn)化

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-07-05 來(lái)源:工程師 發(fā)布文章

圖片

論文:http://arxiv.org/abs/2306.15195

代碼:https://github.com/shikras/shikra

圖片

背景
在人類的日常交流中,經(jīng)常會(huì)關(guān)注場(chǎng)景中的不同區(qū)域或物體,人們可以通過(guò)說(shuō)話并指向這些區(qū)域來(lái)進(jìn)行高效的信息交換。我們將這種交互模式稱為參考對(duì)話(Referential Dialogue)。如果 MLLM 擅長(zhǎng)這項(xiàng)技能,它將帶來(lái)許多令人興奮的應(yīng)用。例如,將其應(yīng)用到 Apple Vision Pro 等混合現(xiàn)實(shí) (XR) 眼鏡中,用戶可以使用視線注視指示任何內(nèi)容與AI對(duì)話。同時(shí)AI也可以通過(guò)高亮等形式來(lái)指向某些區(qū)域,實(shí)現(xiàn)與用戶的高效交流。本工作提出了Shikra模型,賦予了MLLM這樣的參考對(duì)話能力,既可以理解位置輸入,也可以產(chǎn)生位置輸出。

圖片

核心亮點(diǎn)
1. Shikra能夠理解用戶輸入的point/bounding box,并支持point/bounding box的輸出,可以和人類無(wú)縫地進(jìn)行參考對(duì)話。2. Shikra設(shè)計(jì)簡(jiǎn)單直接,采用非拼接式設(shè)計(jì),不需要額外的位置編碼器、前/后目標(biāo)檢測(cè)器或外部插件模塊,甚至不需要額外的詞匯表。

圖片

如上圖所示,Shikra能夠精確理解用戶輸入的定位區(qū)域,并能在輸出中引用與輸入時(shí)不同的區(qū)域進(jìn)行交流。像人類一樣通過(guò)對(duì)話和定位進(jìn)行高效交流。

圖片

圖片

圖片如上圖所示,Shikra不僅具備LLM所有的基本常識(shí),還能夠基于位置信息做出推理。

圖片

圖片如上圖所示,Shikra可以產(chǎn)生詳細(xì)的描述,解釋圖片中正在發(fā)生的事情,并為參考的物體生成準(zhǔn)確的定位。

圖片

盡管沒(méi)有在OCR數(shù)據(jù)集上專門(mén)訓(xùn)練,Shikra也具有基本的OCR能力。更多的例子

圖片

圖片

其他傳統(tǒng)任務(wù)

圖片

圖片

圖片

圖片


圖片

方法
模型架構(gòu)采用CLIP ViT-L/14 作為視覺(jué)主干,Vicuna-7/13B作為基語(yǔ)言模型,使用一層線性映射連接CLIP和Vicuna的特征空間。Shikra直接使用自然語(yǔ)言中的數(shù)字來(lái)表示物體位置,使用[xmin, ymin, xmax, ymax] 表示邊界框,使用[xcenter, ycenter]表示區(qū)域中心點(diǎn),區(qū)域的 xy 坐標(biāo)根據(jù)圖像大小進(jìn)行歸一化。每個(gè)數(shù)字默認(rèn)保留 3 位小數(shù)。這些坐標(biāo)可以出現(xiàn)在模型的輸入和輸出序列中的任何位置。記錄坐標(biāo)的方括號(hào)也自然地出現(xiàn)在句子中。

圖片

實(shí)驗(yàn)結(jié)果
Shikra在傳統(tǒng)REC、VQA、Caption任務(wù)上都能取得優(yōu)良表現(xiàn)。同時(shí)在PointQA-Twice、Point-V7W等需要理解位置輸入的VQA任務(wù)上取得了SOTA結(jié)果。

圖片

圖片

圖片

圖片

我們使用POPE benchmark評(píng)估了Shikra產(chǎn)生幻覺(jué)的程度,Shikra得到和InstrcutBLIP相當(dāng)?shù)慕Y(jié)果,并遠(yuǎn)超近期其他MLLM。

圖片

思想鏈(CoT),旨在通過(guò)在最終答案前添加推理過(guò)程以幫助LLM回答復(fù)雜的QA問(wèn)題。這一技術(shù)已被廣泛應(yīng)用到自然語(yǔ)言處理的各種任務(wù)中。然而如何在多模態(tài)場(chǎng)景下應(yīng)用CoT則尚待研究。尤其因?yàn)槟壳暗腗LLM還存在嚴(yán)重的幻視問(wèn)題,CoT經(jīng)常會(huì)產(chǎn)生幻覺(jué),影響最終答案的正確性。通過(guò)在合成數(shù)據(jù)集CLEVR上的實(shí)驗(yàn),我們發(fā)現(xiàn),使用帶有位置信息的CoT時(shí),可以有效減少模型幻覺(jué)提高模型性能。

圖片


圖片

結(jié)論
本工作介紹了一種名為Shikra的簡(jiǎn)單且統(tǒng)一的模型,以自然語(yǔ)言的方式理解與輸出空間坐標(biāo),為MLLM增加了類似于人類的參考對(duì)話能力,無(wú)需引入額外的詞匯表、位置編碼器或外部插件。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉