GPT-4刷屏，這家中國AI企業(yè)多模態(tài)大模型已落地應(yīng)用多年，新版本內(nèi)測了

發(fā)布人：機器之心時間：2023-03-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

OmModel V3 將于近期發(fā)布，新版本將提供一句話生成算法、自由定義需求、中英雙語互動、智能報告等多個特色功能，用戶可以通過語音或者文字等形式，自由提交任何需求任務(wù)，系統(tǒng)將根據(jù)任務(wù)給出相關(guān)反饋，包括音視圖文等多個模態(tài)的結(jié)果呈現(xiàn)（附內(nèi)測名額）。

人類如何認知世界？

人類 80% 的信息來自于視覺，同時人類也是地球上唯一擁有完整語言體系的生物。當(dāng)我們通過雙眼看到這個世界，不論是閱讀書籍、網(wǎng)上沖浪還是欣賞自然景觀，我們的大腦都在進行著復(fù)雜的信息處理。我們不僅能夠感知周圍環(huán)境中的物體和形狀，還能夠理解它們的意義和內(nèi)涵。這得益于我們獨特的語言能力，它使我們能夠表達和交流抽象的概念和想法。

通過語言，我們可以共享知識、傳遞經(jīng)驗、探討問題，這也是人類文明發(fā)展的重要基石之一。盡管視覺是我們獲取信息的主要途徑之一，但是缺乏語言能力的動物只能憑借本能行動和簡單的聲音表達與其他個體進行交流，無法像人類一樣進行高級的社交互動和智力活動。因此，語言的重要性不容忽視，它是我們作為人類的獨特標志之一，也是我們與自然界其他物種之間的重要區(qū)別。

與此同時，如何賦予機器人類般的智能一直是計算機科學(xué)的終極難題，近期隨著 GPT-4 等多模態(tài)大型語言模型的出現(xiàn)，語言成為了打開人工智能寶盒的關(guān)鍵鑰匙。

讓機器用語言理解世界

“人類的認知和理解需要依賴語言。語言使我們能夠表達和共享常識知識。例如，“水是液體，可以流動”，這是一條常識知識，我們可以用準確的詞匯和語法結(jié)構(gòu)來描述這一現(xiàn)象，讓更多人了解和掌握這一知識。此外，語言也是人類邏輯推理的重要載體。在邏輯推理中，人們通過識別和分析命題的真假和關(guān)系，通過語言的抽象和形式化表達，可以更好地理解和應(yīng)用邏輯規(guī)則。有了文字、有了語言，它們成為人類與世界交流的最基本、最便捷、最核心的介質(zhì)?！?對于語言之于認知的價值，聯(lián)匯科技首席科學(xué)家趙天成博士的見解明確。

前日剛發(fā)布的多模態(tài)大模型 GPT-4 就是科學(xué)家通過大模型的技術(shù)方式拓展認知邊界的積極嘗試。

GPT-4 通過圖像或文本輸入，完成識別、解析，輸出文本結(jié)果。對于 GPT-4 的這次升級，人們驚訝于它的 “讀圖能力” 和 “幽默感”，不論是各類統(tǒng)計表格，還是網(wǎng)絡(luò)梗圖，GPT-4 的表現(xiàn)可圈可點。

盡管 GPT-4 在許多現(xiàn)實世界場景中能力還不如人類，但它在多種不同領(lǐng)域的專業(yè)應(yīng)試中，已經(jīng)夠排到前段位置，程序編寫、開放問答、標準化測試等眾多方面，“超過人類的平均水平” 已經(jīng)是事實。

對此，趙天成博士進行了更多的解釋：這次的 GPT-4 是 GPT 大模型的新一次迭代，加入了新的模態(tài)，即對圖片的理解，同時大模型對語言生成和理解能力也有所提升。不論大模型的模態(tài)和規(guī)模如何增加、擴大，它的底層邏輯一定以語言模型為認知內(nèi)核，將更多的模態(tài)融入進來，實現(xiàn)以自然語言為核心的數(shù)據(jù)理解、信息認知與決策判斷。

語言曾經(jīng)是人類的特有能力，現(xiàn)在也成了快速逼近的強人工智能的核心載體。

再次進化的認知能力

趙天成博士表示，在文本語言理解的基礎(chǔ)上，如果疊加視頻、音頻等更多模態(tài)，實現(xiàn)更大范圍、更多行業(yè)數(shù)據(jù)的學(xué)習(xí)，則意味著大模型的認知能力將得到更智能的進化升級。

除了 OpenAI 有卓越的表現(xiàn)外，國內(nèi)外瞄準大模型的人工智能企業(yè)并不少，其中，趙天成博士和他的團隊在多模態(tài)大模型領(lǐng)域技術(shù)及應(yīng)用已經(jīng)提前交卷。

趙天成博士的技術(shù)團隊由來自卡耐基梅隆大學(xué)（CMU）、加州大學(xué)（UCLA）、微軟與阿里巴巴等國際頂尖院校和機構(gòu)的碩士與博士組成，多年深耕且引領(lǐng)國際多模態(tài)機器學(xué)習(xí)、人機交互領(lǐng)域的科研工作，是一支擁有多項核心技術(shù)的國際頂尖領(lǐng)軍團隊。

趙天成博士（右 4）及其核心團隊

趙天成博士畢業(yè)于卡耐基梅隆大學(xué)計算機科學(xué)專業(yè)，長期從事多模態(tài)機器學(xué)習(xí)與人機交互技術(shù)領(lǐng)域的理論與技術(shù)研究，帶領(lǐng)團隊率先突破非結(jié)構(gòu)化數(shù)據(jù)直接使用、跨模態(tài)數(shù)據(jù)融合分析等行業(yè)難題，多次獲得國際頂會最佳論文，微軟研究院 best & brightest phd，主持、參與多個國家、省、市重大項目研究，是國際多模態(tài)交互 AI 領(lǐng)域領(lǐng)軍人物。

他們在 2019 年就開始深入研究多模態(tài)大模型技術(shù)，是業(yè)界率先從事預(yù)訓(xùn)練大模型研究的團隊之一，并于 2021 年發(fā)布了自研的 OmModel V1 多模態(tài)預(yù)訓(xùn)練大模型，作為業(yè)界最早的語言增強視覺識別模型（Langauge Augumented Visual Models），OmModel 在 V1、V2 版本迭代的基礎(chǔ)上，已經(jīng)實現(xiàn)對視頻、圖片、文本等不同模態(tài)的融合分析和認知理解，尤其強調(diào)通過自然語言增強 AI 模型的視覺識別能力和跨模態(tài)理解能力，幫助用戶達成認知智能。通過將視覺和語言的有機結(jié)合，將使得機器智能向人類智能更靠近了一步。

OmModel 提出的多項原創(chuàng)核心關(guān)鍵技術(shù)實現(xiàn)了技術(shù)和應(yīng)用的創(chuàng)新，包括：

1. 實現(xiàn)更高數(shù)據(jù)與模型參數(shù)效率的無止境多任務(wù)新型預(yù)訓(xùn)練算法

突破現(xiàn)有多模態(tài)大模型預(yù)訓(xùn)練耗費超大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)和算力的局限，提出基于復(fù)雜異構(gòu)訓(xùn)練數(shù)據(jù)的無止境多任務(wù)與訓(xùn)練算法，融合圖片描述、圖片分類、區(qū)域描述等多種視覺語言數(shù)據(jù)類型，從多角度進行多層級的大模型預(yù)訓(xùn)練，實現(xiàn)用更高的數(shù)據(jù)效率與模型參數(shù)效率，增強在同等數(shù)據(jù)情況下的預(yù)訓(xùn)練效果，提高模型綜合識別能力，實現(xiàn)一個多模態(tài)大模型網(wǎng)絡(luò)結(jié)構(gòu)支撐 N 種任務(wù)、N 種場景的持續(xù)學(xué)習(xí)機制。

2. 通過自然語言增強實現(xiàn)的多場景零樣本新型視覺識別模型

針對傳統(tǒng)視覺識別模型依賴海量人工標注數(shù)據(jù)與煙囪式訓(xùn)練的瓶頸，提出基于自然語言增強的多模態(tài)視覺識別模型，通過自然語言作為知識橋梁，讓視覺識別模型可以基于大規(guī)模多模態(tài)預(yù)訓(xùn)練泛化到任何全新場景當(dāng)中，實現(xiàn)高精度的零樣本新領(lǐng)域識別，突破了傳統(tǒng)視覺識別系統(tǒng)必須按照場景進行定制的魔咒，讓用戶可以通過自然語言定義任意視覺目標，實現(xiàn)了視覺識別的冷啟動，大幅度降低了視覺識別應(yīng)用開發(fā)的門檻。

3.“人在環(huán)路” 多輪人機意圖對齊的新型大模型微調(diào)機制

針對視覺語言模型現(xiàn)有領(lǐng)域微調(diào)方法對硬件要求高、微調(diào)過程可控性有限等迫切挑戰(zhàn)，提出基于 “人在環(huán)路” 多輪人機交互式新型微調(diào)方式，通過結(jié)合人類專家的業(yè)務(wù)知識和迭代式的大模型微調(diào)方式，實現(xiàn)更加方便有效的大模型領(lǐng)域微調(diào)，將人類專家的業(yè)務(wù)目標和領(lǐng)域知識更好地融入到大模型的訓(xùn)練當(dāng)中；通過非參數(shù)學(xué)習(xí)和提示學(xué)習(xí)，減少大模型微調(diào)所需要的 GPU 算力需求，實現(xiàn)更加低代價的大模型行業(yè)落地。

4. 實現(xiàn)在低成本推理硬件環(huán)境下的新型大模型推理機制

針對現(xiàn)有多模態(tài)大模型僅強調(diào)識別精度，忽略推理速度，難以在大規(guī)模多模態(tài)數(shù)據(jù)匹配查詢中應(yīng)用的短板，提出基于稀疏向量匹配的視覺語言推理算法。基于端到端稀疏向量學(xué)習(xí)與倒排索引大數(shù)據(jù)結(jié)構(gòu)，實現(xiàn)億級多模態(tài)數(shù)據(jù)秒級匹配，匹配速度相較于傳統(tǒng) GPU 向量比對算法提高 5 倍以上，在 CPU 環(huán)境提高匹配速度 300 倍以上；通過多專家蒸餾算法，提高多模態(tài)大模型編碼推理速度 5 倍以上，大幅度降低多模態(tài)大模型的部署成本。

一手技術(shù)，一手應(yīng)用

趙天成博士表示，為了更好地服務(wù)行業(yè)和應(yīng)用，OmModel 突破了大多數(shù)視覺語言大模型僅僅局限于學(xué)術(shù)研究和開源數(shù)據(jù)訓(xùn)練的瓶頸，通過上述無止境預(yù)訓(xùn)練機制，在通識數(shù)據(jù)的基礎(chǔ)上持續(xù)吸納行業(yè)預(yù)訓(xùn)練數(shù)據(jù)。

目前已經(jīng)針對視頻云、智慧城市、融合媒體等行業(yè)，在通用預(yù)訓(xùn)練數(shù)據(jù)的基礎(chǔ)上，構(gòu)建超過千萬的多模態(tài)圖文預(yù)訓(xùn)練數(shù)據(jù)集，大幅提高多模態(tài)大模型在垂直行業(yè)領(lǐng)域的零樣本識別性能和小樣本調(diào)優(yōu)性能，實現(xiàn)從 “通用大模型” 向著 “行業(yè)大模型” 的重要升級和進化。

“技術(shù)創(chuàng)新 + 場景應(yīng)用” 的雙核內(nèi)驅(qū)使聯(lián)匯科技成為業(yè)內(nèi)最早實現(xiàn)多模態(tài)大模型技術(shù)服務(wù)落地的企業(yè)。

比如，在電力行業(yè)中，針對基層無人機電路巡檢的業(yè)務(wù)需求，傳統(tǒng)模式存在輸電線路小部件典型缺陷識別準確率不高、識別系統(tǒng)運行速度慢、識別結(jié)果依賴人工復(fù)核等棘手問題，通過 OmModel 行業(yè)大模型生成針對輸電線路多模態(tài)數(shù)據(jù)的人工智能預(yù)訓(xùn)練算法，以及針對小部件缺陷的圖像分析模型，提升輸電線路小部件典型缺陷檢出率和識別精度，并通過蒸餾算法，實現(xiàn)缺陷檢測模型的參數(shù)壓縮，提高模型的運行速度，提升輸電線路缺陷檢測的整體效率，為電網(wǎng)公司在輸電線路無人機巡檢缺陷精準識別領(lǐng)域提供應(yīng)用示范。

OmModel V3 來了！

OmModel 已經(jīng)實現(xiàn)在智慧電力、視覺監(jiān)管、智慧城市、機器人、數(shù)字資產(chǎn)等領(lǐng)域的落地應(yīng)用，后續(xù)還會有哪些動作方向呢？

對于 OmModel 的迭代規(guī)劃，趙天成博士非常明確：“我們始終秉著‘用視覺感知世界，用語言理解世界’的觀點，產(chǎn)品和技術(shù)方向一定是如何讓 AI 更貼心、更懂人類，通過視覺和語言的融合理解，讓用戶和機器之間可以有便捷的交互、更自由地表達以及更智慧的反饋，使大模型的能力成為用戶的能力，讓人工智能真正地為更多人所有、所用?！?/span>

據(jù)悉，OmModel V3 將于近期發(fā)布，新版本將提供一句話生成算法、自由定義需求、中英雙語互動、智能報告等多個特色功能，用戶可以通過語音或者文字等形式，自由提交任何需求任務(wù)，系統(tǒng)將根據(jù)任務(wù)給出相關(guān)反饋，包括音視圖文等多個模態(tài)的結(jié)果呈現(xiàn)。

OmModel V3 正在帶來更多關(guān)于智慧未來的想象 ——

比如，現(xiàn)有的家庭攝像頭和平臺，作用非常有限，提醒和記錄是其用戶頻繁使用的功能，甚至這類簡單需求在使用中也 bug 頻出，比如大量誤報，讓系統(tǒng)提醒變成了騷擾，無法定義的監(jiān)控任務(wù)讓本該智慧化的體驗變得非常呆板、有限。

年輕的鏟屎官無法時時刻刻地陪在 “主子” 身邊，家里的主子有沒有悄悄溜出門，家具拆的還剩多少，對新玩具還滿意嗎，有沒有從未出現(xiàn)的異常行為需要留意，這些需求稀碎但也重要，傳統(tǒng)攝像頭及平臺根本無法滿足，通過 OmModel V3，鏟屎官將可以通過自然對話定義屬于你自己的任務(wù)需求，同時選擇不同的反饋方式，可以是一份系統(tǒng)化的智能報告，可以是 AIGC 的視頻合輯，反正結(jié)果也是由你用語言定義。

作為多模態(tài)大模型，OmModel 的價值遠不止于此，不論是智慧家居的小場景，還是智慧電力等行業(yè)級應(yīng)用，OmModel 的通識能力正在加速釋放，通過與硬件、平臺等多樣的融合應(yīng)用，它將以智能助手、智慧數(shù)字人等不同的形態(tài)出現(xiàn)、賦能，提升工作、生活的效率與質(zhì)量。

隨著通用泛化能力的不斷釋放，關(guān)于 OmModel 還能夠做什么的問題，趙天成博士的回答很有意思 ——

“這個問題我們已經(jīng)在各個行業(yè)、領(lǐng)域、場景給出了很多答案，但是我們還在不斷努力，給出更多、更新、更有意思的回答。當(dāng)然，這個過程中，我們也希望看到大家的答案，希望有更多的開發(fā)者加入我們，通過 OmModel 開啟更未來的場景與應(yīng)用?！?/span>

OmModel 的先發(fā)優(yōu)勢為技術(shù)創(chuàng)新與應(yīng)用的開啟提供了更多可能，如果你也想一起搞點事情，歡迎自薦加入該團隊，郵箱：marketing@hzlh.com

最后，讀者福利，聯(lián)匯科技將提供 10 個內(nèi)測名額讓大家搶先體驗OmModel V3，可通過微信后臺留言申請。參與方式：留言并備注郵箱，聯(lián)匯科技會給申請的用戶發(fā)邀請郵件，先到先得。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

GPT-4刷屏，這家中國AI企業(yè)多模態(tài)大模型已落地應(yīng)用多年，新版本內(nèi)測了

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

GPT-4刷屏，這家中國AI企業(yè)多模態(tài)大模型已落地應(yīng)用多年，新版本內(nèi)測了

相關(guān)推薦

技術(shù)專區(qū)

GPT-4刷屏，這家中國AI企業(yè)多模態(tài)大模型已落地應(yīng)用多年，新版本內(nèi)測了