聯(lián)匯科技發(fā)布自主智能體 OmBot 歐姆智能體及 OmBot OS 操作系統(tǒng)

作者：時(shí)間：2023-07-12 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

今年加入 OpenAI 的大牛、前特斯拉 AI 總監(jiān) Karpathy 在最近的一次開(kāi)發(fā)者活動(dòng)上表示：AI 智能體，代表了 AI 的一種未來(lái)!

本文引用地址：http://2s4d.com/article/202307/448557.htm

不僅是他，全球 AI 領(lǐng)域的大佬和科技巨頭對(duì) AI 智能體的發(fā)展都表現(xiàn)出極大興趣，并寄予厚望。

大語(yǔ)言模型的出現(xiàn)，無(wú)疑給 AI 智能體的發(fā)展帶來(lái)了全新的想象力，因此盡管在眾多 AI 智能體還未達(dá)到完全模擬人類(lèi)智能的程度的情況下，仍然吸引了全球關(guān)注，因?yàn)樗某霈F(xiàn)意味著人類(lèi)在未來(lái)實(shí)現(xiàn)通用人工智能的目標(biāo)上邁出的重要一步。

這個(gè)在大模型技術(shù)與應(yīng)用之上誕生的全新賽道，搶跑的人意味著能夠擁有先發(fā)優(yōu)勢(shì)。

OmBot自主智能體的誕生

在今天的 2023 世界人工智能大會(huì)上，聯(lián)匯科技發(fā)布了基于大模型能力的自主智能體(Auto AI Agent )——OmBot 歐姆智能體，并針對(duì)典型場(chǎng)景需求，推出了首批應(yīng)用。

OmBot 歐姆智能體橫空出世的背后，是聯(lián)匯科技技術(shù)團(tuán)隊(duì)的一次 “蓄謀已久”。

公司核心團(tuán)隊(duì)來(lái)自全球計(jì)算機(jī)殿堂 —— 卡內(nèi)基梅隆大學(xué)，實(shí)驗(yàn)室對(duì)于自主化智能體的探索從 90 年代就已經(jīng)開(kāi)始。2014 年，聯(lián)匯科技首席科學(xué)家趙天成攻讀博士時(shí)，已經(jīng)成功研發(fā)了全球第一個(gè)多模態(tài)智能體平臺(tái)DialPort，讓不同高校的智能體(機(jī)器人)在一個(gè)平臺(tái)匯集，并讓他們一同協(xié)作幫助人類(lèi)完成各種任務(wù)。

這些智能體的專(zhuān)業(yè)領(lǐng)域各不相同。

例如有些是幫助訂餐廳，有些是幫你分析電影，有些是幫你處理文案等等。隨著智能程度的不斷增加，DialPort 匯集了超過(guò) 100 個(gè)智能體能力，為超過(guò) 100 篇學(xué)術(shù)研究項(xiàng)目提供了智能體的基礎(chǔ)平臺(tái)，更是影響了包括 AmazonAlexa 在內(nèi)的眾多目前已經(jīng)成熟的交互智能體的設(shè)計(jì)思路。

自主智能體的初步探索

那么，什么是自主智能體呢?

聯(lián)匯科技給出了明確的回答 ——智能體是能夠感知環(huán)境、自主決策并且具備短期與長(zhǎng)期記憶的計(jì)算機(jī)模型，它能夠模仿人類(lèi)大腦工作機(jī)制，根據(jù)任務(wù)目標(biāo)，主動(dòng)完成任務(wù)。

聯(lián)匯自主智能體包含了認(rèn)知、記憶、思考、行動(dòng)四大核心能力，作為一種自動(dòng)、自主的智能體，它以最簡(jiǎn)單的形式中在循環(huán)中運(yùn)行，每次迭代時(shí)，它們都會(huì)生成自我導(dǎo)向的指令和操作。因此，它不依賴(lài)人類(lèi)來(lái)指導(dǎo)命令，具備高度可擴(kuò)展性。

自主智能體核心能力

認(rèn)知是智能體獲取環(huán)境信息的過(guò)程。將原始數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以理解和處理的形式，而人類(lèi) 80% 的信息輸入來(lái)自于視覺(jué)。

記憶是智能體存儲(chǔ)和提取信息的能力。包括短期記憶和長(zhǎng)期記憶，前者用于存儲(chǔ)臨時(shí)的信息，后者用于存儲(chǔ)更持久的知識(shí)和經(jīng)驗(yàn)，并最終由記憶在決策和行動(dòng)中發(fā)揮價(jià)值。

思考是智能體對(duì)感知和記憶進(jìn)行分析、推理和決策的過(guò)程。使用各種算法和技術(shù)來(lái)處理感知數(shù)據(jù)和記憶信息，以生成合理的決策和行動(dòng)計(jì)劃。其中，語(yǔ)言是我們思考的核心邏輯。

行動(dòng)是智能體基于感知、記憶和思考結(jié)果采取的具體行為。包括控制機(jī)制和執(zhí)行器，用于將決策轉(zhuǎn)化為實(shí)際的物理行動(dòng)或其他形式的輸出。

第一批自主智能體是什么

當(dāng)自主智能體具備了以上 4 類(lèi)核心能力后，自然而然面向不同行業(yè)、不同需求、不同場(chǎng)景的第一批智能體應(yīng)運(yùn)而生 —— 視頻小歐、文檔小歐和 AIGC 小歐。

是的，聯(lián)匯首次推出的自主智能體并不止一個(gè)，而是一批。

他們能做什么呢?

視頻小歐可以成為新零售場(chǎng)景中的智慧店長(zhǎng)。通過(guò)與攝像頭視覺(jué)信息結(jié)合，利用歐姆大模型智能識(shí)別店內(nèi)發(fā)生的一切，形成機(jī)器人記憶，并自主決策提示交互信息。自主關(guān)注店內(nèi)值得關(guān)注的事件，在必要時(shí)進(jìn)行提示。通過(guò)與機(jī)器人對(duì)話交互，用戶(hù)可以隨時(shí)詢(xún)問(wèn)店內(nèi)發(fā)生過(guò)的一切，協(xié)助店鋪的管理運(yùn)營(yíng)。

視頻小歐成為自主思考的智慧店長(zhǎng)

文檔小歐可以成為個(gè)人和企業(yè)的學(xué)習(xí)助理。面對(duì)電力、石油、醫(yī)學(xué)等行業(yè)專(zhuān)業(yè)知識(shí)學(xué)習(xí)成本高、查詢(xún)困難的痛點(diǎn)，文檔問(wèn)答機(jī)器人可以將專(zhuān)業(yè)知識(shí)有效集成到向量數(shù)據(jù)庫(kù)，并存儲(chǔ)記憶，形成專(zhuān)業(yè)機(jī)器人，通過(guò)多模態(tài)內(nèi)容理解與內(nèi)容生成，智能回復(fù)用戶(hù)問(wèn)題，并給出專(zhuān)業(yè)的回答。

文檔小歐幫助行業(yè)小白解決專(zhuān)業(yè)問(wèn)題

AIGC 小歐可以成為媒體、文化、游戲等行業(yè)的剪輯助手。通過(guò) AIGC 實(shí)現(xiàn)媒體視頻素材的一鍵成片，針對(duì)視頻主題，語(yǔ)言模塊完成視頻內(nèi)容文案生成，隨后拆分為更加細(xì)節(jié)的視頻鏡頭描述，依托語(yǔ)言理解能力，對(duì)素材庫(kù)視頻進(jìn)行搜索、剪輯和生成，最終大幅降低視頻制作門(mén)檻。

AIGC 小歐一鍵成片

現(xiàn)場(chǎng)，聯(lián)匯科技行嗨發(fā)布了基于 OmBot 歐姆智能體與大模型技術(shù)的行業(yè)級(jí)智慧文旅底座，為文旅全行業(yè)提供包含元宇宙、AIGC、智慧助手等典型場(chǎng)景快速賦能。

面向行業(yè)、企業(yè)、個(gè)人等不同主體千變?nèi)f化的需求，OmBot 歐姆智能體將通過(guò)高效調(diào)教，實(shí)現(xiàn)個(gè)性化智能體的快速生成與進(jìn)化，未來(lái)的自主智能體，不是一個(gè)，也不是一批，而是 “人均” 單位下的應(yīng)有盡有。

自主智能體會(huì)像孫悟空的分身猴毛，有需要就可以快速的實(shí)現(xiàn)。

歐姆大模型 3.0 來(lái)了!

仔細(xì)體驗(yàn)首批自主智能體，不難發(fā)現(xiàn)，在應(yīng)用過(guò)程中，認(rèn)知與思考是自主智能體核心能力的核心。

對(duì)于認(rèn)知與思考的解決方案，聯(lián)匯依賴(lài)的是背后的多模態(tài)大模型。

早在 2019 年，聯(lián)匯科技就與 OpenAI CLIP 模型同期推出了歐姆模型 1.0，實(shí)現(xiàn)跨模態(tài)搜索，隨后的歐姆大模型 2.0，聚焦開(kāi)放目標(biāo)識(shí)別，實(shí)現(xiàn)了從圖文檢索的到目標(biāo)理解的躍遷。

目前，聯(lián)匯科技正式推出歐姆大模型 3.0，直指行業(yè)性能最強(qiáng)、真正落地應(yīng)用的大模型。

這次的歐姆大模型 3.0 實(shí)現(xiàn)了哪些飛躍呢?

OmModel V3 正式發(fā)布

開(kāi)放識(shí)別方面，歐姆大模型支持對(duì)視覺(jué)圖像、視頻進(jìn)行標(biāo)簽全開(kāi)放識(shí)別。預(yù)訓(xùn)練中已經(jīng)包含了數(shù)十億的高質(zhì)量圖文匹配數(shù)據(jù)，包含大量的環(huán)境背景，目標(biāo)類(lèi)型，目標(biāo)屬性與行為特征，疊加全圖細(xì)粒度級(jí)別的理解，圖文的語(yǔ)義匹配，圖文問(wèn)答等多任務(wù)的訓(xùn)練，使歐姆大模型 3.0 具備了能力涌現(xiàn)的保障。

歐姆大模型 3.0 不再局限于固定的目標(biāo)類(lèi)型清單，而是通過(guò)語(yǔ)義理解去理解視覺(jué)中的任意目標(biāo)，甚至是描述的方式去定義目標(biāo)。

開(kāi)放識(shí)別

視覺(jué)問(wèn)答方面，構(gòu)建了私有的十億級(jí)媒體數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù)，包括無(wú)人機(jī)視角，監(jiān)控視角等，通過(guò)多任務(wù)訓(xùn)練，歐姆大模型 3.0 將包括自然語(yǔ)言解析、邏輯推理、圖像理解以及自然語(yǔ)言生成等AI 能力進(jìn)行深度融合。將視覺(jué)模型和語(yǔ)言模型進(jìn)行細(xì)粒度的對(duì)齊，讓其可以理解人類(lèi)指令，并合理作答。

另外，歐姆大模型可以在針對(duì)圖片進(jìn)行問(wèn)答之后進(jìn)行多輪對(duì)話推理，并擴(kuò)充視覺(jué)之外的信息。

視覺(jué)問(wèn)答

認(rèn)知推理方面，通過(guò)不斷提升歐模大模型的內(nèi)容理解與多模態(tài)的語(yǔ)義對(duì)齊的能力，結(jié)合語(yǔ)言模型的能力，歐模大模型能夠做到基于視覺(jué)認(rèn)知的推理，并由此支撐智能體所需要的認(rèn)知與推理能力。

例如，看到兒童摔倒，模型可以推理要立即檢查兒童有沒(méi)有受傷?？吹接行『⒃诖斑叄Ｐ涂梢蕴嵝岩⒁鈨和陌踩??？吹狡孔悠屏扬嬃洗蚍?模型可以提醒馬上清理防止有人滑倒。

在開(kāi)放識(shí)別、視覺(jué)問(wèn)答的基礎(chǔ)上，認(rèn)知推理的能力能夠賦能智能體從被動(dòng)的識(shí)別轉(zhuǎn)為主動(dòng)推理，進(jìn)行思考與決策，并提出相應(yīng)的智能解決方案。

推理認(rèn)知

高效微調(diào)方面，針對(duì)傳統(tǒng)全參數(shù)微調(diào)消耗大量 GPU 計(jì)算與存儲(chǔ)資源的情況，聯(lián)匯從模型訓(xùn)練和模型推理兩方面入手，使得歐姆大模型能夠好用、易用。

在模型訓(xùn)練上，聯(lián)匯自主設(shè)計(jì) PEFT 羽量微調(diào)技術(shù)，與標(biāo)準(zhǔn)全參數(shù)微調(diào)相比，僅微調(diào)模型參數(shù)的一小部分，訓(xùn)練參數(shù)量小于 1%，在大幅降低計(jì)算和存儲(chǔ)成本的同時(shí)，實(shí)現(xiàn)媲美全參數(shù)微調(diào)的性能表現(xiàn)。這樣的做法能夠真實(shí)降低大模型的微調(diào)訓(xùn)練門(mén)檻，快速適配用戶(hù)長(zhǎng)尾場(chǎng)景的訓(xùn)練需求。

訓(xùn)練參數(shù)量小于 1%

在模型推理上，聯(lián)匯推出針對(duì)多模態(tài)大模型的推理運(yùn)行系統(tǒng) ——Hydra 九頭蛇部署架構(gòu)，通過(guò)多卡集群部署蛇身，由多個(gè)公用的底座模型組成，而各個(gè)算法任務(wù)只需要部署羽量級(jí)的蛇頭模型，實(shí)現(xiàn) MaaS 架構(gòu)。在推理時(shí)，蛇頭模型可與任意公用蛇身模型結(jié)合產(chǎn)生識(shí)別結(jié)果，且新增算法任務(wù)只需增加羽量級(jí)蛇頭模型。從而實(shí)現(xiàn)了 GPU 集群資源的高效利用，并突破算法任務(wù)部署顯存資源的上限。

Hydra 九頭蛇部署架構(gòu)

作為成熟的大模型，歐姆大模型擁有良好性能的同時(shí)，依舊在不斷自我進(jìn)化。聯(lián)匯研發(fā)團(tuán)隊(duì)構(gòu)建了一套完善的人在環(huán)路指令學(xué)習(xí)進(jìn)化體系。

人在環(huán)路指令學(xué)習(xí)進(jìn)化體系

對(duì)于一個(gè)迭代升級(jí)后的新版本大模型，首先需要經(jīng)過(guò)質(zhì)量部的錘煉，通過(guò)基于內(nèi)部量化數(shù)據(jù)集進(jìn)行能力驗(yàn)證，再配置并測(cè)試各種算法任務(wù)，確保模型的升級(jí)成功。在模型實(shí)際部署上線后，持續(xù)跟蹤算法任務(wù)運(yùn)行情況，記錄并反饋模型潛在缺陷和優(yōu)化點(diǎn)。

數(shù)據(jù)部據(jù)此對(duì)新算法任務(wù)、長(zhǎng)尾場(chǎng)景和模型識(shí)別缺陷等關(guān)鍵點(diǎn)，使用完整的數(shù)據(jù)回流體系進(jìn)行針對(duì)性的數(shù)據(jù)采集、數(shù)據(jù)清洗、和指令學(xué)習(xí)數(shù)據(jù)集生成等操作。

在指令學(xué)習(xí)數(shù)據(jù)集完成累積周期后，算法組將基于質(zhì)量組的反饋以及數(shù)據(jù)組采集的數(shù)據(jù)對(duì)歐姆大模型進(jìn)行新一版本的迭代優(yōu)化訓(xùn)練，針對(duì)性提高模型在業(yè)務(wù)算法上的能力，增強(qiáng)泛化能力。

基于由效果評(píng)估、升級(jí)策略、數(shù)據(jù)回流、優(yōu)化升級(jí)構(gòu)成的人在環(huán)路指令學(xué)習(xí)進(jìn)化體系，歐姆大模型可以對(duì)底座模型進(jìn)行有效的指令學(xué)習(xí)、迭代升級(jí)，從而在現(xiàn)有的算法任務(wù)上有更好的表現(xiàn)。

這也意味著每隔幾個(gè)月，歐姆大模型都會(huì)迭代進(jìn)化得更加強(qiáng)大。

完善的工具鏈和工程化框架

成功的大模型在應(yīng)用層面落地需要與之配套的工具鏈與工程化框架。

為了幫助用戶(hù)更好、更快的使用大模型技術(shù)與產(chǎn)品，聯(lián)匯正式發(fā)布?xì)W姆大模型工具軟件集合，用 AI - 原生的思路，重新想象 AI 智能體的開(kāi)發(fā)工具，讓開(kāi)發(fā)者可以快速構(gòu)建未來(lái)的爆款智能體!

歐姆大模型應(yīng)用體系

過(guò)去幾年間，聯(lián)匯科技構(gòu)建了完善的針對(duì)視覺(jué)理解場(chǎng)景的工具鏈平臺(tái)。開(kāi)發(fā)者可以利用自然語(yǔ)言靈活的表述識(shí)別需求，OmVision Studio、OmVision OS 等平臺(tái)與系統(tǒng)，提升算法生產(chǎn)效率的同時(shí)，有效降低了人工智能技術(shù)的應(yīng)用門(mén)檻，為更多的企業(yè)與行業(yè)賦能。

OmVision 應(yīng)用體系

今天，聯(lián)匯科技首次發(fā)布針對(duì)智能體的 OmBot OS 操作系統(tǒng)。開(kāi)發(fā)者可以基于靈活的模塊配置，將多模態(tài)大模型、向量數(shù)據(jù)庫(kù)、人機(jī)交互認(rèn)知架構(gòu)進(jìn)行深度融合，為構(gòu)建基于多模態(tài)數(shù)據(jù)感知、認(rèn)知、思考與行動(dòng)的智能體奠定基礎(chǔ)。

OmBot OS 架構(gòu)

OmBot OS 提供自帶的長(zhǎng)期記憶模塊，同時(shí)允許開(kāi)發(fā)者用戶(hù)編寫(xiě)主動(dòng)思考模塊與交互響應(yīng)模塊，支持響應(yīng)式問(wèn)答與主動(dòng)推薦思考的任務(wù)場(chǎng)景。同時(shí)支持記憶反思模塊，模擬人類(lèi)對(duì)于長(zhǎng)期記憶的主動(dòng)壓縮與思考過(guò)程，從繁雜的原始記憶中抽取出更加高維度的抽象記憶信息，讓我們的智能體更加人性化。

OmBot OS 讓開(kāi)發(fā)者可以基于靈活的模塊配置，將多模態(tài)大模型、向量數(shù)據(jù)庫(kù)、人機(jī)交互等技術(shù)進(jìn)行深度融合，為構(gòu)建基于多模態(tài)數(shù)據(jù)進(jìn)行感知、認(rèn)知、思考與行動(dòng)的智能體奠定了基礎(chǔ)。

以更開(kāi)放的方式擁抱 AGI 時(shí)代

完善的產(chǎn)品矩陣與人在環(huán)路指令學(xué)習(xí)進(jìn)化體系為聯(lián)匯科技的技術(shù)生長(zhǎng)打下扎實(shí)基礎(chǔ)，在此之上的對(duì)外開(kāi)放能力同樣令人期待。

聯(lián)匯首席科學(xué)家趙天成博士表示，我們相信在未來(lái)，每個(gè)人與每一家企業(yè)都可以在 AI 的能力加持，具備更好的記憶、認(rèn)知和決策能力，我們現(xiàn)在的技術(shù)方向，就是讓機(jī)器不斷與我們?nèi)祟?lèi)對(duì)齊，持續(xù)進(jìn)化，最終真正為人類(lèi)所用。

在這樣的過(guò)程中，聯(lián)匯科技始終以用戶(hù)為中心，不斷進(jìn)化能力、迭代產(chǎn)品、開(kāi)放生態(tài)，推動(dòng)降低人工智能使用門(mén)檻，加速推動(dòng)普惠 AI 賦能千行百業(yè)。

在 AGI 時(shí)代來(lái)臨之際，人工智能的范式變革正在加速，曾經(jīng)的故事正在成為現(xiàn)實(shí)。

免責(zé)聲明：本站刊登/轉(zhuǎn)載此文僅出于傳遞更多信息之目的，不等于贊同其觀點(diǎn)或論證其描述，不負(fù)責(zé)其真實(shí)性或有效性，相關(guān)圖文版權(quán)歸原作者所有。

新聞中心

聯(lián)匯科技發(fā)布自主智能體 OmBot 歐姆智能體及 OmBot OS 操作系統(tǒng)

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)