微軟亞研院新作：讓大模型一口氣調用數百萬個 API

作者：時間：2024-03-28 來源：量子位

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

近年來，人工智能發(fā)展迅速，尤其是像 ChatGPT 這樣的基礎大模型，在對話、上下文理解和代碼生成等方面表現出色，能夠為多種任務提供解決方案。

本文引用地址：http://2s4d.com/article/202403/456948.htm

但在特定領域任務上，由于專業(yè)數據的缺乏和可能的計算錯誤，它們的表現并不理想。同時，雖然已有一些專門針對特定任務的 AI 模型和系統(tǒng)表現良好，但它們往往不易與基礎大模型集成。

為了解決這些重要問題，TaskMatrix.AI 破繭而出、應運而生，這是由微軟（Microsoft）設計發(fā)布的新型 AI 生態(tài)系統(tǒng)。

其核心技術近期在《科學》合作期刊 Intelligent Computing 上發(fā)表的論文 TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs 中正式亮相，作者為微軟亞洲研究院的段楠博士團隊：

微軟亞研院新作：讓大模型一口氣調用數百萬個 API

（詳見鏈接：https://spj.science.org/doi/10.34133/icomputing.0063）

TaskMatrix.AI 將基礎大模型與數以百萬計的應用程序編程接口（APIs）連接起來完成任務。

其核心思想是利用現有的基礎大模型作為類似大腦的中央系統(tǒng)，結合其他 AI 模型和系統(tǒng)的 APIs 作為各種子任務解決者，以完成數字和物理領域的多樣化任務。

圖由 DALL?E 3 生成

▲ 圖由 DALL?E 3 生成

TaskMatrix.AI 如何工作？

TaskMatrix.AI 的整體架構由以下四個關鍵組件構成：

多模態(tài)對話基礎模型（MCFM）：負責與用戶溝通，理解他們的目標和上下文（多模態(tài)），并基于 API 生成可執(zhí)行代碼以完成特定任務。MCFM 能夠處理文本、圖像、視頻、音頻和代碼等多模態(tài)輸入，生成執(zhí)行特定任務的代碼。它還能夠從用戶指令中提取具體任務，并提出合理的解決方案大綱，幫助選擇最合適的 API 進行代碼生成。
API 平臺：提供一個統(tǒng)一的 API 文檔架構，用于存儲數以百萬計具有不同功能的 API，并允許 API 開發(fā)者和所有者注冊、更新和刪除他們的 API。API 平臺通過統(tǒng)一的文檔架構幫助 MCFM 更好地理解和利用各種 API。
API 選擇器：根據 MCFM 對用戶指令的理解，推薦相關的 API。API 選擇器具備搜索能力，能夠在擁有大量 API 的平臺上快速定位到與任務需求和解決方案大綱相匹配的 API。
API 執(zhí)行器：通過調用相關 API 執(zhí)行生成的動作代碼，并返回中間和最終的執(zhí)行結果。API 執(zhí)行器設計用于運行各種 API，包括從簡單的 HTTP 請求到復雜的算法或需要多個輸入參數的 AI 模型。

以上四個組件協(xié)同工作，共同構建了一個高效的系統(tǒng)。MCFM 作為用戶交互的主要接口，負責生成解決方案。API 平臺則提供了一個標準化的 API 文檔格式，并作為一個集中存儲庫，容納了數百萬 API。API 選擇器根據 MCFM 對用戶需求的理解，從 API 平臺中選取合適的 API。

最后，API 執(zhí)行器負責執(zhí)行由選定 API 生成的代碼，并解決任務。

微軟亞研院新作：讓大模型一口氣調用數百萬個 API

此外，TaskMatrix.AI 還提供了兩個可學習的機制，以更有效地將 MCFM 與 API 對齊：

基于人類反饋的強化學習（RLHF）：這是一種基礎大模型的通用技術，它使用強化學習方法，利用人類反饋來優(yōu)化機器學習模型。在 TaskMatrix.AI 中，RLHF 利用這些反饋來增強 MCFM 和 API 選擇器，從而在處理復雜任務時實現更快的收斂和更好的性能。
向 API 開發(fā)者提供反饋：TaskMatrix.AI 完成任務后，會將用戶反饋以適當的方式傳遞給 API 開發(fā)者，指示他們的 API 是否成功用于完成任務。這種包含 <用戶指令、API 調用和用戶反饋> 的三元組不僅展示特定 API 的使用情況，還可以作為 API 開發(fā)者改進 API 文檔的參考，使文檔對 MCFM 和 API 選擇器更加友好和易于理解。

因此，TaskMatrix.AI 可以被視為一個超級 AI，同時也是一個生態(tài)系統(tǒng)，具有以下關鍵優(yōu)勢：

能夠通過使用基礎大模型作為核心系統(tǒng)，首先理解不同類型的多模態(tài)輸入（如文本、圖像、視頻、音頻和代碼），然后生成調用 API 完成任務的代碼，來執(zhí)行各種數字和物理任務。
擁有一個 API 平臺，作為各種任務專家的存儲庫。該平臺上的所有 API 都有一致的文檔格式，這使得基礎大模型可以輕松使用它們，開發(fā)者也便于添加新的 API。
具有強大的終身學習能力，因為它的技能可以通過向 API 平臺添加具有特定功能的新 API 來擴展，以處理新任務。
能夠提供更加可解釋的響應，因為任務解決邏輯（即行動代碼）和 API 的結果都是可理解的。

TaskMatrix.AI 能完成什么任務？

TaskMatrix.AI 能完成的任務非常廣泛，小到文字、圖像信息的基本信息處理，大到控制機器人平臺、接入物聯(lián)網（IoT）等通用平臺任務，TaskMatrix 都能勝任。

圖像處理任務

TaskMatrix.AI 可以執(zhí)行圖像處理任務，并且能夠接受語言和圖像作為輸入。下圖展示了 TaskMatrix.AI 的相關版本 Visual ChatGPT，它不僅能夠理解人類意圖，還能處理語言和圖像輸入，以完成包括圖像生成、問題回答和編輯在內的復雜視覺任務。

微軟亞研院新作：讓大模型一口氣調用數百萬個 API

下圖展示了使用多個 API 協(xié)作生成高分辨率圖像的示例。在該例中，解決方案框架由 3 個 API 組成：圖像問答、圖像標題以及圖像對象替換。

左側框線部分展示了解決方案框架如何協(xié)助將圖像擴展至 2048×4096 分辨率。通過迭代執(zhí)行框架中的預定義步驟，TaskMatrix.AI 可以生成任何所需尺寸的高分辨率圖像。

微軟亞研院新作：讓大模型一口氣調用數百萬個 API

辦公自動化

TaskMatrix.AI 能夠通過語音指令理解并自動執(zhí)行計算機操作系統(tǒng)、專業(yè)軟件以及智能手機應用的操作。利用 TaskMatrix.AI，可以快速上手復雜軟件。

此外，它還能幫助用戶在不進行搜索的情況下直接訪問所需功能。以下是一個 PowerPoint 自動化的實例，TaskMatrix.AI 能夠根據用戶指定的主題自動生成幻燈片，智能調整內容布局，插入和優(yōu)化圖像，并應用相應的設計主題，從而顯著提升工作效率。

微軟亞研院新作：讓大模型一口氣調用數百萬個 API

機器人和物聯(lián)網設備控制

TaskMatrix.AI 可以連接機器人和物聯(lián)網設備，實現對體力勞動和智能家居操作的自動化管理。通過集成先進的機器人技術，TaskMatrix.AI 能夠執(zhí)行一系列任務，如物體的拾取與放置以及對家庭物聯(lián)網設備的智能控制。

此外，該平臺還整合了多種流行的互聯(lián)網服務，包括但不限于日歷 API、天氣 API 和新聞 API，提供了更加豐富和便捷的用戶體驗。

微軟亞研院新作：讓大模型一口氣調用數百萬個 API

TaskMatrix.AI 的挑戰(zhàn)

盡管 TaskMatrix.AI 已經在各種任務中證明了其強大的功能和通用性，但仍面臨以下幾個挑戰(zhàn)：

多模態(tài)會話基礎大模型：TaskMatrix.AI 需要一個能夠處理多種輸入（文本、圖像、視頻、音頻和代碼）的強大基礎大模型。這個模型需要能夠從上下文中學習，使用常識進行推理和計劃，并生成高質量的代碼來完成任務。此外由于 TaskMatrix.AI 需要處理更多樣化的輸入模式，這要求確定一個最小模式集來訓練 MCFM。
API 平臺：構建和維護一個包含數百萬 API 的平臺需要解決文檔生成、API 質量保證和 API 創(chuàng)建建議等挑戰(zhàn)。API 文檔的清晰性和 API 的質量對于 TaskMatrix.AI 的成功至關重要。此外，平臺還需要根據用戶反饋指導 API 開發(fā)者創(chuàng)建新的 API 來解決特定任務。
API 調用：在處理大量 API 時，TaskMatrix.AI 需要能夠合理選擇和推薦相關的 API 來完成任務。此外還涉及到在線規(guī)劃，即在無法立即生成解決方案時，與用戶交互并嘗試不同的解決方案。
安全和隱私：在 API 能夠訪問物理和數字世界時，確保模型忠實于用戶指令并保持數據私密性是至關重要的。這要求在執(zhí)行操作前驗證模型的行為，并確保數據傳輸的安全性和數據訪問的授權。
個性化：TaskMatrix.AI 需要個性化策略來幫助開發(fā)者構建定制的 AI 界面，并為用戶提供私人助理。這包括降低擴展成本和使用少量示例來學習用戶的偏好，以便生成符合用戶需求的解決方案。

關于 Intelligent Computing

Intelligent Computing 由之江實驗室和美國科學促進會（AAAS）共同創(chuàng)辦，是《科學》合作期刊框架中智能計算領域的第一本開放獲?。∣pen Access）國際期刊。期刊以「面向智能的計算、智能驅動的計算」以及「智能、數據與計算驅動的科學發(fā)現」為主題，主要刊載原創(chuàng)研究論文、綜述論文和觀點論文。

新聞中心

微軟亞研院新作：讓大模型一口氣調用數百萬個 API

TaskMatrix.AI 如何工作？