快速瀏覽軟件工程中的代理/生成式AI

作者：時間：2025-07-24 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

代理方法現(xiàn)在很熱門，因為單個 LLM 模型似乎僅限于點工具應(yīng)用。每個這樣的應(yīng)用程序都令人印象深刻，但仍然是我們想要自動化的更復(fù)雜的推理任務(wù)鏈中的一個步驟，代理方法應(yīng)該在其中大放異彩。我一直聽說軟件工程 （SWE）團隊在 AI 采用方面比硬件團隊進步得更快，因此認為對狀態(tài)進行快速現(xiàn)實檢查會很有用。本著這個想法的精神，我使用 Gemini Deep Research 來尋找本文的來源，有選擇地抽樣它提供的一些調(diào)查，同時添加一些我自己的發(fā)現(xiàn)。我的快速總結(jié)是，首先，什么算作進步取決于應(yīng)用：基于便利性的使用模型在今天更容易實現(xiàn)，精確的使用模型也是可能的，但更有限。其次，在自動化子任務(wù)方面，進步更為明顯，這些子任務(wù)受制于交叉檢查和人工監(jiān)控的自然框架，而不是免提的全面 SWE 目標(biāo)。

自動化帶來便利

一篇有趣的論文建議，我們應(yīng)該從出于方便需求的應(yīng)用程序轉(zhuǎn)向基于提示的查詢，以服務(wù)于相同的目標(biāo)。原則上，這種方法比應(yīng)用程序做得更好，因為基于提示的系統(tǒng)消除了應(yīng)用程序開發(fā)的需要，可以通過我們都使用的語言進行控制，而不需要神秘的人機界面，并且可以更容易地適應(yīng)需求的變化。

有效的提示工程可能仍然比我們希望的更像一門藝術(shù)，但作者建議我們可以學(xué)習(xí)如何變得更有效，并且（我的解釋）也許我們只需要學(xué)習(xí)一次這項技能，而不是為每個獨特的應(yīng)用程序?qū)W習(xí)。

即使是技術(shù)工程師也需要這種支持，不是在深度開發(fā)或分析中，而是在常規(guī)但重要的問題上：“還有誰在使用這個功能，最近使用它是什么時候，其他人看到了什么問題？傳統(tǒng)上，這些問題可能可以通過幫助庫或內(nèi)部數(shù)據(jù)管理應(yīng)用程序來回答，但是如果您想將問題與該應(yīng)用程序范圍之外的其他來源或約束交叉怎么辦？在硬件開發(fā)中，想象一下，如果您可以對所有設(shè)計數(shù)據(jù)（規(guī)范、用例、源代碼、日志、波形、修訂等）進行基于提示的搜索，那么發(fā)現(xiàn)能力會有多大。

自動化精密開發(fā)

本文描述了一個代理系統(tǒng)，用于開發(fā)相當(dāng)復(fù)雜的功能，包括人臉識別系統(tǒng)、聊天機器人系統(tǒng)、口罩檢測工具、蛇游戲、計算器和井字游戲，使用基于LLM的代理系統(tǒng)進行管理、代碼生成、優(yōu)化、QA、迭代細化和最終驗證。它聲稱與標(biāo)準(zhǔn)基準(zhǔn)相比代碼準(zhǔn)確率為 85% 或更高，可在幾分鐘內(nèi)構(gòu)建和測試這些系統(tǒng)。在 85% 的準(zhǔn)確率下，我們?nèi)匀槐仨氉裱跏即a，開發(fā)人員努力驗證和糾正生產(chǎn)質(zhì)量。但假設(shè)這種準(zhǔn)確性水平是可重復(fù)的，那么不難相信，即使經(jīng)過幾周或幾個月的開發(fā)人員測試和改進，在不損失質(zhì)量的情況下生產(chǎn)力的凈收益也可以是相當(dāng)可觀的。

另一篇論文指出，在 SWE 中，自動開發(fā)的代碼仍然存在信任問題。然而，他們補充說，大多數(shù)大規(guī)模軟件開發(fā)更多的是從多個來源組裝代碼，而不是從頭開始開發(fā)代碼。這將信任問題變成了您可以信任多少組件和組件。我猜他們認為 DevOps 中的組裝相對微不足道，但在硬件設(shè)計中，SoC 級組裝（甚至多芯片系統(tǒng)組裝）更復(fù)雜，盡管仍然主要是機械的而不是創(chuàng)造性的。出錯的范圍肯定比從頭開始創(chuàng)建一個全新的函數(shù)要有限。我知道十多年前有一個基于人工智能的系統(tǒng)，它可以為 SoC 創(chuàng)建大部分集成基礎(chǔ)設(shè)施——時鐘、復(fù)位、中斷、總線結(jié)構(gòu)等。這早在我們聽說法學(xué)碩士和代理之前。

同時，代理/生成式人工智能不僅對代碼開發(fā)有用。工具似乎可以自動化測試設(shè)計、生成和執(zhí)行、調(diào)試以及更普遍的 DevOps。其中許多系統(tǒng)實際上相互交叉檢查，并輔以人工監(jiān)督。錯誤可能會發(fā)生，但可能不會比在無人工智能系統(tǒng)中更嚴重。

方便、精確還是兩者兼而有之？

工程師癡迷于精度，尤其是在人工智能方面。但我們一天中所做的大部分事情都不需要精確。如果我們能快速得到“足夠好”的答案，它們就可以了。搜索、總結(jié)電子郵件或論文中的要點、生成文檔初稿，這些都是我們依賴（或希望）快速且“足夠好”的首次通過的便利性的領(lǐng)域。另一方面，在某些情況下，精度至關(guān)重要。對于金融交易、噴氣發(fā)動機建模、邏輯仿真，我們希望得到最準(zhǔn)確的答案，而“足夠好”是不夠好的。

即便如此，精密應(yīng)用仍然具有優(yōu)勢。如果人工智能能夠非?？欤◣追昼姡┨峁┮粋€足夠好的起點，并且如果我們能夠通過接受超越該起點的改進和驗證的需求來管理我們的期望，那么縮短時間表和減少工作量的凈收益可能是值得投資的。只要您能對人工智能系統(tǒng)可以提供的質(zhì)量建立信任。

順便說一句，我自己的經(jīng)驗（我在 Gemini、Perplexity 和 Chat GPT 中嘗試了深度研究（DR）選項）支持了我的結(jié)論。每個 DR 分析在 ~10 分鐘內(nèi)出現(xiàn)，對我來說主要是他們提供的參考資料而不是 DR 摘要。其中一些參考資料對我來說是新的，有些我已經(jīng)知道了。如果我的研究純粹是為了我自己的興趣，這可能就足夠了。但我想更準(zhǔn)確，因為我的目標(biāo)是提供可靠的見解，所以我也通過更傳統(tǒng)的在線圖書館尋找其他參考資料。事實證明，結(jié)合這兩種方法是富有成效的！