嘿,大家好!這里是專注于前沿 AI 和智能體的頻道~ Agent爆火,催生了一大堆的Agent協(xié)議。剛好有一篇綜述,進行了全面的對比分析,今天給家人們分享一下具體內(nèi)容。  什么是 LLM Agent 和 Agent Protocol?首先快速過一下基礎概念。LLM Agent 不僅僅是能生成文本的大模型,它們更像是能自主決策、有記憶、會規(guī)劃、還能調(diào)用外部工具(比如 API、數(shù)據(jù)庫)來完成任務的智能系統(tǒng)。一個典型的 LLM Agent 通常包含:基礎模型 (Foundation Model) 提供核心的理解和推理能力;記憶系統(tǒng) (Memory Systems) 分短期和長期,保證對話連貫和知識積累;規(guī)劃能力 (Planning) 把復雜任務拆解成小步驟;工具使用 (Tool-Using) 調(diào)用外部 API 或工具來彌補自身能力的不足;以及行動執(zhí)行 (Action Execution) 與環(huán)境進行實際交互。 而 Agent Protocol 就是一套標準化的規(guī)則、格式和流程,用來規(guī)范 Agent 之間以及 Agent 與外部系統(tǒng)(如數(shù)據(jù)、工具)的溝通。相比傳統(tǒng)的 API、GUI 或 XML 交互方式,Agent Protocol 在效率、操作范圍、標準化和 AI 原生性上都有明顯優(yōu)勢,是構建復雜、動態(tài)、可擴展 Agent 生態(tài)系統(tǒng)的關鍵。它們就像 Agent 世界的通用語言,能打破不同廠商、不同架構 Agent 之間的壁壘,實現(xiàn)互操作性、安全治理,甚至催生出超越單個 Agent 能力的集體智能。 Agent 互聯(lián)網(wǎng)生態(tài)系統(tǒng)的分層架構Agent Protocol :如何分類?面對五花八門的 Agent Protocol,這篇綜述首次提出了一個清晰的二維分類框架: - 按交互對象 (Object Orientation):分為 Context-Oriented (面向上下文) 和 Inter-Agent (面向 Agent 間) 兩種。
- 按應用場景 (Application Scenario):分為 General-Purpose (通用) 和 Domain-Specific (特定領域) 兩種。
 面向上下文的協(xié)議 (Context-Oriented Protocols)這類協(xié)議主要解決 Agent 如何從外部世界(數(shù)據(jù)、工具、服務)獲取完成任務所需信息(上下文)的問題。以前主要靠針對特定模型微調(diào)函數(shù)調(diào)用能力,但缺乏標準導致接口五花八門,開發(fā)維護成本高。 - 通用協(xié)議代表:MCP (Model Context Protocol) 由 Anthropic 提出,目標是建立一個連接 LLM Agent 和外部資源的通用、開放標準。它采用 Client-Server 架構,將工具調(diào)用與 LLM 響應解耦,解決了不同模型和工具提供商帶來的碎片化問題,提高了集成性、可擴展性和安全性(比如避免敏感信息直接暴露給云端 LLM)。
- 特定領域協(xié)議:agents.json 這是一個開源的、機器可讀的規(guī)范,構建在 OpenAPI 之上,讓網(wǎng)站可以聲明 AI Agent 兼容的接口、認證和多步工作流,方便 Agent 理解和調(diào)用網(wǎng)站 API。
面向 Agent 間的協(xié)議 (Inter-Agent Protocols)隨著任務越來越復雜,單個 Agent 能力有限,多 Agent 協(xié)作成為趨勢。這類協(xié)議就是為了規(guī)范 Agent 之間的溝通、發(fā)現(xiàn)和協(xié)作。 - **ANP (Agent Network Protocol)**:由開源社區(qū)推動,愿景是構建一個開放、安全、高效的 Agent 互聯(lián)網(wǎng)絡('Internet of Agents'),使用 W3C DID 進行身份認證,并有元協(xié)議層讓 Agent 能自主協(xié)商溝通方式。
- **A2A (Agent-to-Agent)**:Google 提出,面向企業(yè)級 Agent 協(xié)作,強調(diào)簡單性(復用 HTTP/JSON-RPC/SSE)、企業(yè)級就緒(安全、可追溯)、異步優(yōu)先和多模態(tài)支持。
- **AITP (Agent Interaction & Transaction Protocol)**:NEAR 提出,利用區(qū)塊鏈技術,專注于跨信任邊界的 Agent 安全通信、協(xié)商和價值交換。
- **AConP (Agent Connect Protocol)**:Cisco 提出,定義了一套標準的 API 來調(diào)用和配置 Agent,主要關注 Agent 的生命周期管理。
- **AComP (Agent Communication Protocol)**:IBM 提出,旨在標準化實用的通信功能,促進自動化和協(xié)作,目前還在設計階段。
- Agora:牛津大學提出,試圖解決 Agent 通信中的“三難困境”(多樣性、效率、可移植性),讓 LLM Agent 能根據(jù)場景自主協(xié)商和選擇通信協(xié)議(結構化協(xié)議、LLM 生成的例程、自然語言)。
 - 特定領域協(xié)議:針對特定場景進行優(yōu)化。
- 人機交互 (Human-Agent):如 PXP 協(xié)議促進人與 Agent 之間的可理解交互;LOKA 協(xié)議構建去中心化的身份、問責和倫理框架。
- 機器人-Agent 交互 (Robot-Agent):如 CrowdES 用于模擬真實人群行為,供機器人交互;SPPs 用于匿名機器人間的分布式定位。
- 系統(tǒng)-Agent 交互 (System-Agent):如 LMOS 提供構建 Agent 互聯(lián)網(wǎng)的基礎架構;Agent Protocol 定義了控制臺與 Agent 交互的通用標準。
一個有意思的觀點是,面向上下文和面向 Agent 間的協(xié)議可能正在趨同。可以把工具看作低自主性 Agent,而其他 Agent 也可以看作高自主性的“工具”。未來這兩類協(xié)議可能會更加融合。 如何評價一個 Agent Protocol?評價協(xié)議不能只看當前功能,因為它們迭代很快(比如 MCP 就快速增加了 HTTP 支持和認證)。這篇綜述借鑒了互聯(lián)網(wǎng)協(xié)議的評估經(jīng)驗,提出了七個關鍵維度:  - 效率 (Efficiency):通信速度快、資源消耗少。關注延遲、吞吐量、資源利用率(包括 LLM 的 token 消耗)。
- 可擴展性 (Scalability):隨著 Agent/工具/網(wǎng)絡規(guī)模增長,性能是否穩(wěn)定。關注節(jié)點擴展、鏈路擴展、能力協(xié)商的效率。
- 安全性 (Security):可信交互,包括身份認證、訪問控制、數(shù)據(jù)保護。關注認證方式多樣性、權限控制粒度、上下文脫敏機制。
- 可靠性 (Reliability):通信穩(wěn)定、準確、容錯。關注丟包重傳、流量和擁塞控制、持久連接。
- 可擴展性 (Extensibility):能否在不破壞兼容性的前提下增加新功能。關注向后兼容性、靈活性、定制與擴展能力。
- 可操作性 (Operability):協(xié)議實現(xiàn)、管理和集成的難易程度。關注代碼量、部署配置復雜度、可觀察性。
- 互操作性 (Interoperability):能否在不同平臺、系統(tǒng)、網(wǎng)絡環(huán)境間無縫通信。關注跨系統(tǒng)/瀏覽器兼容性、跨網(wǎng)絡/平臺適應性。
論文還通過 MCP 的版本迭代和從 MCP 到 ANP/A2A 的演化案例,說明了協(xié)議在實踐中是如何平衡功能、性能和安全等多個目標的。 實戰(zhàn)為了更直觀地理解不同協(xié)議,綜述里邊用了一個“規(guī)劃 5 天北京到紐約旅行”的案例對比了 MCP, A2A, ANP 和 Agora:  - MCP:像個大總管。一個中央 Agent (MCP Travel Client) 負責調(diào)用所有外部服務(機票、酒店、天氣),然后匯總信息生成計劃。優(yōu)點是簡單可控,缺點是中心化依賴高,不易擴展。
- A2A:像個部門協(xié)作。任務被分配給專門的 Agent(交通、住宿、活動),這些 Agent 可以直接相互溝通(比如機票 Agent 直接問天氣 Agent 獲取信息),最后由一個協(xié)調(diào)者匯總。更靈活,適合企業(yè)內(nèi)復雜協(xié)作。
- ANP:像跨公司合作。不同領域的 Agent(航空公司、酒店、天氣網(wǎng)站)通過標準化的協(xié)議進行跨域交互和協(xié)商。適合獨立 Agent 之間基于明確接口的協(xié)作。
- Agora:像個智能翻譯官。先用自然語言理解用戶需求,然后生成標準化的協(xié)議分發(fā)給各個專業(yè) Agent(機票、酒店、天氣、預算)。將自然語言處理與 Agent 執(zhí)行分離,適應性強。
這個案例展示了不同協(xié)議的設計哲學和適用場景:MCP 適合流程固定的任務;A2A 適合需要靈活內(nèi)部協(xié)作的場景;ANP 擅長跨域標準化交互;Agora 則聚焦于從自然語言到協(xié)議的智能轉(zhuǎn)換。 未來展望:Agent Protocol 路向何方?Agent Protocol 的發(fā)展才剛剛開始,未來充滿想象空間: - 短期 (From Static to Evolvable):
- 隱私保護協(xié)議將越來越重要,如何在協(xié)作中保護敏感數(shù)據(jù)是個關鍵問題。
- 可能出現(xiàn)Agent Mesh Protocol,支持群組通信,提高協(xié)作效率。
- 可演化協(xié)議,讓 Agent 能像學習技能一樣學習、組合甚至創(chuàng)造協(xié)議。
- 中期 (From Rules to Ecosystems):
- 將協(xié)議知識內(nèi)置到 LLM 參數(shù)中,讓 Agent “天生就會”遵循協(xié)議,但這會犧牲一些靈活性。
- 分層協(xié)議架構,類似網(wǎng)絡協(xié)議棧,解耦不同層面的通信關注點,提高模塊化和互操作性。
- 長期 (From Protocols to Intelligence Infrastructure):
- 探索大規(guī)模 Agent 網(wǎng)絡中的集體智能涌現(xiàn)和Scaling Laws。
- 可能誕生專門的Agent 數(shù)據(jù)網(wǎng)絡 (ADN),作為優(yōu)化 Agent 間通信和協(xié)調(diào)的基礎設施。
綜述地址:https:///pdf/2504.16736v2
|