Agent 生態(tài)爆發(fā)前夜：一文讀懂《AI Agent Protocols》(含 7 大類型未來趨勢)

mrjiangkai 2025-05-22

展開全文

嘿，大家好！這里是專注于前沿 AI 和智能體的頻道~

Agent爆火，催生了一大堆的Agent協(xié)議。剛好有一篇綜述，進行了全面的對比分析，今天給家人們分享一下具體內(nèi)容。

什么是 LLM Agent 和 Agent Protocol？

首先快速過一下基礎概念。LLM Agent 不僅僅是能生成文本的大模型，它們更像是能自主決策、有記憶、會規(guī)劃、還能調(diào)用外部工具（比如 API、數(shù)據(jù)庫）來完成任務的智能系統(tǒng)。一個典型的 LLM Agent 通常包含：基礎模型 (Foundation Model) 提供核心的理解和推理能力；記憶系統(tǒng) (Memory Systems) 分短期和長期，保證對話連貫和知識積累；規(guī)劃能力 (Planning) 把復雜任務拆解成小步驟；工具使用 (Tool-Using) 調(diào)用外部 API 或工具來彌補自身能力的不足；以及行動執(zhí)行 (Action Execution) 與環(huán)境進行實際交互。

而 Agent Protocol 就是一套標準化的規(guī)則、格式和流程，用來規(guī)范 Agent 之間以及 Agent 與外部系統(tǒng)（如數(shù)據(jù)、工具）的溝通。相比傳統(tǒng)的 API、GUI 或 XML 交互方式，Agent Protocol 在效率、操作范圍、標準化和 AI 原生性上都有明顯優(yōu)勢，是構建復雜、動態(tài)、可擴展 Agent 生態(tài)系統(tǒng)的關鍵。它們就像 Agent 世界的通用語言，能打破不同廠商、不同架構 Agent 之間的壁壘，實現(xiàn)互操作性、安全治理，甚至催生出超越單個 Agent 能力的集體智能。

Agent 互聯(lián)網(wǎng)生態(tài)系統(tǒng)的分層架構

Agent Protocol ：如何分類？

面對五花八門的 Agent Protocol，這篇綜述首次提出了一個清晰的二維分類框架：

按交互對象 (Object Orientation)：分為 Context-Oriented (面向上下文) 和 Inter-Agent (面向 Agent 間) 兩種。
按應用場景 (Application Scenario)：分為 General-Purpose (通用) 和 Domain-Specific (特定領域) 兩種。

面向上下文的協(xié)議 (Context-Oriented Protocols)

這類協(xié)議主要解決 Agent 如何從外部世界（數(shù)據(jù)、工具、服務）獲取完成任務所需信息（上下文）的問題。以前主要靠針對特定模型微調(diào)函數(shù)調(diào)用能力，但缺乏標準導致接口五花八門，開發(fā)維護成本高。

通用協(xié)議代表：MCP (Model Context Protocol) 由 Anthropic 提出，目標是建立一個連接 LLM Agent 和外部資源的通用、開放標準。它采用 Client-Server 架構，將工具調(diào)用與 LLM 響應解耦，解決了不同模型和工具提供商帶來的碎片化問題，提高了集成性、可擴展性和安全性（比如避免敏感信息直接暴露給云端 LLM）。
特定領域協(xié)議：agents.json 這是一個開源的、機器可讀的規(guī)范，構建在 OpenAPI 之上，讓網(wǎng)站可以聲明 AI Agent 兼容的接口、認證和多步工作流，方便 Agent 理解和調(diào)用網(wǎng)站 API。

面向 Agent 間的協(xié)議 (Inter-Agent Protocols)

隨著任務越來越復雜，單個 Agent 能力有限，多 Agent 協(xié)作成為趨勢。這類協(xié)議就是為了規(guī)范 Agent 之間的溝通、發(fā)現(xiàn)和協(xié)作。

通用協(xié)議群雄逐鹿：

**ANP (Agent Network Protocol)**：由開源社區(qū)推動，愿景是構建一個開放、安全、高效的 Agent 互聯(lián)網(wǎng)絡（'Internet of Agents'），使用 W3C DID 進行身份認證，并有元協(xié)議層讓 Agent 能自主協(xié)商溝通方式。
**A2A (Agent-to-Agent)**：Google 提出，面向企業(yè)級 Agent 協(xié)作，強調(diào)簡單性（復用 HTTP/JSON-RPC/SSE）、企業(yè)級就緒（安全、可追溯）、異步優(yōu)先和多模態(tài)支持。
**AITP (Agent Interaction & Transaction Protocol)**：NEAR 提出，利用區(qū)塊鏈技術，專注于跨信任邊界的 Agent 安全通信、協(xié)商和價值交換。
**AConP (Agent Connect Protocol)**：Cisco 提出，定義了一套標準的 API 來調(diào)用和配置 Agent，主要關注 Agent 的生命周期管理。
**AComP (Agent Communication Protocol)**：IBM 提出，旨在標準化實用的通信功能，促進自動化和協(xié)作，目前還在設計階段。
Agora：牛津大學提出，試圖解決 Agent 通信中的“三難困境”（多樣性、效率、可移植性），讓 LLM Agent 能根據(jù)場景自主協(xié)商和選擇通信協(xié)議（結構化協(xié)議、LLM 生成的例程、自然語言）。

特定領域協(xié)議：針對特定場景進行優(yōu)化。

人機交互 (Human-Agent)：如 PXP 協(xié)議促進人與 Agent 之間的可理解交互；LOKA 協(xié)議構建去中心化的身份、問責和倫理框架。
機器人-Agent 交互 (Robot-Agent)：如 CrowdES 用于模擬真實人群行為，供機器人交互；SPPs 用于匿名機器人間的分布式定位。
系統(tǒng)-Agent 交互 (System-Agent)：如 LMOS 提供構建 Agent 互聯(lián)網(wǎng)的基礎架構；Agent Protocol 定義了控制臺與 Agent 交互的通用標準。

一個有意思的觀點是，面向上下文和面向 Agent 間的協(xié)議可能正在趨同。可以把工具看作低自主性 Agent，而其他 Agent 也可以看作高自主性的“工具”。未來這兩類協(xié)議可能會更加融合。

如何評價一個 Agent Protocol？

評價協(xié)議不能只看當前功能，因為它們迭代很快（比如 MCP 就快速增加了 HTTP 支持和認證）。這篇綜述借鑒了互聯(lián)網(wǎng)協(xié)議的評估經(jīng)驗，提出了七個關鍵維度：

效率 (Efficiency)：通信速度快、資源消耗少。關注延遲、吞吐量、資源利用率（包括 LLM 的 token 消耗）。
可擴展性 (Scalability)：隨著 Agent/工具/網(wǎng)絡規(guī)模增長，性能是否穩(wěn)定。關注節(jié)點擴展、鏈路擴展、能力協(xié)商的效率。
安全性 (Security)：可信交互，包括身份認證、訪問控制、數(shù)據(jù)保護。關注認證方式多樣性、權限控制粒度、上下文脫敏機制。
可靠性 (Reliability)：通信穩(wěn)定、準確、容錯。關注丟包重傳、流量和擁塞控制、持久連接。
可擴展性 (Extensibility)：能否在不破壞兼容性的前提下增加新功能。關注向后兼容性、靈活性、定制與擴展能力。
可操作性 (Operability)：協(xié)議實現(xiàn)、管理和集成的難易程度。關注代碼量、部署配置復雜度、可觀察性。
互操作性 (Interoperability)：能否在不同平臺、系統(tǒng)、網(wǎng)絡環(huán)境間無縫通信。關注跨系統(tǒng)/瀏覽器兼容性、跨網(wǎng)絡/平臺適應性。

論文還通過 MCP 的版本迭代和從 MCP 到 ANP/A2A 的演化案例，說明了協(xié)議在實踐中是如何平衡功能、性能和安全等多個目標的。

實戰(zhàn)

為了更直觀地理解不同協(xié)議，綜述里邊用了一個“規(guī)劃 5 天北京到紐約旅行”的案例對比了 MCP, A2A, ANP 和 Agora：

MCP：像個大總管。一個中央 Agent (MCP Travel Client) 負責調(diào)用所有外部服務（機票、酒店、天氣），然后匯總信息生成計劃。優(yōu)點是簡單可控，缺點是中心化依賴高，不易擴展。
A2A：像個部門協(xié)作。任務被分配給專門的 Agent（交通、住宿、活動），這些 Agent 可以直接相互溝通（比如機票 Agent 直接問天氣 Agent 獲取信息），最后由一個協(xié)調(diào)者匯總。更靈活，適合企業(yè)內(nèi)復雜協(xié)作。
ANP：像跨公司合作。不同領域的 Agent（航空公司、酒店、天氣網(wǎng)站）通過標準化的協(xié)議進行跨域交互和協(xié)商。適合獨立 Agent 之間基于明確接口的協(xié)作。
Agora：像個智能翻譯官。先用自然語言理解用戶需求，然后生成標準化的協(xié)議分發(fā)給各個專業(yè) Agent（機票、酒店、天氣、預算）。將自然語言處理與 Agent 執(zhí)行分離，適應性強。

這個案例展示了不同協(xié)議的設計哲學和適用場景：MCP 適合流程固定的任務；A2A 適合需要靈活內(nèi)部協(xié)作的場景；ANP 擅長跨域標準化交互；Agora 則聚焦于從自然語言到協(xié)議的智能轉(zhuǎn)換。