7月18日消息,OpenAI CEO 奧特曼(Sam Altman)帶隊直播25分鐘發(fā)布“ChatGPT Agent”,首個統(tǒng)一智能體,大大提升了ChatGPT處理現(xiàn)實世界任務需求的能力。
例如,通過ChatGPT Agent,可以讓ChatGPT處理以下請求:“查看我的日歷,并根據(jù)最新消息簡要介紹即將召開的客戶會議”、“計劃和購買食材,為四人做日式早餐”以及“分析三個競爭對手并創(chuàng)建幻燈片”。ChatGPT將智能地瀏覽網(wǎng)站、過濾結(jié)果、在需要時提示你安全登錄、運行代碼、進行分析,甚至提供可編輯的PPT、Excel,總結(jié)其分析結(jié)果。
奧特曼稱:“ChatGPT Agent使用計算機執(zhí)行復雜任務,對自己來說是一個真正感受AGI的時刻。”
即日起,專業(yè)版(Pro)、增強版(Plus)和團隊版(Team)ChatGPT 用戶都可使用ChatGPT Agent。
ChatGPT Agent的使用入口沒變,還是在ChatGPT原頁面,“工具”下拉選擇“Agent mode”即可。
融合三大能力,PPT比人做得好
今年1月,OpenAI發(fā)布了首個智能體Operator,讓AI像人類一樣直接與GUI交互,可以自主上網(wǎng)、點擊和輸入。
Operator推出2周后,OpenAI又推出了首個Deep Research,推理模型直接可以使用工具,開展研究,擅長分析和總結(jié)信息。
現(xiàn)在,ChatGPT Agent融合了此前三大技術突破的優(yōu)勢:Operator與網(wǎng)站交互的能力,Deep Research整合信息的技巧,以及ChatGPT智能對話優(yōu)勢。
“Agent mode”下的ChatGPT可以直接使用用戶的計算機資源,包括智能瀏覽網(wǎng)頁、篩選結(jié)果,在需要時提醒安全登錄、運行代碼、進行分析,還能直出PPT和Excel匯總發(fā)現(xiàn)結(jié)果。
為了展示ChatGPT Agent能力,團隊演示了一個真實場景:上傳一張團隊吉祥物圖片,ChatGPT 可以制作公司吉祥物漫畫風貼紙,然后再訂購500張并送到某個地址。
在理解提示詞后,ChatGPT 先整合搜索-再推理創(chuàng)作-再執(zhí)行任務,調(diào)用用工具Imagen生成動漫版圖片,設計貼紙,最后從StickerMule訂購500份寄到的用戶指定的地址。
另外,團隊還演示了ChatGPT Agent做PPT的能力。
要求ChatGPT從Google云中提取分析評估數(shù)據(jù)并制作成PPT,直接用圖表展示結(jié)果。
ChatGPT Agent 鏈接Google云API進行搜索,并讀取相關內(nèi)容信息,并編寫一些代碼。
模型使用圖像生成功能,為PPT 圖表做一些裝飾和優(yōu)化。
制作出第一張PPT,還不夠精致。
強化學習的一個關鍵特性是模型會審視自己的結(jié)果,并加以完善,以交付出色的最終結(jié)果。
最終,ChatGPT Agent調(diào)用模型生成了PPT圖表。
ChatGPT Agent “跑分”情況
在網(wǎng)頁瀏覽、現(xiàn)實任務完成能力的評估中,ChatGPT Agent全部刷新了SOTA。
在人類最后考試(HLE)中,ChatGPT Agent以41.6%的得分,刷新了最高紀錄。當研究團隊采用并行策略后,即同時運行最多8次并選取自信度最高結(jié)果,HLE得分直接刷到了44.4%。
在最難的數(shù)學基準測試FrontierMath中,通過使用工具,如訪問終端執(zhí)行代碼,ChatGPT Agent的準確率達到27.4%,遠遠優(yōu)于之前的o3和o4-mini兩種模型。
在旨在評估模型在復雜、經(jīng)濟上有價值的知識工作任務上的性能的內(nèi)部基準上,ChatGPT Agent的輸出大約有一半的情況下與人類相當或更好,同時明顯優(yōu)于o3和o4 mini。
在評估數(shù)據(jù)科學生產(chǎn)力任務的DSBench中,ChatGPT Agent顯著超越了人類表現(xiàn)。
在Excel編輯能力的SpreadsheetBench測試中,當能夠直接編輯電子表格時,ChatGPT Agent的得分甚至更高,為45.5%,而Excel中的Copilot為20.0%。
在投行分析師1-3年級建模任務的內(nèi)部評估中,ChatGPT Agent表現(xiàn)優(yōu)于Deep Research和o3模型。
在OpenAI發(fā)布的BrowseComp基準測試(衡量瀏覽代理在網(wǎng)絡上定位難以找到的信息的能力),ChatGPT Agent以68.9%的準確率成為新SOTA,比Deep Research高出17.4%。
最后,關于WebArena?(在新窗口中打開),這是一個旨在評估網(wǎng)絡瀏覽代理在完成現(xiàn)實世界網(wǎng)絡任務方面的性能的基準測試,ChatGPT Agent比基于o3的CUA(為Operator提供動力的模型)有所改進。
AI Agent三維競爭格局形成
2025年是全球AI Agent技術爆發(fā)元年,行業(yè)從基礎大模型競爭全面轉(zhuǎn)向智能體落地,競爭格局呈現(xiàn)多層級分化。
在通用領域,今年年初,中國團隊開發(fā)的全球首個通用Agent“Manus”發(fā)布即引發(fā)震撼,6月訪問量達1616萬次。
在垂直領域,就在OpenAI ChatGPT Agent發(fā)布前一天,亞馬遜云科技發(fā)布了企業(yè)級Agent部署平臺Amazon Bedrock AgentCore,提供七大核心服務(如運行時隔離、代碼沙盒、瀏覽器工具),支持8小時異步任務,幫助開發(fā)者打通AI agent從概念驗證到生產(chǎn)部署之間的關鍵環(huán)節(jié)。
隨著OpenAI ChatGPT Agent的強勢加入,當前AI Agent已形成 “通用 vs 垂直”、“端到端 vs 多模型”、“C端工具 vs B端平臺”的三維競爭格局。