8月20日,智譜正式發(fā)布AutoGLM 2.0。該產(chǎn)品由純國(guó)產(chǎn)模型GLM-4.5與GLM-4.5V驅(qū)動(dòng),具備推理、代碼以及多模態(tài)處理能力,可在多種設(shè)備和場(chǎng)景中運(yùn)行,現(xiàn)已面向普通用戶(hù)開(kāi)放。
值得一提的是,與常見(jiàn)的移動(dòng)端AI助手不同,AutoGLM 2.0定位于能夠在設(shè)備上執(zhí)行具體操作的智能體。
AutoGLM 2.0可操作手機(jī)、電腦
AutoGLM是智譜推出的智能體產(chǎn)品,支持一句話(huà)實(shí)現(xiàn)云端操作與自動(dòng)執(zhí)行。據(jù)智譜介紹,過(guò)去的AI多停留在“對(duì)話(huà)”層面,只能回答問(wèn)題;一般的Agent(智能體)助手也多局限于信息查詢(xún)和總結(jié)。AutoGLM 2.0則實(shí)現(xiàn)一大突破,不再只是“說(shuō)”,而是真正能夠“做”,AutoGLM 2.0已經(jīng)成長(zhǎng)為一名執(zhí)行型助手,能夠在云端自主完成多樣化的任務(wù)。
從DEMO演示來(lái)看,在生活場(chǎng)景中,用戶(hù)只需一句話(huà),就能讓AutoGLM操作抖音、小紅書(shū)、美團(tuán)、京東等40多個(gè)高頻應(yīng)用,可以點(diǎn)外賣(mài)、訂機(jī)票、查房源、預(yù)約健康服務(wù),例如幫用戶(hù)買(mǎi)“秋天的第一杯奶茶”。
在辦公場(chǎng)景中,AutoGLM同樣能跨應(yīng)用執(zhí)行全流程工作,從信息檢索到內(nèi)容撰寫(xiě),再到生成1分鐘短視頻、PPT或播客,并直接完成小紅書(shū)發(fā)布。
在AutoGLM 2.0中,智譜為AI配備了專(zhuān)屬云手機(jī)和云電腦。Agent可以在云端自主干活、完成任務(wù),而無(wú)需占用用戶(hù)的本地設(shè)備,其間用戶(hù)可以使用其它APP,如刷抖音、打游戲等。這意味著AutoGLM 2.0不僅能“自動(dòng)駕駛手機(jī)”,還可異步“代理辦公”,讓手機(jī)真正變成具備自主執(zhí)行、跨端協(xié)作能力的智能體手機(jī)。
智譜表示,本次發(fā)布的AutoGLM 2.0偏向C端應(yīng)用,面向普通個(gè)人用戶(hù),融合技術(shù)模型能力與產(chǎn)品形態(tài),解決日常及工作任務(wù),更注重用戶(hù)體驗(yàn),能突破用戶(hù)自身能力邊界,如用戶(hù)不懂的事情可通過(guò)AI完成。
2024年10月,智譜發(fā)布Agent產(chǎn)品AutoGLM,實(shí)現(xiàn)Agent自主代理操作手機(jī)。今年3月31日,智譜宣布發(fā)布全球首個(gè)集深度研究與實(shí)際操作能力于一體的智能體AutoGLM沉思。AutoGLM沉思的不同之處在于,其能夠?qū)崿F(xiàn)“邊想邊干”——具備深度研究能力(Deep Research),同時(shí)能實(shí)現(xiàn)實(shí)際操作(Operator)。
和其他智能體相比,AutoGLM沉思能夠模擬人的思考,尤其是像人一樣的深度研究和反思;能夠像人一樣感知這個(gè)世界;能夠像人一樣使用工具。
智譜CEO張鵬表示,AutoGLM沉思體現(xiàn)了智譜對(duì)智能體的核心理解,即讓機(jī)器不僅能夠思考,還能主動(dòng)行動(dòng),這一能力的實(shí)現(xiàn)依賴(lài)于三個(gè)關(guān)鍵特性:深度思考,模擬人類(lèi)在面對(duì)復(fù)雜問(wèn)題時(shí)的推理與決策過(guò)程;感知世界,像人一樣獲取并理解環(huán)境信息;工具使用,像人一樣調(diào)用和操作工具,完成復(fù)雜任務(wù)。
由純國(guó)產(chǎn)模型驅(qū)動(dòng)
值得一提的是,AutoGLM是首個(gè)純國(guó)產(chǎn)模型驅(qū)動(dòng)的Agent,采用了其自主研發(fā)的最新模型GLM-4.5與GLM-4.5V,具備推理、代碼與多模態(tài)的能力。
據(jù)智譜AutoGLM技術(shù)負(fù)責(zé)人、算法研究員劉瀟介紹,AutoGLM 2.0采用了三大關(guān)鍵技術(shù),一是端到端強(qiáng)化學(xué)習(xí),讓模型通過(guò)最終結(jié)果反饋?zhàn)灾魈剿鹘鉀Q問(wèn)題,而非僅模仿人類(lèi)軌跡,支持動(dòng)態(tài)適應(yīng)應(yīng)用迭代和環(huán)境變化;二是低成本高效模型,基于智譜自主研發(fā)的模型,單次任務(wù)成本約0.2美元,僅為傳統(tǒng)API方式的1/10—1/20,且可規(guī)模化降低;三是全端適配,支持手機(jī)、電腦、AI眼鏡等多設(shè)備,通過(guò)云技術(shù)解決不同系統(tǒng)適配問(wèn)題。
此前在7月28日晚間,智譜發(fā)布新一代旗艦?zāi)P虶LM-4.5,并在HuggingFace與ModelScope平臺(tái)同步開(kāi)源。這是一款專(zhuān)為智能體應(yīng)用打造的基礎(chǔ)模型,首次在單個(gè)模型中實(shí)現(xiàn)將推理、編碼和智能體能力原生融合,以滿(mǎn)足智能體應(yīng)用的復(fù)雜需求。
隨后在8月11日,智譜宣布推出開(kāi)源視覺(jué)推理模型GLM-4.5V,總參數(shù)106B,激活參數(shù)12B,并同步在魔搭社區(qū)與Hugging Face開(kāi)源。據(jù)介紹,GLM-4.5V實(shí)現(xiàn)了模型原生的GUI任務(wù),也就是從看圖、看片到讀文檔、識(shí)別并操作GUI界面,都能做到從理解到執(zhí)行的閉環(huán)。
今年3月初,AI智能體Manus橫空出世,使得AI智能體開(kāi)始受到大量關(guān)注,但Manus僅在3個(gè)月后便迅速撤出了中國(guó)市場(chǎng)。在Manus撤離后的這段時(shí)間內(nèi),智譜等國(guó)內(nèi)大廠迎頭趕上,各自發(fā)布了大量的智能體產(chǎn)品。
對(duì)于智能體的開(kāi)發(fā),張鵬表示,2025年是AI Agent的爆發(fā)之年,智譜將搭建Agentic大模型平臺(tái),構(gòu)建行業(yè)、地域與場(chǎng)景深度融合的智能體應(yīng)用,同時(shí)推動(dòng)中國(guó)原創(chuàng)大模型及解決方案出海。