以“創(chuàng)業(yè)投資開啟AI技術(shù)與應(yīng)用共振周期”為主題的啟明創(chuàng)投·創(chuàng)業(yè)與投資論壇近日在滬舉行。在“具身智能的奇點(diǎn)時刻”專題對話環(huán)節(jié),多名業(yè)內(nèi)專家一致認(rèn)為,具身智能已站在奇點(diǎn)到來的早期窗口。當(dāng)前,具身智能技術(shù)雖未完全收斂,但已處于快速發(fā)展階段。
啟明創(chuàng)投主管合伙人周志峰表示,具身智能機(jī)器人將率先在揀選、搬運(yùn)、組裝等場景實(shí)現(xiàn)規(guī)模化部署,積累大量機(jī)器人第一視角數(shù)據(jù)與帶觸覺的操作數(shù)據(jù),構(gòu)建“模型—本體—場景數(shù)據(jù)”的閉環(huán)飛輪。這一飛輪將驅(qū)動模型能力迭代,最終推動通用機(jī)器人邁向大規(guī)模落地。
站在具身智能奇點(diǎn)的“前夜”,原力靈機(jī)聯(lián)合創(chuàng)始人兼首席執(zhí)行官、曠視科技聯(lián)合創(chuàng)始人唐文斌表示,投身具身智能行業(yè)最大的信心,來自于看到大模型領(lǐng)域鏈?zhǔn)酵评恚–oT)與智能體(Agent)能力的巨大潛力。唐文斌認(rèn)為,機(jī)器人從專用走向通用有兩個必要條件,一個是對物理世界的精確感知能力,一個是對復(fù)雜任務(wù)的規(guī)劃和推理能力。
具身智能來到發(fā)展的關(guān)鍵階段
從進(jìn)廠擰螺絲,到便利店遞可樂,具身智能作為人工智能與機(jī)器人技術(shù)融合的前沿領(lǐng)域,目前已來到技術(shù)突破與產(chǎn)業(yè)培育的關(guān)鍵階段。
“具身智能技術(shù)過去兩年的發(fā)展速度,已超越此前多年積累,進(jìn)入‘越跑越快’階段?!彼呛絼?chuàng)始人兼首席執(zhí)行官陳亦倫表示,一方面,業(yè)內(nèi)對端到端技術(shù)的信息倍增,操作領(lǐng)域?qū)嶒?yàn)室樣機(jī)能力顯著提升;另一方面,多模態(tài)大模型發(fā)展?jié)摿κ?,視覺、語言等模態(tài)的進(jìn)步尚未觸頂,數(shù)據(jù)驅(qū)動能力持續(xù)增強(qiáng)。從硬件成熟度上來看,高自由度終端(如靈巧手)和接近量產(chǎn)的形態(tài)加速落地。
唐文斌表示,具身智能的發(fā)展動力主要來自大模型在鏈?zhǔn)酵评恚–oT)與智能體(Agent)上的能力達(dá)到一定的臨界值。
“通用機(jī)器人的出現(xiàn),需同時滿足兩項(xiàng)必要條件:其一,對物理世界的高精度多模態(tài)感知。這也是我們過去創(chuàng)業(yè)十多年以來一直在做的事情,如今無論是小模型還是大模型,我們的多模感知能力已經(jīng)做到了行業(yè)領(lǐng)先水平,并且還在不斷提升?!碧莆谋笳f,“其二,復(fù)雜的規(guī)劃與推理能力,我們希望機(jī)器人能夠像人一樣實(shí)現(xiàn)敏捷的決策、結(jié)合多模態(tài)的感知實(shí)現(xiàn)對復(fù)雜問題的推理。兩者結(jié)合方可推動機(jī)器人邁向通用化,而當(dāng)前Agent與CoT的進(jìn)展,正使這一技術(shù)朝著可行的方向發(fā)展”。
技術(shù)尚未收斂 增長空間可觀
盡管發(fā)展速度極快、宏觀方向趨同,但具身智能技術(shù)尚未收斂。業(yè)內(nèi)普遍認(rèn)為,下一階段需通過量產(chǎn)落地驗(yàn)證技術(shù)路線,加速標(biāo)準(zhǔn)制定與生態(tài)協(xié)作,推動分化領(lǐng)域逐步收斂。這一發(fā)展現(xiàn)狀也為創(chuàng)新企業(yè)提供了定義技術(shù)范式的戰(zhàn)略窗口期。
唐文斌認(rèn)為,當(dāng)前具身智能的技術(shù)路線尚未收斂,算法框架、數(shù)據(jù)來源、硬件形態(tài)與穩(wěn)定性以及場景落地的先后順序仍處于開放探索階段。
“雖然業(yè)內(nèi)正逐步形成‘端到端、純數(shù)據(jù)驅(qū)動、采用類VLA(視覺—語言—動作)框架’的共識,并普遍認(rèn)同多模態(tài)信息(視覺、觸覺、力覺、深度等)需統(tǒng)一納入大模型,但終極模型架構(gòu)尚無定論?!碧莆谋筇岬?,現(xiàn)有VLA多為單幀模型,缺乏原生記憶機(jī)制,難以完成需要狀態(tài)累積的任務(wù)(如連續(xù)添加調(diào)料)。此外,“大小腦模型”將高頻執(zhí)行與低頻決策人為拆分,雖為當(dāng)下工程實(shí)踐,但并非終極形態(tài);未來仍需探索單一模型如何以動態(tài)、柔性的頻率進(jìn)行實(shí)時思考與決策。
“整體上看,技術(shù)框架仍面臨大量未解問題,而開放的不確定性正是推動行業(yè)持續(xù)創(chuàng)新的關(guān)鍵動力?!碧莆谋笳f。
據(jù)陳亦倫介紹,在具身智能領(lǐng)域,業(yè)界已在宏觀層面形成高度共識,例如,數(shù)據(jù)被視為核心驅(qū)動力,模型最終部署形態(tài)大概率采用端到端架構(gòu)等。不過,在具體實(shí)踐中,各個團(tuán)隊(duì)的路徑差異明顯?!昂暧^共識、微觀多元”成為行業(yè)現(xiàn)狀。
例如,數(shù)據(jù)獲取方面,有人主張大規(guī)模部署真機(jī)采集,有人傾向高比例仿真生成;算法層面,即便認(rèn)同VLA的任務(wù)定義,網(wǎng)絡(luò)架構(gòu)仍存分歧——是否采用單一大網(wǎng)絡(luò)、是否加入隱變量層、強(qiáng)化學(xué)習(xí)的選擇及世界模型必要性等問題仍在探索。硬件層面同樣多元,通用機(jī)器人形態(tài)分為雙足與輪式兩大類,雙足方案又存在直驅(qū)關(guān)節(jié)與復(fù)雜傳動機(jī)構(gòu)等不同設(shè)計(jì)。
后端場景有先發(fā)優(yōu)勢
在實(shí)驗(yàn)室場景下,機(jī)器人已具備“十八般武藝”,復(fù)刻了人類諸多技術(shù)和勞動。然而,在商業(yè)化應(yīng)用中,機(jī)器人實(shí)際落地或遵循嚴(yán)謹(jǐn)?shù)南群箜樞颉?/p>
唐文斌認(rèn)為,機(jī)器人的規(guī)?;瘧?yīng)用大概率將從工業(yè)、物流等領(lǐng)域的后端場景起步。這類場景因規(guī)模大、勞動力密集,能產(chǎn)生更大價值。之后,具身智能逐步向商用場景拓展,最終走向民用。
“機(jī)器人能否落地的關(guān)鍵在于兩點(diǎn):一是真正解決問題(能用、好用),二是經(jīng)濟(jì)模型成立。”唐文斌說。
從技術(shù)與市場的結(jié)合角度,唐文斌還提出了三個關(guān)鍵標(biāo)準(zhǔn):其一,堅(jiān)持技術(shù)發(fā)展的正向梯度,即不過早將技術(shù)形態(tài)固化于特定垂直場景,避免犧牲泛化性,而是沿著技術(shù)演進(jìn)的正確路徑推進(jìn),保持模型在通用能力上的迭代空間。其二,注重技術(shù)可達(dá)性,選擇容錯率較高、對操作時間容忍度更強(qiáng)的場景,逐步從90%向95%、100%優(yōu)化。其三,場景需具備規(guī)模與強(qiáng)需求。
陳亦倫則遵循高價值、有規(guī)模、有難度的“黃金三角”邏輯篩選機(jī)器人應(yīng)用場景。他表示,公司會選擇用戶非常在意的真實(shí)需求、存在較大市場空間且上一代機(jī)器人技術(shù)難以解決的問題,最終實(shí)現(xiàn)通用機(jī)器人的AGI終極目標(biāo)。
7月下旬,上海發(fā)放了新一批智能網(wǎng)聯(lián)汽車示范運(yùn)營牌照。8月以來,全無人駕駛的出租車在上海市區(qū)開展日常運(yùn)營。在技術(shù)底座上,無人駕駛和機(jī)器人共享“感知—決策—執(zhí)行”技術(shù)棧與產(chǎn)業(yè)鏈資源,有望形成“車—機(jī)共生”生態(tài)。未來,兩大領(lǐng)域?qū)膮f(xié)同研發(fā)走向規(guī)?;l(fā)展。
陳亦倫表示,具身智能和自動駕駛在任務(wù)場景和底層技術(shù)上同宗同源,模型技術(shù)可以復(fù)用,工程能力可以遷移,自動駕駛行業(yè)的經(jīng)驗(yàn)與認(rèn)知也能幫助具身智能領(lǐng)域的探索與落地。
校對:陶謙