8月11日至8月15日,昆侖萬維(300418)舉辦覆蓋五大技術(shù)領(lǐng)域的SkyWork AI技術(shù)發(fā)布周,每天發(fā)布一款模型,包括視頻生成模型Skyreels-A3、世界模型Matrix-Game-2.0和Matrix-3D、生圖一體化模型Skywork UniPic2.0、智能體(Skywork Deep Eesearch Agent)模型等,全面展示昆侖萬維在多模態(tài)AI領(lǐng)域的突破性成果。
本次技術(shù)發(fā)布周的舉辦,標志著昆侖萬維AI技術(shù)全面迭代,AI產(chǎn)品邁入商業(yè)化應(yīng)用階段。昆侖萬維正憑借其技術(shù)儲備與商業(yè)前瞻性,加速邁入應(yīng)用落地與商業(yè)化加速的高速增長階段。
Skywork Deep Research Agent v2 正式發(fā)布
8月14日,昆侖萬維正式發(fā)布Skywork Deep Research Agent v2,它是天工超級智能體(Skywork Super Agents)的核心引擎。
Skywork Deep Research Agent自5月22日上線后,大幅重塑了大模型在AI Office領(lǐng)域的角色,通過skywork.ai平臺為用戶產(chǎn)出了大量信息密度極高的優(yōu)質(zhì)文檔、PPT、表格以及其他交付物。
圖丨昆侖萬維Skywork Deep Research Agent v2宣傳圖
據(jù)了解,當前業(yè)界的Deep Research Agent產(chǎn)品都是采用搜索并抓取網(wǎng)頁文字信息的方式實現(xiàn),依賴于純文本檢索分析,而互聯(lián)網(wǎng)上超過一半的關(guān)鍵信息來自圖文混排:財報中的曲線、論文里的實驗圖、社媒上的對比照、方案里的流程圖……這些多模態(tài)信息一旦被忽略,代表著Agent將會丟失大量決策依據(jù),將直接影響Agent產(chǎn)出的交付物質(zhì)量。
“為解決這一痛點,公司的Skywork團隊推出了業(yè)界首個‘多模態(tài)深度調(diào)研’Agent,首次將多模態(tài)檢索理解和跨模態(tài)生成能力完整整合到深度研究工作里?!崩鋈f維方面介紹,為實現(xiàn)多模態(tài)信息檢索這一能力的提升,昆侖萬維Skywork團隊在四個方面完成技術(shù)突破:多模態(tài)爬取技術(shù)MM-Crawler、長距離多模態(tài)信息收集、異步并行 Multi-Agent多模態(tài)理解架構(gòu)和多模態(tài)結(jié)果呈現(xiàn)能力。
通過以上技術(shù)創(chuàng)新,多模態(tài)Skywork Deep Research Agent v2把“讀文字+看圖片”這件看似簡單卻長期被忽視的事情真正做到位,讓研究人員等用戶一次拿到信息完整、節(jié)奏順暢、視覺友好的深度報告。
需要指出的是,為了進一步加強Agent基礎(chǔ)模型的復(fù)雜任務(wù)執(zhí)行和信息檢索、整理、總結(jié)能力,Skywork Deep Research Agent v2引入了多種提升機制,包括高質(zhì)量數(shù)據(jù)合成及訓(xùn)練、端到端強化學(xué)習(xí)、高效的并行推理,以及多智能體自我學(xué)習(xí)演進系統(tǒng)。新版本的Skywork Deep Research在多項Agent任務(wù)評測上超越現(xiàn)有模型,達到行業(yè)SOTA水平。
在權(quán)威的搜索評測榜單BrowseComp上,Skywork Deep Research的表現(xiàn)尤為突出。常規(guī)模式下,其性能已超越大多數(shù)同類產(chǎn)品,正確率達到27.8%。而一旦開啟自主研發(fā)的“并行思考”(Parallel Thinking)模式,正確率更是躍升至38.7%,刷新了行業(yè)SOTA紀錄。
圖丨昆侖萬維Skywork Deep Research Agent v2宣傳圖
據(jù)昆侖萬維介紹,為了進一步解鎖Agent的能力邊界,Skywork下一代多智能體系統(tǒng)將深度挖掘不同Agent模型的差異化優(yōu)勢,并將其模型能力與工具能力有機融合,構(gòu)建協(xié)同多智能體框架。該系統(tǒng)不僅能夠?qū)⒍鄠€Agent組織成高效協(xié)作團隊,還可在線實時利用Agent的代碼能力動態(tài)創(chuàng)建和管理MCP工具,從而顯著提升任務(wù)處理能力與環(huán)境適應(yīng)性。
一周連續(xù)發(fā)布多款模型
在此之前,昆侖萬維8月11日正式發(fā)布SkyReels-A3模型,基于“DiT(Diffusion Transformer)視頻擴散模型+插幀模型進行視頻延展+基于強化學(xué)習(xí)的動作優(yōu)化+運鏡可控”,其能實現(xiàn)任意時長的全模態(tài)音頻驅(qū)動數(shù)字人創(chuàng)作。SkyReels-A3正在把“讓影像隨聲而動”這件事變成人人可上手操作的工具:不需要專業(yè)影棚、不需要昂貴設(shè)備,只要一段聲音和一張照片,人人都能創(chuàng)造無限時長、無限可能的數(shù)字內(nèi)容。
圖丨昆侖萬維SkyReels-A3宣傳視頻截圖
緊接著,昆侖萬維又在8月12日帶來了自研世界模型Matrix系列中Matrix-Game交互世界模型的升級版本——「Matrix-Game 2.0」,同樣實現(xiàn)了通用場景下的交互式實時長序列生成的世界模型。據(jù)了解,為促進交互式世界模型領(lǐng)域的發(fā)展,「Matrix-Game 2.0」全面開源,這也是業(yè)內(nèi)首個在通用場景上實現(xiàn)實時長序列交互式生成的世界模型開源方案。
除了持續(xù)推進當前的視頻生成等核心技術(shù),昆侖萬維也在積極布局AI發(fā)展的下一階段。即通過空間智能實現(xiàn)對三維世界的深度理解與生成。現(xiàn)有方法依賴多視圖輸入和局部視角渲染,難以從單張圖像生成結(jié)構(gòu)完整、可探索的3D世界。8月12日,昆侖萬維還推出Matrix-3D——一個融合全景視頻生成與三維重建的統(tǒng)一框架。它從單圖像出發(fā),生成高質(zhì)量、軌跡一致的全景視頻,并直接還原可漫游的三維空間,對標李飛飛World Labs的生成效果,可實現(xiàn)更大范圍的探索空間。
圖丨昆侖萬維Matrix-Game-2.0宣傳圖
“當前,「Skywork UniPic 2.0」及其系列模型已全面開源,涵蓋模型權(quán)重、推理代碼、強化策略等,助力開發(fā)者與研究者快速上手并構(gòu)建多模態(tài)應(yīng)用。”8月13日,昆侖萬維正式開源「Skywork UniPic 2.0」模型——面向統(tǒng)一多模態(tài)建模的高效訓(xùn)練和推理框架,圍繞生成和編輯模塊輕量化、連接多模態(tài)理解模型進行聯(lián)合訓(xùn)練,構(gòu)建了理解、生圖、編輯一體化的核心能力,旨在實現(xiàn)“高效、高質(zhì)、統(tǒng)一”的多模態(tài)生成模型。
圖丨昆侖萬維Skywork UniPic 2.0宣傳圖
昆侖萬維在統(tǒng)一模型領(lǐng)域持續(xù)深耕,在開源Skywork UniPic 1之后,從頭訓(xùn)練自回歸范式的統(tǒng)一模型。開源「Skywork UniPic 2.0」,將DIT和自回歸范式結(jié)合在一起。
據(jù)介紹,升級后的「Skywork UniPic 2.0」具備三大核心優(yōu)勢。首先,生成模塊輕量高效,性能拉滿。生成模塊基于2B參數(shù)的SD3.5-Medium架構(gòu)訓(xùn)練,生圖和編輯指標超越生成模塊具有7B參數(shù)的bagel,4B參數(shù)的OmniGen2,12B參數(shù)的UniWorld-V1和Flux-kontext模型。其次,引入強化學(xué)習(xí),效果顯著。基于Flow-GRPO首創(chuàng)漸進式雙任務(wù)強化策略,有效提升模型對復(fù)雜指令的理解能力與圖像生成和編輯的一致性,兩大任務(wù)協(xié)同優(yōu)化、互不干擾。最后,可以一體化靈活切換,拓展能力更強。將生圖編輯的Kontext模型與多模態(tài)模型端到端整合,微調(diào)輕量連接器,即可快速構(gòu)建統(tǒng)一理解—生成—編輯模型,并且生圖和編輯的性能進一步提升。
整體AI技術(shù)實力穩(wěn)居行業(yè)第一梯隊
昆侖萬維作為中國領(lǐng)先的人工智能科技公司,近年來在AI大模型、AI搜索、AI短劇、AI音樂、AI游戲、AI社交等多個領(lǐng)域取得了顯著進展,構(gòu)建了全面的AI業(yè)務(wù)布局。在AI大模型方面,公司通過自研技術(shù)持續(xù)迭代“天工”系列大模型,在復(fù)雜任務(wù)處理、多模態(tài)等方面實現(xiàn)多項突破,整體AI技術(shù)實力穩(wěn)居行業(yè)第一梯隊。
值得一提的是,昆侖萬維作為人工智能領(lǐng)域的創(chuàng)新引領(lǐng)者,其在過去數(shù)月內(nèi)持續(xù)多次迭代大模型版本,以視頻生成模型SkyReels為例,2025年2月發(fā)布了中國首個面向AI短劇創(chuàng)作的SkyReels-V1版,2025年4月發(fā)布了全球首個使用擴散強迫框架的無限時長電影生成模型SkyReels-V2版,本次又發(fā)布了音頻驅(qū)動(audio-driven)人像視頻生成模型SkyReels-A3版,不斷突破AI技術(shù)邊界。
在多模態(tài)領(lǐng)域,昆侖萬維不僅推出了將文本推理能力遷移至視覺的多模態(tài)推理模型「Skywork-R1V」系列,以38B的輕量級規(guī)模性能媲美閉源的大參數(shù)模型。同時昆侖萬維也前瞻性地布局了空間智能領(lǐng)域,推出了交互世界模型「Matrix-Game 2.0」與3D世界生成模型「Matrix-3D」。
針對數(shù)學(xué)代碼等專業(yè)領(lǐng)域,也推出了文本推理模型「Skywork-OR1」,在同等參數(shù)規(guī)模下實現(xiàn)了業(yè)界領(lǐng)先的推理性能,軟件工程自主代碼智能體基座模型「Skywork-SWE」也是在開源的32B模型規(guī)模下實現(xiàn)了業(yè)界最強的倉庫級代碼修復(fù)能力。
AGI與AIGC業(yè)務(wù)商業(yè)化取得重要進展
2024年,昆侖萬維實現(xiàn)營業(yè)總收入56.6億元,同比增長15.2%,整體毛利率達73.6%,繼續(xù)保持在較高水平。公司進一步開拓海外市場,收入繼續(xù)保持積極增長態(tài)勢。其中,海外信息分發(fā)與元宇宙平臺Opera繼續(xù)保持高速增長,2024年實現(xiàn)營業(yè)收入4.8億美元,同比增長21.1%;海外社交網(wǎng)絡(luò)和短劇平臺業(yè)務(wù)實現(xiàn)營業(yè)收入12.5億元,同比增長28.5%,綜合推動公司海外業(yè)務(wù)收入規(guī)模至51.5億元,同比增長21.9%,占總收入比重達91.0%,為多元化AI產(chǎn)品矩陣的拓展奠定了堅實基礎(chǔ)。
據(jù)昆侖萬維2024年年報介紹,公司繼續(xù)堅定踐行“All in AGI與AIGC”發(fā)展戰(zhàn)略,持續(xù)加大研發(fā)投入,全年公司研發(fā)費用為15.4億元,同比增長59.5%。公司AGI與AIGC業(yè)務(wù)商業(yè)化取得重要進展。AI社交報告期內(nèi)單月最高收入突破100萬美元,成為海外收入增長速度最快的中國AI應(yīng)用之一。
2025年第一季度,昆侖萬維以創(chuàng)新為引擎,在全球人工智能領(lǐng)域?qū)崿F(xiàn)多項里程碑式突破,持續(xù)鞏固行業(yè)領(lǐng)先地位。公司在多模態(tài)推理、視頻生成、音頻生成等關(guān)鍵方向,推出多項顛覆性技術(shù)與開源成果,為數(shù)字內(nèi)容生產(chǎn)、智能決策及產(chǎn)業(yè)生態(tài)升級注入全新動能,彰顯中國AI企業(yè)的技術(shù)自信與全球視野。
2025年第一季度,公司實現(xiàn)營業(yè)收入17.6億元,同比增長46.1%,AI音樂年化流水收入ARR達到約1200萬美金(月流水收入約100萬美元);短劇平臺Dramawave 年化流水收入ARR達到約1.2億美金(月流水收入約1000萬美元),為收入增長注入強勁動力。公司全球化戰(zhàn)略成效顯著,實現(xiàn)海外業(yè)務(wù)收入16.7億元,同比增長56.1%,海外業(yè)務(wù)收入占比提升至94.4%,國際化布局進一步深化。
昆侖萬維Skywork AI技術(shù)發(fā)布周每一項技術(shù)創(chuàng)新,都與當前產(chǎn)業(yè)肌理充分融合。這不僅是一次前沿技術(shù)的集中秀場,更是昆侖萬維從前期研發(fā)重投入轉(zhuǎn)向技術(shù)商業(yè)化的標志。從單點領(lǐng)先到生態(tài)賦能,昆侖萬維的商業(yè)化效率與全球化布局能力都在今年取得重大突破,這意味著昆侖萬維正在跑通規(guī)?;窂健?/p>