2025年7月26日,世界人工智能大會期間,榮耀正式發(fā)布魔法大模型家族新成員——MagicGUI大模型,并宣布開源。這款參數(shù)規(guī)模達(dá)70億的模型主要負(fù)責(zé)多模態(tài)感知和自動化執(zhí)行,更成為其首個GUI開源大模型。目前,該模型的技術(shù)報告已登陸GitHub平臺,模型參數(shù)和榮耀測試集將于近期上線,向廣大軟硬件開發(fā)者開放。
該模型在比肩SOTA模型的同時,榮耀創(chuàng)新性使用繼續(xù)預(yù)訓(xùn)練、強(qiáng)化微調(diào)的兩階段訓(xùn)練方法,突破行業(yè)技術(shù)瓶頸,在大模型支持場景的通用和泛化上取得了突破性進(jìn)展。這一創(chuàng)新不僅標(biāo)志著榮耀在 AI 底層技術(shù)領(lǐng)域的階段性突破,更折射出智能終端行業(yè)在通用人工智能浪潮下的生態(tài)化轉(zhuǎn)型思路。
與傳統(tǒng)偏重“知識生成”的語言大模型不同,MagicGUI大模型聚焦“屏幕感知+行為執(zhí)行”核心能力,直指“AI智能體(Agent)”這一更為復(fù)雜的技術(shù)賽道——通過多模態(tài)感知解析屏幕內(nèi)容、以自動化執(zhí)行完成操作指令,實現(xiàn)從用戶意圖到任務(wù)結(jié)果的閉環(huán)。
以上突破使得單智能體執(zhí)行向多智能體協(xié)同完成復(fù)雜任務(wù)成為可能,正如榮耀MagicOS首席產(chǎn)品官王皚所言,MagicOS已具備“多模態(tài)感知、個性化推理、生態(tài)化工具和自動化執(zhí)行”全鏈路的智能體能力。
作為榮耀今年提出的“阿爾法戰(zhàn)略”的關(guān)鍵里程碑,MagicGUI大模型的發(fā)布并開源承載著重要戰(zhàn)略意義。該戰(zhàn)略旨在推動榮耀從智能手機(jī)制造商向AI終端生態(tài)公司轉(zhuǎn)型,而MagicGUI構(gòu)建的技術(shù)基座,既為自身智能體業(yè)務(wù)提供底層支撐——如已在Magic V5旗艦機(jī)上實現(xiàn)“萬事找YOYO”的全新智能體體驗,也為跨設(shè)備協(xié)同、多場景融合、AI生態(tài)繁榮奠定基礎(chǔ),助力“構(gòu)筑智慧生態(tài)”的戰(zhàn)略第二步落地,加速實現(xiàn)“讓AI走進(jìn)生活”的核心目標(biāo)。
榮耀MagicGUI大模型的推出,建立在對智能體實用化痛點的深刻洞察之上。在移動互聯(lián)網(wǎng)生態(tài)中,應(yīng)用場景碎片化、交互邏輯差異化一直是制約智能體規(guī)?;涞氐暮诵钠款i。傳統(tǒng)大模型往往依賴特定場景的數(shù)據(jù)訓(xùn)練,在面對未覆蓋的應(yīng)用界面或操作流程時,容易出現(xiàn)理解偏差或執(zhí)行失效。
針對這一行業(yè)共性難題,MagicGUI大模型采用全新的雙階段數(shù)據(jù)訓(xùn)練方法實現(xiàn)技術(shù)突破。正如榮耀MagicOS首席產(chǎn)品官王皚所說:“當(dāng)我們大模型在遇到一個沒有經(jīng)過預(yù)訓(xùn)練的新場景時,它依然能夠很好地適配和支持。這突破了以往的技術(shù)瓶頸?!?第一階段通過大規(guī)模通用界面數(shù)據(jù)訓(xùn)練,構(gòu)建基礎(chǔ)交互邏輯框架;第二階段引入場景遷移學(xué)習(xí)機(jī)制,使模型能夠從已知場景中提煉規(guī)律,快速適配陌生界面環(huán)境。這種訓(xùn)練模式使模型在未經(jīng)過專項訓(xùn)練的應(yīng)用場景中仍能保持高適配性,較傳統(tǒng)方法實現(xiàn)顯著提升。
在技術(shù)驗證層面,MagicGUI 大模型已在多項通用數(shù)據(jù)測試中達(dá)到行業(yè)領(lǐng)先水準(zhǔn)。王皚表示:“MagicGUI大模型在一些通用數(shù)據(jù)集的測試當(dāng)中,已經(jīng)達(dá)到了比肩 SOTA 行業(yè)領(lǐng)先水準(zhǔn)的技術(shù)驗證。” 更具實踐價值的是,該模型已成功應(yīng)用于榮耀最新折疊旗艦機(jī)型 Magic V5,支撐起 “萬事找 YOYO” 這一現(xiàn)象級功能。
王皚認(rèn)為,用戶通過自然語言指令,即可讓智能體完成從打車比價、酒店預(yù)訂到文檔處理的復(fù)雜任務(wù),實現(xiàn)了從 “人適應(yīng)機(jī)器” 到 “機(jī)器理解人” 的人機(jī)交互范式轉(zhuǎn)變?!耙郧翱赡苁侨巳ミm應(yīng)機(jī)器,但是現(xiàn)在更多的是機(jī)器需要去學(xué)習(xí)人?!?
多模態(tài)融合能力是 MagicGUI 大模型的另一技術(shù)亮點。不同于單一模態(tài)的語言或圖像模型,該模型實現(xiàn)了視覺理解與操作執(zhí)行的深度協(xié)同,這與王皚提到的 “AI 智能體的平臺應(yīng)用能力上,基本上具備了多模態(tài)感知、個性化推理、生態(tài)化工具和自動化執(zhí)行全鏈路能力” 相契合。通過視覺大模型解析屏幕內(nèi)容結(jié)構(gòu),識別按鈕、輸入框等交互元素;借助強(qiáng)化學(xué)習(xí)算法生成最優(yōu)操作路徑;最終通過模擬點擊等方式完成自動化執(zhí)行。這種端到端的處理能力,使智能體能夠應(yīng)對頁面布局和內(nèi)容多變、操作流程多變的復(fù)雜場景,在 Magic V5 的實際使用中展現(xiàn)出高效的任務(wù)完成能力。
“我們在構(gòu)建MagicOS第一天就設(shè)想構(gòu)筑成為開放的平臺,既可以讓行業(yè)優(yōu)秀的智能體更好地融入到我們的MagicOS系統(tǒng)當(dāng)中來,同時也可以把我們優(yōu)秀的大模型的能力開放出去,與全球伙伴共同來構(gòu)筑更繁榮的AI生態(tài)。”王皚認(rèn)為,在當(dāng)前智能體技術(shù)加速迭代的窗口期,單一企業(yè)的閉環(huán)研發(fā)難以覆蓋千行百業(yè)的場景需求。通過開源,榮耀正在構(gòu)建一個由軟硬件開發(fā)者、行業(yè)解決方案提供商共同參與的創(chuàng)新共同體。
從技術(shù)共享維度看,MagicGUI大模型的開源內(nèi)容將包含模型架構(gòu)、模型參數(shù)、榮耀測試集等,開發(fā)者可基于 MagicGUI 大模型進(jìn)行二次訓(xùn)練,針對特定行業(yè)場景優(yōu)化模型參數(shù),例如智能家居廠商可訓(xùn)練模型識別家電控制界面,金融機(jī)構(gòu)能定制化開發(fā)理財產(chǎn)品操作流程。這種模塊化的開源策略,既保留了核心技術(shù)的通用性,又為垂直領(lǐng)域創(chuàng)新預(yù)留了空間。
生態(tài)協(xié)同效應(yīng)在跨設(shè)備場景中尤為顯著。據(jù)了解,榮耀 MagicOS 已實現(xiàn)多系統(tǒng)互聯(lián)互通,而 MagicGUI大模型的開源將進(jìn)一步打破設(shè)備間的操作壁壘。 “從單智能體的調(diào)度到多智能的協(xié)同來完成復(fù)雜的任務(wù)成為了可能” 。在王皚看來,未來用戶家里的冰箱、空調(diào)、汽車都可以做到無縫的流轉(zhuǎn)——這就是未來繁榮生態(tài)的一個最好體現(xiàn)。這種無縫流轉(zhuǎn)的背后,是統(tǒng)一的界面理解與操作執(zhí)行標(biāo)準(zhǔn),而開源正是推動這一標(biāo)準(zhǔn)形成的有效路徑。
此外,第三方開發(fā)者的參與正在豐富生態(tài)的應(yīng)用維度。王皚提到,“很多服務(wù),比如出行、生活、美食、美妝等業(yè)務(wù),作為業(yè)務(wù)的真正提供者是三方。我們要為用戶服務(wù),但用戶的需求一定是多元化的。所以我們一定要把這些三方納入到我們的生態(tài)體系里面來,通過我們的 YOYO 智能體把它整合起來,然后提供最優(yōu)的體驗給到我們的用戶?!?這一理念正通過 MagicGUI 大模型的開源得以實踐,吸引眾多行業(yè)伙伴加入,共同拓展應(yīng)用場景,提升用戶體驗。
“我們希望的是為用戶提供極致簡約的、以意圖識別為基礎(chǔ)的人機(jī)交互體驗。”王皚說。
MagicGUI 大模型的推出與開源,正在引發(fā)智能終端行業(yè)的連鎖反應(yīng)。在手機(jī)領(lǐng)域,人機(jī)交互的競爭已從硬件參數(shù)比拼升級為智能體能力較量。Magic V5 “一語解千愁”,通過自然語言指令直接調(diào)用復(fù)雜功能,這種效率提升正在重新定義旗艦機(jī)型的用戶體驗標(biāo)準(zhǔn),推動行業(yè)向更智能、更便捷的交互方式演進(jìn)。
跨設(shè)備協(xié)同領(lǐng)域的變革更為深刻。榮耀提出的 “智慧生態(tài)” 構(gòu)想,將 AI 能力從手機(jī)延伸至冰箱、汽車、穿戴設(shè)備等全場景硬件,這是阿爾法戰(zhàn)略第二步的重要內(nèi)容:要構(gòu)筑一個智慧生態(tài),把 AI 的能力能夠賦能到更多的硬件。MagicGUI 大模型作為這一構(gòu)想的技術(shù)基座,解決了不同設(shè)備界面語言不統(tǒng)一的難題,實現(xiàn)了設(shè)備間的無縫協(xié)同,讓跨場景服務(wù)流轉(zhuǎn)成為可能。
通用人工智能(AGI)的發(fā)展趨勢下,MagicGUI 大模型的布局具有前瞻性。王皚認(rèn)為:“AI 技術(shù)其實是日新月異,未來一定會發(fā)展到通用人工智能。通用人工智能的特點是什么?就是它更加接近于人類,更多地像人類一樣去思考問題,去做一些自主的決策?!睒s耀阿爾法戰(zhàn)略的 “三步走” 規(guī)劃顯示了清晰的發(fā)展路徑,而 MagicGUI 大模型正是這一路線圖的關(guān)鍵支撐 —— 其持續(xù)進(jìn)化的理解與執(zhí)行能力,將為智能體從工具屬性向伙伴屬性升級提供技術(shù)儲備。
行業(yè)競爭的焦點正在發(fā)生轉(zhuǎn)移。榮耀通過開源MagicGUI大模型,實際上掌握了生態(tài)建設(shè)的主動權(quán),正如王皚所強(qiáng)調(diào)的生態(tài)共建理念,參與其中的硬件廠商、應(yīng)用開發(fā)者越多,基于該模型的技術(shù)生態(tài)就越穩(wěn)固。這種以技術(shù)標(biāo)準(zhǔn)為核心的競爭,將推動行業(yè)向更開放、更協(xié)同的方向發(fā)展。
不過盡管進(jìn)展顯著,GUI大模型也面臨多重挑戰(zhàn)。個性化意圖理解是當(dāng)前的核心瓶頸,王皚坦言:“最大的挑戰(zhàn),我們提供的‘千人千面’,其實每個人使用習(xí)慣不一樣,使用手機(jī)的習(xí)慣也不一樣,每個人的 IP 屬性也不一樣。舉個例子,這種個人化的意圖理解,我認(rèn)為是最大的挑戰(zhàn)。” 同一指令在不同用戶語境下可能存在差異,如何準(zhǔn)確理解并滿足每個用戶的個性化需求,是 MagicGUI大模型及相關(guān)智能體技術(shù)需要持續(xù)突破的難點。
從機(jī)遇維度看,隨著模型理解能力的提升,其應(yīng)用場景將從工具操作向決策支持延伸,正如王皚所展望的,未來 YOYO 智能體將“成為一個有情緒價值陪伴的伙伴。他不僅是工作好搭子、生活好搭子,也是在用戶情緒有波動的時候能夠提供情緒價值、給予鼓勵的小伙伴?!?這種從執(zhí)行層面向認(rèn)知層面的跨越,可能催生全新的智能服務(wù)形態(tài),為用戶帶來更全面、更貼心的體驗。
與此同時,MagicGUI 大模型的開源為各行業(yè)提供了智能技術(shù)基礎(chǔ),將推動 AI 在工業(yè)、教育、醫(yī)療等領(lǐng)域的深度應(yīng)用,正如王皚所言:“AI 技術(shù)突破如何支撐 MagicOS 與智能體發(fā)展,以及榮耀是如何讓 AI 走進(jìn)生活場景的?!?這種跨行業(yè)的融合應(yīng)用,不僅拓展了模型的商業(yè)價值,也為行業(yè)數(shù)字化轉(zhuǎn)型提供了新工具,推動整個社會向智能化方向發(fā)展。
“第一步,其實我們就是希望在榮耀的每一款產(chǎn)品里面都打造具備 YOYO 智能體能力的智能手機(jī),為每一位榮耀的用戶提供極致便捷的人機(jī)交互。第二步,構(gòu)筑一個智慧生態(tài)。第三步,其實我們就是如果真正未來世界達(dá)到了一種通用人工智能的時代,那么我們的 YOYO 智能體也會同步進(jìn)化到可能是我們更好的一個數(shù)字伙伴,甚至是更懂你的數(shù)字分身?!蓖醢}說。
短期來看,模型將聚焦于提升復(fù)雜任務(wù)的處理能力,進(jìn)一步優(yōu)化多輪對話中的意圖修正、跨應(yīng)用操作的容錯機(jī)制等,讓智能體更準(zhǔn)確、更可靠地完成用戶意圖的理解,提升用戶體驗的穩(wěn)定性與流暢性。通過持續(xù)的技術(shù)迭代,使 MagicGUI 大模型在各種場景下都能保持高效的處理能力,更好地支撐 YOYO 智能體的可持續(xù)演進(jìn)。
中期目標(biāo)是實現(xiàn)情緒感知與共情響應(yīng),使智能體在執(zhí)行任務(wù)的同時,能理解用戶的情緒狀態(tài),提供情感支持。這種情緒價值的注入,將是智能體從工具向伙伴進(jìn)化的關(guān)鍵標(biāo)志,讓用戶在使用過程中獲得更溫暖、更貼心的體驗。
長期而言,隨著通用人工智能技術(shù)的成熟,在魔法大模型的驅(qū)動下,YOYO智能體會逐步演進(jìn)成為用戶的 “數(shù)字分身”。這個時候智能體就相當(dāng)于是我們手機(jī)里的助理和真實的人類共生共存,從而我們整個的智慧世界就會發(fā)生一些很大的變化、具備更大的想象空間它將熟悉用戶的行為習(xí)慣、價值偏好,甚至能模仿用戶的思維方式處理事務(wù),幫助用戶完成各種個人化任務(wù),重新定義人與數(shù)字世界的關(guān)系。
生態(tài)規(guī)模的擴(kuò)大可能帶來質(zhì)的飛躍。由千萬參與者共同塑造的智能未來,將推動 AI 技術(shù)真正走進(jìn)生活的方方面面,為用戶帶來更智慧、更便捷、更富有人情味的智能體驗。
在智能體技術(shù)從概念走向現(xiàn)實的過程中,MagicGUI 大模型的開源實踐提供了可行路徑的先行示范。它證明:真正的智能不是某家企業(yè)的專屬品,而是全行業(yè)協(xié)同創(chuàng)新的產(chǎn)物。當(dāng)技術(shù)的門檻被降低,當(dāng)創(chuàng)新的邊界被打破,智能時代的紅利才能真正惠及每一個人,這或許是榮耀此次開源行動的深層意義所在,也是推動整個 AI 行業(yè)健康發(fā)展的重要方向。