2026-06-17 01:21:42
6月16日,星海圖全球開(kāi)發(fā)者大會(huì)(Galaxea WDC 2026)上,“數(shù)據(jù)”成具身智能核心議題。當(dāng)前,國(guó)內(nèi)具身數(shù)據(jù)約百萬(wàn)小時(shí),遠(yuǎn)低于大語(yǔ)言模型,且面臨質(zhì)量、成本、流通及安全挑戰(zhàn)。業(yè)內(nèi)稱,數(shù)據(jù)多樣性、流通性不足致智能未涌現(xiàn)。數(shù)據(jù)采集成本高昂,高質(zhì)量數(shù)據(jù)是關(guān)鍵。具身智能發(fā)展分兩階段,后期數(shù)據(jù)增長(zhǎng)或?qū)⒅笖?shù)級(jí)擴(kuò)張,但數(shù)據(jù)質(zhì)量比規(guī)模更為關(guān)鍵。
每經(jīng)記者|可楊 每經(jīng)編輯|黃博文
6月16日,在北京亦莊舉行的以“Build with Galaxea”為主題的星海圖全球開(kāi)發(fā)者大會(huì)(Galaxea WDC 2026)上,“數(shù)據(jù)”成為關(guān)鍵詞之一。
圍繞具身智能數(shù)據(jù)問(wèn)題,多位行業(yè)人士分享了大量一線數(shù)據(jù)和判斷:當(dāng)前國(guó)內(nèi)可用于訓(xùn)練的具身數(shù)據(jù)量級(jí)約為百萬(wàn)小時(shí),與大語(yǔ)言模型動(dòng)輒幾千萬(wàn)小時(shí)的視頻數(shù)據(jù)、幾十萬(wàn)億Token(詞元)的文本數(shù)據(jù)相比仍有明顯差距。
星海圖CEO(首席執(zhí)行官)高繼揚(yáng)在接受包括《每日經(jīng)濟(jì)新聞》記者在內(nèi)的媒體記者采訪時(shí)表示,與大語(yǔ)言模型主要依賴互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)不同,具身智能的數(shù)據(jù)幾乎都來(lái)自現(xiàn)實(shí)世界的采集,具有強(qiáng)烈的私有化屬性。
這意味著,行業(yè)面臨的不僅是數(shù)據(jù)量不足的問(wèn)題,更包括數(shù)據(jù)質(zhì)量、采集成本、流通效率以及安全合規(guī)等一系列挑戰(zhàn)。
在采訪中,高繼揚(yáng)首先回應(yīng)了業(yè)界關(guān)于VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)與世界模型路線之爭(zhēng)的問(wèn)題。他認(rèn)為,兩者并非對(duì)立,而是同源共生。無(wú)論訓(xùn)練哪一種模型,本質(zhì)上都需要將多模態(tài)數(shù)據(jù)轉(zhuǎn)化為Token,再進(jìn)行編碼和學(xué)習(xí)。
他進(jìn)一步將具身智能的數(shù)據(jù)需求拆解為四個(gè)維度:動(dòng)作、對(duì)象、場(chǎng)景和本體。所謂“采數(shù)據(jù)”,本質(zhì)上是要盡可能把這四個(gè)維度的不同類型數(shù)據(jù)全部采集到。其中,Human-Centric Data(以人為中心的數(shù)據(jù))和Robot-Centric Data(以機(jī)器人為中心的數(shù)據(jù))各有作用。前者能夠以較低成本快速覆蓋大量場(chǎng)景和不同人體形態(tài),后者則更貼近最終部署機(jī)器人的真實(shí)運(yùn)動(dòng)特性。
對(duì)于使用的數(shù)據(jù)類型,高繼揚(yáng)表示,現(xiàn)在的預(yù)訓(xùn)練基本全部使用真實(shí)數(shù)據(jù),幾乎不用仿真數(shù)據(jù)。在公司達(dá)到100萬(wàn)小時(shí)數(shù)據(jù)規(guī)模之前,暫時(shí)看不到大規(guī)模采用仿真數(shù)據(jù)的必要性,因?yàn)檎鎸?shí)數(shù)據(jù)更能有效覆蓋上述四個(gè)維度。
海天瑞聲CEO李科在6月16日上午的圓桌對(duì)話中表示,在當(dāng)前具身智能領(lǐng)域中,雖然已經(jīng)出現(xiàn)大量訓(xùn)練場(chǎng)和數(shù)據(jù)采集中心,但真正可用于訓(xùn)練的數(shù)據(jù)規(guī)模仍然有限。他估算,目前國(guó)內(nèi)可用于具身模型訓(xùn)練的數(shù)據(jù)大約在百萬(wàn)小時(shí)量級(jí),而學(xué)術(shù)界公開(kāi)數(shù)據(jù)集大多只有數(shù)百小時(shí),少數(shù)達(dá)到萬(wàn)小時(shí)規(guī)模。
李科認(rèn)為,目前之所以智能沒(méi)有涌現(xiàn),問(wèn)題不僅在于數(shù)據(jù)總量不足,還在于數(shù)據(jù)多樣性和流通性不夠。不同訓(xùn)練場(chǎng)基于不同機(jī)器人本體采集數(shù)據(jù),形成了明顯的數(shù)據(jù)孤島。
對(duì)此,鯨躍動(dòng)力CEO李廣宇則進(jìn)一步指出,高質(zhì)量的數(shù)據(jù)也是重要因素?!拔覀兿M?,今年如果整個(gè)行業(yè)積累千萬(wàn)小時(shí)的數(shù)據(jù),其中真正有價(jià)值的可以達(dá)到100萬(wàn)小時(shí),從量變到質(zhì)變?!?/p>
在具身智能領(lǐng)域,數(shù)據(jù)采集往往被視為一項(xiàng)昂貴工程。
高繼揚(yáng)以星海圖的實(shí)踐為例,給出了較為具體的成本測(cè)算。Human-Centric Data的采集成本約每小時(shí)50元至100元,Robot-Centric Data約每小時(shí)250元。綜合來(lái)看,行業(yè)平均數(shù)據(jù)成本約每小時(shí)100元至150元。按照這一標(biāo)準(zhǔn),采集100萬(wàn)小時(shí)數(shù)據(jù)的成本在1億元至2億元之間。
高繼揚(yáng)強(qiáng)調(diào),相比大模型訓(xùn)練動(dòng)輒數(shù)億美元的算力投入,這筆錢“必須得花,而且非常劃算”。他提出,衡量數(shù)據(jù)投入不能只看數(shù)據(jù)單項(xiàng)成本,而應(yīng)該關(guān)注智能總成本?!爸悄芸偝杀痉秩糠郑簲?shù)據(jù)成本、算力成本以及研發(fā)團(tuán)隊(duì)工程師成本。我們(指星海圖)的實(shí)踐至少是1∶10,即1塊錢的數(shù)據(jù)至少花10塊錢去做訓(xùn)練才能把它訓(xùn)明白?!?/p>
在高繼揚(yáng)看來(lái),真正昂貴的不是數(shù)據(jù)本身,而是低質(zhì)量數(shù)據(jù)帶來(lái)的訓(xùn)練浪費(fèi)?!叭绻斎氲氖遣荒敲从行У臄?shù)據(jù),產(chǎn)生的模型也不會(huì)有太大價(jià)值,在數(shù)據(jù)上量之前一定要先把數(shù)據(jù)質(zhì)量解決,而什么是最高質(zhì)量的數(shù)據(jù)?真實(shí)數(shù)據(jù)是最高質(zhì)量的。”
除了成本,數(shù)據(jù)壁壘也成為行業(yè)關(guān)注焦點(diǎn),高繼揚(yáng)直言,未來(lái)具身智能模型的競(jìng)爭(zhēng)很大程度上取決于數(shù)據(jù)質(zhì)量。他認(rèn)為,數(shù)據(jù)差異會(huì)逐層傳導(dǎo):從數(shù)據(jù)質(zhì)量差異,到模型能力差異,再到應(yīng)用效果差異,最終體現(xiàn)為商業(yè)價(jià)值差異。
在商業(yè)模式上,高繼揚(yáng)將具身智能的發(fā)展分為兩個(gè)階段:當(dāng)前階段仍以整機(jī)銷售為主,真正面向生產(chǎn)力的方案訂閱模式階段尚未成熟。他認(rèn)為,現(xiàn)階段行業(yè)尚未有企業(yè)真正實(shí)現(xiàn)大規(guī)模生產(chǎn)力場(chǎng)景落地,因此更大的市場(chǎng)空間仍在未來(lái)。
具身智能正處于從數(shù)據(jù)冷啟動(dòng)向智能涌現(xiàn)過(guò)渡的關(guān)鍵階段。
清科靈境創(chuàng)始人楊子江將具身數(shù)據(jù)比作人工智能時(shí)代的石油。在他看來(lái),真正的挑戰(zhàn)不僅是采集數(shù)據(jù),更是如何完成數(shù)據(jù)的提取、加工、提純和流通?!熬呱碇悄苋绾潍@得三維的多模態(tài)的數(shù)據(jù),怎么樣才能高效地把其提取并加工成有用的數(shù)據(jù),這也是需要不斷積累的過(guò)程?!?/p>
對(duì)于未來(lái)的數(shù)據(jù)來(lái)源,業(yè)內(nèi)也出現(xiàn)了一些新的探索方向。
李廣宇認(rèn)為,消費(fèi)電子設(shè)備可能成為重要的數(shù)據(jù)入口,例如手機(jī)、智能眼鏡等終端具備攝像頭和端側(cè)算力,可以在用戶日常生活中持續(xù)采集具身數(shù)據(jù)。與此同時(shí),隨著機(jī)器人逐步進(jìn)入真實(shí)生產(chǎn)和生活場(chǎng)景,其運(yùn)行過(guò)程本身也將不斷產(chǎn)生新的訓(xùn)練數(shù)據(jù)。“大家認(rèn)為今年是具身應(yīng)用元年,預(yù)期未來(lái)有更多的機(jī)器人能夠?qū)嶋H鋪到真實(shí)的生產(chǎn)生活當(dāng)中,這些機(jī)器人產(chǎn)生的數(shù)據(jù)也是很有價(jià)值的?!?/p>
高繼揚(yáng)在受訪時(shí)表示,行業(yè)真正的Scaling(規(guī)?;瘮U(kuò)展)尚未開(kāi)始。在他看來(lái),具身智能的數(shù)據(jù)增長(zhǎng)不會(huì)是線性的,而應(yīng)是指數(shù)級(jí)擴(kuò)張。
此外,高繼揚(yáng)認(rèn)為,目前具身基礎(chǔ)模型的成長(zhǎng)速度已經(jīng)快于嬰幼兒學(xué)習(xí)技能的成長(zhǎng)速度。因此,他并不認(rèn)為行業(yè)進(jìn)展緩慢。但高繼揚(yáng)同時(shí)強(qiáng)調(diào),數(shù)據(jù)量的上升并不直接帶來(lái)模型執(zhí)行速度的提升,執(zhí)行速度更多取決于后訓(xùn)練而非預(yù)訓(xùn)練。
他介紹,預(yù)訓(xùn)練解決的是泛化性問(wèn)題,即面對(duì)新場(chǎng)景、新任務(wù)能否在不增加新數(shù)據(jù)的前提下完成;后訓(xùn)練則是針對(duì)特定場(chǎng)景的補(bǔ)充訓(xùn)練,類似于勞動(dòng)者上崗前的專項(xiàng)培訓(xùn),只有經(jīng)過(guò)培訓(xùn)后,執(zhí)行速度才會(huì)真正提升。
如果將當(dāng)前具身智能水平類比為嬰兒,那么發(fā)展到相當(dāng)于七八歲孩子的智能水平,大致需要多長(zhǎng)時(shí)間、多大規(guī)模的數(shù)據(jù)?
面對(duì)這一問(wèn)題,李科判斷需要3至5年時(shí)間,對(duì)應(yīng)的有效數(shù)據(jù)量級(jí)在千萬(wàn)小時(shí)左右。在他看來(lái),關(guān)鍵在于有效數(shù)據(jù)并非簡(jiǎn)單的數(shù)據(jù)總量。同時(shí),與本體直接相關(guān)的特定數(shù)據(jù),如機(jī)器人手腕自由度帶來(lái)的差異化操作數(shù)據(jù)等,可能比泛化數(shù)據(jù)更具價(jià)值。
星海圖CFO(首席財(cái)務(wù)官)羅天奇則表示,星海圖內(nèi)部判斷的中性預(yù)測(cè)周期為3年左右,如果算法層面出現(xiàn)重大突破,這一進(jìn)程有可能進(jìn)一步提速。他同時(shí)提到,在數(shù)據(jù)成本中,算力仍是最大開(kāi)銷,數(shù)據(jù)本身相對(duì)是“小頭”,但數(shù)據(jù)質(zhì)量比規(guī)模更為關(guān)鍵。數(shù)據(jù)基礎(chǔ)設(shè)施能力以及標(biāo)注環(huán)節(jié)的降本增效,將是行業(yè)接下來(lái)需要持續(xù)投入的重點(diǎn)方向。
封面圖片來(lái)源:每經(jīng)媒資庫(kù)
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP