智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

自變量機器人王潛:具身智能大模型沒法抄國外作業

來源:騰訊新聞

點擊:2224

A+ A-

所屬頻道:新聞中心

關鍵詞:具身智能 自變量機器人

    王潛有一副知識分子的長相,講話語調平和,但一旦聊起具身智能,他便流露出“殺氣騰騰”的一面:


    “如果就奔著跟隨別人的念頭,技術天然就落在下風,是很沒出息的?!?/span>


    “創業這件事是需要一些決心的,如果你從一開始就找好了退路,你的心態就不對了?!?/span>


    機器人,是王潛最執著的事。他本碩畢業于清華大學,博士就讀于美國南加州大學,曾在美國創立量化基金公司。但在做量化之后,他卻“好一陣子整晚睡不著,后悔沒把機器人事業做下去”。


    圖源:企業授權


    2023年,王潛解散基金回國,在深圳創立“自變量機器人”。


    自成立起不到一年半時間,自變量機器人已完成7輪融資,累計融資金額超10億元。5月12日,智能涌現獨家報道其拿到美團獨投的數億元新一輪融資。


    2023年是國內具身智能賽道肇興之年,英偉達創始人黃仁勛首次預言具身智能將是下一個科技浪潮,銀河通用、智元機器人均在這一年成立。


    相較于這兩家,自變量機器人前期并未獲得很大聲量。但隨著不斷獲得新融資,其正逐漸走向具身智能舞臺的中心。


    一位雙幣機構投資人告訴智能涌現,從融資金額看,目前國內人形機器人創業公司已經形成了鮮明的梯隊。第一梯隊的公司有三家:宇樹科技、智元機器人和銀河通用,融資金額都在15億元以上。自變量機器人融資金額超過10億元,已經從二線企業進入準一線之列。


    和當初的AI大模型一樣,國內具身智能領域也存在著看好和看空兩種截然對立的態度。一邊是朱嘯虎的看空——“現在是個人形機器人就會翻跟頭,但商業化在哪里?”。另一邊,投資機構持續砸下重金,創業公司正不斷加快量產步伐,并給出樂觀的增長預期。


    王潛是技術信仰派的典型代表。


    他創立的自變量機器人自2023年公司成立之日起就堅定選擇了“端到端統一VLA大模型”的技術路線,并以每2-3個月更新一版模型的速度推進研發。


    一年后,隨著美國公司Physical Intelligence(PI)的模型發布,VLA成為了行業的主流路線。


    在大部分其他廠商的模型還在執行簡單的Pick&Place操作(即Pick抓取、Place放置)時,自變量機器人研發的WALL-A模型已經可讓機器人完成例如衣物處理、收納整理、線束整理等多項復雜精細操作。


    自變量的機器人在GAIE2025展會現場自主制作刨冰 圖源:企業授權


    市面上看空的觀點認為“通用具身智能還太早,商業化不清晰?!倍鯘撗壑械男袠I發展進程圖則要快上許多。


    他預計類GPT-3水平的具身智能大模型有望在一年左右出現。具身智能真正的商業化落地周期,也會在未來一到兩年內逐步展開。


    目前具身機器人的商業化場景主要來自于兩個市場:科研教育和迎賓表演。但在王潛看來,這兩個市場總體來講規模相對較小,對于行業的長期發展意義有限,不能當作最終面向的目標市場。對于人形機器人進工廠干簡單重復性工作,他更是直言“那其實就是一個PR(公關)行為”。


    王潛認為要實現真正有價值的商業化,必須要依靠具身智能模型的泛化能力提升。


    眼下,自變量也并不急于推進商業化,而是把重心放在模型能力提升上。公司有三分之二的支出投向模型及其相關業務。


    “不謙虛地說,自變量就是處于國內具身智能模型領先地位的,投資人對于第一名天然有一些優待。大家相信我們能夠達到非常高的upside,希望我們更加專注通用具身智能模型的大目標。”王潛自信地說道。


    以下是記者和自變量機器人創始人王潛的對話。內容略經編輯:


    “一體式的端到端模型,發展天花板更高”

    記者:最近的半年時間,公司在模型能力層面上有什么比較重要的新進展?


    王潛:我們進展速度還是很快的,平均每2-3個月會更新一版模型。


    以前自變量的模型是一個純粹輸出action(動作)的模型,是多模態進,單模態出。從去年10、11月開始,我們開始做any-to-any的模型,是多模態進,多模態出,除了輸出action(動作),也可以輸出語言和視覺等。


    在全模態融合的框架下,自變量也做很長的COT(思維鏈)。差不多就在這兩次融資之間,我們把思維鏈做出來了。


    今年3月,Google Gemini robotics公布了他們的進展,也是類似的做法:any-to-any和COT。最近Physical Intelligence(PI)新發布的π0.5也做了類似的事情。所以實際上我們非常早地就預判到了技術進步的方向,和PI等國外玩家做這個事的時間差不多。


    所以我們敢說我們的模型水平基本上和PI、和google在同一個水平線上。因為的確是在相近的時間做出了類似的事情,達到了類似的效果。而國內廠商普遍才剛起步要往這個方向去做,進度上就會差得比較多了。


    記者:現在統一的端到端VLA大模型(Vision-Language-Action Model)已經成為主流技術路線了嗎?


    王潛:對,這很大程度是受到了去年十月份PI的新模型發布的影響,大家會看到端到端是一個好的方向,是一個大趨勢。


    現在基本上不管信不信,大家至少會打這個旗子。但實際上做得好與壞,或者說有沒有真的去做端到端,還是有較大差異。同時,你會發現市場上有很多的所謂的“定義學”,重新“發明”什么叫端到端。


    補充一下,端到端路線也有兩種不同的做法,一類是像Figure的兩層模型路徑:high level的VLM來做reasoning、planning,low level的VLA來做實際的動作生成部分;另一類做法就是不作區分,一體式的端到端。


    我們早期也嘗試過兩層模型,但發現單層模型的天花板明顯高于兩層的,所以自變量傾向于統一的端到端范式。


    圖源:企業授權 


    記者:和端到端并行的技術路線是什么?


    王潛:和它并行的就幾種,現在其實大家已經不怎么做了。主要是通過三維視覺或者其他的方法做感知,再加上一些傳統控制,做一些Pick&Place操作(指抓取、放置)。


    以上方式可能在某些場景,比如說特別簡單的Pick&Place任務,包括上一代的工業自動化的場景,但這明顯不是我們要追求的。Figure和波士頓動力之前都是這種方式,現在已經轉向端到端了。


    記者:現在自變量的具身智能模型能力,如果類比AI大模型,處于哪個階段?


    王潛:我覺得還處于GPT-2的階段,GPT-3當時有一些明顯的特征,是在我們今天的模型上沒有足夠的scale去達到的。業內像PI和google的進度也差不多,這是由Scaling Law的客觀規律決定的。


    記者:國內具身智能大模型要實現商業化還需要多長時間。


    王潛:其實基本上快的話就是一年左右的時間點,慢的話可能就是兩年左右。我指的是真正的商業化,能夠實際意義上的讓用戶愿意去付費。當然商業化也分不同階段,要進入C端,比如家庭的保姆機器人或者室內服務機器人,時間要更慢一些,可能是3-5年。


    大家普遍是會高估短期的技術進步,低估中長期的技術進步——它比大家想象的會快一些。


    記者:提到具身模型訓練,大家都會說數據短缺是個瓶頸,你們的數據夠嗎?


    王潛:數據是一個有時間線的問題。比如一開始對具身模型沒有任何感知、沒有理解的情況下,大量收集數據未必是正解,可能收集到的大部分數據是沒有用的,或是低質量的。所以對具身智能有多少了解,其實就應該匹配多大的數據規模。


    提升數據收集規模只是一方面,怎么把數據質量做好,深刻地理解需要什么樣的數據則是另一方面。自變量之前做了很多后者的工作,這樣是更高效的方式。


    目前一些開源的數據集、第三方數據,數據質量普遍不過關,如果實際去用此類數據訓練,模型效果不會特別好,這些數據可以作為補充,但不能完全依賴,目前我們的數據主要靠自己采集。


    記者:這一波具身智能熱潮,國內創企普遍花錢還挺謹慎的,好像在為冷靜期做儲備,你怎么看?


    王潛:首先自變量花錢還是比較謹慎的,不該花的錢絕對不花。我們做的是長線的大事,需要為行業可能的波動做準備。


    但另一方面,該花的錢還是要花,不花錢的確做不出東西來。如果一直等國外的開源成果來follow或抄作業,實在沒出息,而且根本無法實現通用機器人的最終目標。


    信心問題、過冬問題,其實反映出來的是能力不足,所以信心不足。如果真的有足夠的能力和判斷,是不會這么去想這個問題的,最初的團隊基因和能力水平會決定很多戰略上的判斷和看問題的方式。


    說到底,行業的波谷為什么會來?是因為行業沒有做出實際成果來,做出來了,就自然會有一個波峰。為什么不去做引領波峰的公司,引領投資熱潮,而要被動的適應環境呢?我覺得這才是一個創業者應該有的心態。


    “部分商業化場景的價值和意義存疑”

    記者:投資人都是怎么評估自變量的技術能力?靠DEMO視頻嗎,還是現場真機演示?


    王潛:我們都是真機演示,自變量從成立第一天,就堅持真機演示是第一位的。視頻有太多可以造假的方式了?,F場才能夠看到模型真實的表現,甚至于需要去現場和機器人互動,進行一些人為干擾,看看模型在各種各樣的極限情況下會有什么樣的表現,這才真正能體現模型的水平。


    記者:到現在這個估值體量,投資人現在會對自變量有商業化的要求嗎?


    王潛:分投資人。有的投資人比較看重具身智能模型能力可以達到多高的上限,另一部分投資人比較看重商業化,不同投資人的偏好風格差距還是挺大的。


    自變量有些特殊,不謙虛地說,我們就是處于國內具身智能模型領先地位的,投資人對于第一名天然是有一些優待。大家相信我們能夠達到非常高的upside,所以不會要求我們為商業化而商業化,大家更希望我們去做“有價值”的商業化,希望我們更加專注通用具身智能模型的大目標。


    記者:你們現在還沒有發布本體產品吧,怎么達到另一部分投資人商業化的要求。


    王潛:我們其實現在已經有本體產品了,只是還沒正式對外大規模發布。而且我們的本體產品已經有實際的銷售和落地了,主要應用在偏服務業的場景。除了目前的型號之外,我們還會再推出新的本體。


    圖源:企業授權 


    記者:現在具身智能進入服務業技術成熟了嗎?


    王潛:我們和種子客戶現在還處于POC(概念驗證)的階段,今年年底到明年年初還是很有希望,當然目前也還需要做大量的工程工作。而且我們不會局限于簡單的Pick&Place操作(即Pick抓取和Place放置)。


    過于簡單的Pick&Place操作,對于具身智能模型的進一步訓練和發展沒有幫助,上一代技術其實也完全可以實現,甚至純自動化的技術也能滿足。自變量還是希望能夠做一些以前所有技術都沒辦法覆蓋的,足夠多樣、足夠復雜、足夠開放的場景。


    記者:今年底或明年初就完成POC進入實際應用的話,會是一個什么樣的利潤率水平。


    王潛:傳統的服務機器人能做的事情比較單一,而我們的機器人是通用的,機器人能力不同,創造的價值不同,市場競爭態勢和客戶的付費意愿也不同。當然早期階段盈利并不是最重要的目標,主要還是希望通過理解實際場景的需求打磨產品。


    記者:同行出貨更多的在科研教育和商城迎賓這倆場景,這兩個場景更成熟吧。


    王潛:雖然這也是在做商業化,但這兩個場景商業化的價值和意義還有待商榷,感覺更多可能是為了滿足投資人對于商業化的要求,而不是真的相信這件事情可以通往真正想要去的大的目標(通用具身智能)。


    科研和迎賓這兩個場景本身市場總規模不大,不可能當做具身智能最終面向的目標市場。這兩個場景可以作為“沿途下蛋”的產物,但如果把它作為一段時間的主要方向,就可能偏離最終的目標。


    記者:這兩個場景確實規模不大,但是不是也有可能和其他小場景共同造出一個不大不小的市場來,足夠讓一家公司做到上市體量,比如某公司的投資方說過,“僅來自股東方的需求可能就創造出幾萬臺機器人的銷量”。


    王潛:問題是這種上市有什么意義呢?這幾萬臺做完了之后呢?不能說這幾萬臺的需求做完之后,就不做生意了。


    記者:如果具身智能比AGI更難,永遠實現不了,抓住科研和迎賓這種小市場,是不是一種務實?


    王潛:我覺得大可不必,如果創業者不相信具身智能,為什么要去做呢?如果認為具身智能是非常遙遠、幾十年后才會出現的事情,那根本就不應該現在進入這一領域。


    記者:你怎么看工廠場景?最近Figure被外媒報道,Figure的人形機器人在寶馬工廠里打工的事情有夸大的嫌疑。


    王潛:現在人形機器人進工廠,能落地的事情非常有限,其實就是一個PR(公關)行為。


    實際工廠對速度和準確率有很高的要求,很多公司目前在做的任務其實還是更適合用上一代技術來實現。


    比如流水線相對來說,還是一個比較封閉、固定的環境,反而不利于發揮具身大模型所追求的復雜操作,開放、隨機、動態環境和場景、泛化性的要求等,具身機器人在一般的工廠場景里也學不到什么,場景太簡單了,對于模型能力提升幫助非常有限。


    自變量更傾向于選擇復雜的場景,復雜場景才能真正促進模型能力有效提升,也是真正意義上存在客戶需求、用戶愿意買單、替代完成人類不愿意做的事情的領域。


    經濟學中一直有所謂是需求創造供給,還是供給創造需求的爭議,在具身智能這一Moonshot領域,是很明顯的供給創造需求。


    “對于大部分軟硬一體的東西來說,開源都是很差的一種模式。”

    記者:美國同行的估值更高,資金更多,中美之間的具身智能模型水平是不是有差距?


    王潛:國內的整體水平相比于國外肯定還是差的,而且差得不少。我們重點關注的國外同行包括Physical Intelligence(PI)、google、特斯拉。


    但就目前來說,我們還是有很大的機會能夠和美國在同一個水平線上去發展。甚至我們有機會在今年或者明年超過他們。


    我覺得大家會有覺得國內做的不如美國的心態,可能和過去長期處于“跟隨者”的角色有關。但在具身智能的發展實際中,沒必要過于自我懷疑。以自變量為例,我們能做到的模型水平已經能夠和PI等國際頂級團隊在同一個水平線上,在部分指標上甚至實現了超越。


    記者:第一梯隊的PI已經開源了機器人通用基礎模型π0,這會不會把大家的水平拉平?


    王潛:PI開源到現在差不多半年的時間,國內有一些企業也嘗試在其基礎上進行微調,但從實際效果來看,并不會明顯優于其他開源方案,更無法完整復現PI團隊在其自有機器人本體上的表現。實際上,跨本體適配的問題依然是一個重要挑戰。


    記者:PI的π0微調之后,可以應付什么樣的商業化場景?


    王潛:目前來看,在新本體上微調后π0的能力會有比較大的損失,在商業化場景中的實際應用比較有限。實際上PI之所以選擇開源,很大程度上在于其自身難以直接商業落地。PI本身并不做硬件,需要依賴其他企業將模型和硬件結合來落地,所以它才會采取開源模型這樣的方式。


    記者:和AI大模型創業一樣,不貿然投入,等國外先進模型開源后再跟隨,是不是也不失為一種好策略?


    王潛:這乍聽上去像是一個好策略。但是第一,靠抄能不能抄得到是個問題,具身智能不像語言模型可以蒸餾,它復現的難度很大。復現開源模型過程中,由于之前沒做過,該踩的坑還是要踩,其實并沒有節省多少時間。


    其次,這么做整個公司的精氣神兒就沒有了。如果自己都不相信自己能做成,那憑什么讓和你一起做這件事的人相信公司可以。


    去做一件有意義的事情,是需要專注、信仰和創造力的。如果靠等待和抄作業,在科技創新領域,就只能是做一些很平庸的事情,永遠成就不了一家偉大的公司。


    記者:具身智能有可能跟AI大模型一樣形成開源和閉源兩個陣營嗎?


    王潛:本質上,對于軟硬一體的領域來說,開源是一個偽命題,至少不是商業化的命題。之前的無人機、自動駕駛等,在發展的過程中都有大量的開源,但最終所有的開源都沒能成功。


    大家現在對開源會有一些期待,或者說比較敏感,本質上是因為人們看到在語言模型賽道,開源會有一些好的效果。但軟硬一體的東西和純軟件不一樣,軟件如語言模型,模型本身即產品,部署后可以立刻使用,很自然地獲得C端的影響力。


    但是具身智能模型還需要搭配硬件才能成為產品,和人交互的界面、應用的實體是硬件,所以很難獲得廣泛意義上的聲量,目前只能影響學術界、極客圈子以及行業內群體。


    比如π0模型在去年發布的時間點絕對是當時世界領先的模型,但它在大眾端并沒有激起什么水花。所以具身智能的商業化肯定不能靠開源來實現。


    第二,具身智能這個領域還是有特殊性。比如A實驗室開源了一個具身智能模型,全世界沒有任何一個實驗室能夠100%的復現出來開源實驗室在他們自己環境下能做到的東西。不要說完整的復現,哪怕是大部分的復現也都很難實現。語言模型可以去蒸餾,但在硬件領域,不可能脫離機器人把數據蒸餾出來。

    (審核編輯: 光光)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    主站蜘蛛池模板: 全自动冷冻研磨仪-高通量组织研磨仪厂家-「杭州宋慈智能科技」 | 太原万通汽车学校[官网]-太原好的汽修培训学校,学新能源汽车技术,学汽修,学汽车检测与维修技术 | 首页-南德电气集团-电能质量产品解决方案|能源数字化系统解决方案|新能源检测评估服务|电力/光伏/储能EPC工程总承包 | 液压尾管悬挂器,机械式尾管悬挂器价格,石油套管扶正器厂家,连续油管悬挂器,高压双塞水泥头,免钻塞注水泥分级箍,单塞套管水泥头价格,弹性套管扶正器,铸铝钢性扶正器,钢性套管扶正器厂家 | 内衬不锈钢复合管,大口径内衬不锈钢复合钢管,双金属复合管,内衬不锈钢复合管厂家-江苏新澎 | 游离二氧化硅处理仪-恒温恒湿称重系统-智能蒸馏仪-硫化物酸化吹气仪-萃取仪-COD消解仪 | 液体粉末包装机_颗粒粉剂自动包装机-上海巧慈自动化设备有限公司 | 中式婚礼_汉服婚礼_传统婚礼_婚庆公司_云歌婚礼策划【官网】 | 昆山开曼流体系统科技有限公司| 湖南净声源环保科技有限公司是一家专业从事噪声治理和建筑声学设计生态环境综合治理服务的企业,专业从事株洲电梯隔音治理,湘潭中央空调降噪处理,衡阳邵阳冷却塔噪音治理,岳阳常德大型风机噪声隔音降噪,张家界空压机噪声治理,益阳配电房变压器噪声治理,专业郴州永州工厂企业车间噪声治理,怀化娄底专业机械设备减振降治理,武汉噪音治理隔音降噪公司,孝感噪音治理,立式球磨机的噪声控制,专业隔音降噪公司,、以及各类机械动力设备减振降噪噪声治理的公司,同时为客户提供咨询与解决方案 | 湖南实验台-防静电工作台-实验设备厂家-长沙实验室设备有限公司-湖南贝塔实验室设备有限公司 | 猪粪烘干机|小型鸡粪烘干机|猪粪烘干机价格|小型鸡粪烘干机价格 - 河南宏科重工干燥机设备生产厂家 | 交通标志牌-交通标牌-铝圆牌-铝三角片-铝滑槽-公路警示指示牌-方牌-高速道路反光牌毛坯-交通设施安全警示标识牌-路名指示限速限高牌-厂家加工交通标牌铝板半成品毛坯-上海吕盟铝业有限公司 | 萍乡市耀天化工有限公司 | 康拓威技术(深圳)有限公司|Theia镜头代理商|安讯士AXIS摄像机|安讯士监控系统|博世BOSCH监控|博世会议系统|索尼SONY监控|松下PANASONIC监控|三星韩华SAMSUNG监控|霍尼韦尔Honeywell|海康|大华|华为监控|Theia无畸变镜头|AXIS监控|安讯视摄像机 | 久久91精品久久91综合_国产亚洲自拍一区_国产精品第1页_亚洲高清视频一区_91成人午夜在线精品_亚洲国产精品网站在线播放_亚洲国产成人久久综合区_国产精品亚洲专区在线观看_免费视频精品一区二区三区 | 烧腊培训,广东有实力的烧腊培训[免费试吃],广式烧鸭培训-烧鹅培训-学烧腊选广州嘉政 | 重庆宏工_隧道取芯钻机_公路护栏钻机-车载式钻机_打钻一体机_护栏抢修车_隧道钻机-工程机械 | 两面针(江苏)实业有限公司-原两面针(扬州)酒店用品有限公司 | 泰安兴润建材有限公司,泰安井盖定做,泰安警示桩定做,泰安雨水篦子定做,泰安操场篦子定做,泰安标志牌定做 | 截止阀,电动,气动,手动,化工截止阀-上海申弘阀门有限公司 | 郑州办公家具厂_河南办公家具厂_河南办公家具-河南华诺家具 | 山东胜王水处理设备有限公司,反渗透设备,纯净水设备,污水处理设备,SWS系列全自动钠离子交换器,纯净水设备报价,活性碳过滤器,多介质过滤器 | 無谷轻食官网_沙拉轻食加盟_轻食加盟总部_轻食加盟费用 | 气动量仪厂家-郑州华峰仪器有限公司 | 山东鑫佳日化_洗衣粉生产厂家,从事洗衣粉加工出口 | 筱晓(上海)光子技术有限公司官网,MCT探测器,半导体激光二极管,中红外QCL激光器,光纤放大器,光电探测器 | 烟台广告公司-烟台仁和图文广告制作有限公司 | 水溶肥料-大量元素水溶肥-含氨基酸水溶肥料-高塔复合肥-水溶肥生产厂家-河南中黄特肥科技有限责任公司 | 塑木地板,塑木栏杆,塑木地板价格,塑木地板厂家—浙江尚元塑木制品有限公司 | 上海垃圾房,简易成品环保垃圾房,小区室外垃圾房,上海翼亭智能垃圾房厂家 | 沈阳机电一体化电热锅炉_沈阳蓄热式电锅炉_沈阳壁挂式电锅炉【沈阳远鹏电热供水设备工程安装有限公司】 | 陕西柱塞泵厂家_智能张拉设备_桥梁施工设备_千斤顶_液压分裂棒_液压分裂枪|陕西中拓矿山设备有限公司 | 斩天手游网_高质量手机游戏下载中心| 华药药业集团|华药修医师|修医师浸膏|河南华药药业有限公司 | 无尘车间_净化工程_GMP食品药品化妆品电子厂无尘净化车间_无尘室 | 衢州网站建设_网络公司_做网站_网站制作_网页设计-优骆网络 | 金属标牌,镍电铸,电铸铭牌,标牌定制-青岛大东电铸标牌制作厂家 | 意优教育|意大利留学中介_意大利留学费用_意大利申请条件_北京意大利语培训学校 | 全球无人机网(81uav.cn)_无人机买卖、租赁服务、培训的最大门户网站 | 天津止回阀-止回阀报价/哪家好-天津蝶阀/进口阀门/通风蝶阀批发-闸阀阀门/球阀生产厂家-天津凯维斯阀门制造 |