文:志剛@互聯(lián)網(wǎng)江湖
電影《I, Robot》的劇情,終于要在現(xiàn)實上演了?
這兩天,應(yīng)朋友邀請來了一趟上海,世界人工智能大會在上海開幕了。
這屆WAIC2025,參展的企業(yè)很多,不少都是做技術(shù)應(yīng)用的企業(yè),也有不少車企。
六座特斯拉剛公布沒多久,我就想著到特斯拉展臺看看??蓻]想到真正勾起我探索欲的,卻是隔壁的另一家做大模型的企業(yè):蘑菇車聯(lián)。
這屆WAIC大會上作為中美自動駕駛玩家的代表,特斯拉帶來了賽博皮卡,蘑菇車聯(lián)發(fā)布了首個實時理解物理世界的MogoMind大模型。
MogoMind大模型是一個為多類型智能體提供物理世界實時信息的深度理解和規(guī)劃決策服務(wù)的大模型,簡單地說,蘑菇車聯(lián)給大模型裝上了認識真實世界的眼睛。
皮衣教主老黃不久前說,下一波浪潮將是物理AI。
對此我深以為然。我一直都認為,DeepSeek、ChatGPT、可靈、sora涌現(xiàn)只是個開始,AI真正的浪潮,應(yīng)該是有更多物理交互的AI。
也因此,MogoMind這樣能夠?qū)崟r理解物理世界大模型,才更有看頭。
01、用現(xiàn)實喂出來的AI,能有多炸裂?
MogoMind大模型與其他AI大模型最大的一個不同在于,它是從實時物理世界里長出來的,別的AI大模型是喂數(shù)據(jù),而MogoMind本質(zhì)上是喂現(xiàn)實。
MogoMind的數(shù)據(jù)不是產(chǎn)生于某個特定的數(shù)據(jù)集,而是通過接入物理世界實時動態(tài)數(shù)據(jù),形成全局感知、深度認知。
舉個例子,在交通場景下,依靠攝像頭、激光雷達等硬件,MogoMind能實現(xiàn)實時全局感知,對暴雨、大霧等惡劣天氣以及道路施工、突發(fā)事件等特殊狀況,MogoMind都能快速認知理解。
如果發(fā)生突發(fā)交通事件,MogoMind可在數(shù)秒內(nèi)實現(xiàn)交通事件的超視距實時感知,迅速計算出受影響的路段范圍,然后將預(yù)警信息推送至周邊車輛和交通管理部門。
這個能力多炸裂?相當于給駕駛員開天眼。
記得去年7月份的山洪導致高速路橋垮塌的新聞嗎?試想一下,如果能夠部署能感知現(xiàn)實環(huán)境的大模型來預(yù)警,事故傷亡是不是可能就會減少甚至避免發(fā)生?
除了識別風險實時預(yù)警這樣的開天眼的能力,在城市交通中,MogoMind也能感知全局,優(yōu)化信號燈時長、遭遇交通事故時實時規(guī)劃路徑,提升整體的道路通行效率。
MogoMind與傳統(tǒng)大模型的不同在于,它解決了大模型應(yīng)用的兩大核心問題:
第一:具有實時感知現(xiàn)實世界的能力。
從現(xiàn)實世界里學習,然后通過物理交互反饋到現(xiàn)實,是MogoMind最大的特點。
DeepSeek也好ChatGPT也罷,市面上的大部分自然語言模型,大都由互聯(lián)網(wǎng)的數(shù)據(jù)集訓練而來,所以,語言大模型參數(shù)的大小,一定程度上代表能力的大小。
互聯(lián)網(wǎng)上的信息,其實是二手信息,是由人們創(chuàng)造,而且很可能會失真。比如AI說謊的問題。
今年3月份,哥倫比亞大學一份針對主流AI搜索工具的研究發(fā)現(xiàn),在測試了8款A(yù)I搜索工具后,發(fā)現(xiàn)AI引用新聞方面平均出錯比例達60%。
各種各樣的AI大模型工具應(yīng)用越來越多,今天的AI不缺創(chuàng)造世界的能力,而是缺認知物理世界的能力。
感知、理解真實世界,才是AI生產(chǎn)力的應(yīng)有之義。
與其他自然語言模型不同,MogoMind大模型則是直接通過傳感器獲取,比如攝像頭、毫米波雷達。
換言之,MogoMind是從現(xiàn)實的應(yīng)用場景里面長出來的。
自此,AI大模型技術(shù)不再是紙上談兵,而是在現(xiàn)實世界里,能給人類的混亂無序在物理意義上糾偏。
對此,我稱之為:物理原生模型。
實際上,物理原生模型能夠更多地幫助人們解決現(xiàn)實的問題,而數(shù)據(jù)原生模型適合作為信息生產(chǎn)力工具,后者多是面向C端的內(nèi)容、創(chuàng)意工具產(chǎn)品。而前者更多地構(gòu)成AI影響物理世界的基礎(chǔ)設(shè)施。
之所以產(chǎn)出如此大的差異,原因之一可能在于,認識感知真實世界的AI模型,也同樣擁有解決復(fù)雜的現(xiàn)實問題的能力。
就引出了第二個問題:物理原生模型有著全局視角下的AI推理、實時決策的能力。
實際上,多維的現(xiàn)實數(shù)據(jù)的感知、推理、分析、決策能力,使得AI大模型實現(xiàn)了從單點智能到全局智能,由此,AI大模型逐漸跨過單細胞時代。
過去的AI大模型的單點智能,就像是生命進化到單細胞生物階段。只能對單一環(huán)境信息作出反應(yīng),執(zhí)行單一場景的任務(wù)。
而有了實時物理感知能力和全局AI認知系統(tǒng),就有了感知復(fù)雜環(huán)境,并做出應(yīng)對的能力。從而過渡到多細胞時代。
我們還是以MogoMind大模型為例,MogoMind擅長處理視頻、圖像、文本、氣象等多源數(shù)據(jù)進行深度融合分析,所以,能夠?qū)崿F(xiàn)對物理環(huán)境信息實時認知理解。
試想這樣一個場景,暴雨天氣城市積水路段,司機很難判斷前方涉水深度是否能安全通過,而AI大模型可以結(jié)合實時天氣數(shù)據(jù)以及歷史事故數(shù)據(jù)預(yù)測潛在危險區(qū)域。從而有效避免人身、財產(chǎn)損失。
總體來看,與DeepSeek、ChatGPT們很不同,MogoMind基于現(xiàn)實數(shù)據(jù)的大模型能力很特別。
看得出來,蘑菇車聯(lián)選擇的這條路,很有前景也很有想象力。他們的目標其實是實現(xiàn)一件事兒:把AI的數(shù)字世界,與我們生活的物理世界融合起來。
MogoMind看似做的是大模型,但其實是在做一個連接AI與現(xiàn)實的操作系統(tǒng)。
這個操作系統(tǒng)能夠用AI連接很多領(lǐng)域,比如自動駕駛、智慧交通、城市治理,還能與無人機、機器人產(chǎn)業(yè)深入融合。
目前蘑菇車聯(lián)的兩大業(yè)務(wù)板塊是AI網(wǎng)絡(luò)和自動駕駛車輛。
基于MogoMind大模型,蘑菇車聯(lián)打造出一系列具備AI能力的產(chǎn)品,并在多個城市應(yīng)用落地。比如,在進入嘉定區(qū)實時數(shù)字孿生路口,看到車輛實時信息,例如速度、經(jīng)緯度、大小完全瞬時還原成數(shù)字孿生畫面。
這些實時數(shù)據(jù),可通過布設(shè)路側(cè)智能終端或利用已有的攝像頭等方式來獲得,然后通過AI大模型解讀分析后,再將有價值信息通過5G和C-V2X等通信技術(shù),傳輸交管部門等應(yīng)用側(cè),
對于交通領(lǐng)域參與量級最大的車輛終端,AI網(wǎng)絡(luò)同樣可以提供實時數(shù)據(jù)、實時預(yù)警和安全效率類幫助信息。
自動駕駛車輛業(yè)務(wù)方面,目前L2+級別的軟件已經(jīng)上車,RoboBus、RoboSweeper 和RoboTaxi也已經(jīng)在北京、上海、天津等十余個城市落地運營?;谖锢硎澜绲恼J知模型,這些已經(jīng)上路的車輛,進一步深入AI大模型與物理世界的深度交互。
看完蘑菇車聯(lián)站臺的內(nèi)容,我不由得想到了由阿西莫夫小說改編的電影《I, Robot》。其中有這么一段的劇情:威爾·史密斯飾演的警探發(fā)生交通事故之后,AI迅速出警處理事故現(xiàn)場。
這部電影于2004年上映,不由感慨,短短二十年后,科幻電影里的場景,終于有可能變成了現(xiàn)實。
其實很多科幻電影中的概念,都正在成為現(xiàn)實。
比如,數(shù)字孿生。所謂數(shù)字孿生,簡單地講,就是用數(shù)據(jù)模擬現(xiàn)實世界,然后工程師、設(shè)計師可以在虛擬的世界里,低成本搞出來各種創(chuàng)新、創(chuàng)造。
現(xiàn)在各個行業(yè)比如汽車、飛機乃至火箭的設(shè)計、制造過程中都有數(shù)字孿生技術(shù)的身影。
數(shù)字孿生之外,其實還有一個更炸裂,更科幻的概念:實時孿生。
所謂實時孿生,就是AI能夠認識、理解物理世界之后,通過數(shù)據(jù)模型的推演、決策,來實時解決現(xiàn)實里的問題。
聽起來有些科幻,但這就是MogoMind大模型在做的事情。
從數(shù)字孿生到實時孿生,本質(zhì)上是給AI一個自我生長的機會。從認識真實世界,到自我感知世界,AI便有了自我進化的機會。
由此,當AI生長出自我進化的能力,將來再與機器人產(chǎn)業(yè)結(jié)合,這便是未來二十年AI技術(shù)真正的想象力所在。
02、一場待來的物理AI應(yīng)用革命
教會AI認知物理世界的能力,是AI技術(shù)應(yīng)用的必然趨勢。而MogoMind則踏出物理AI應(yīng)用革命的第一步。
AI大模型應(yīng)用最有前景的兩個領(lǐng)域:機器人、自動駕駛。
本質(zhì)上這兩個領(lǐng)域的核心是一種技術(shù)體系:AI對于物理世界的影響和反饋。
馬斯克的理想與最終目的是上火星,但還是創(chuàng)立特斯拉,搞自動駕駛,然后又搞機器人。本質(zhì)上,這是從第一性原理的角度出發(fā):一種技術(shù)要改變世界,必須是能反映到現(xiàn)實層面里的。
AI也是這個邏輯。
當前的AI技術(shù),影響數(shù)字世界的比例太多,影響現(xiàn)實世界的比例還是太少了。
未來AI生產(chǎn)力要發(fā)展,需要一場物理AI應(yīng)用革命。
MogoMind的影響在于,它構(gòu)建了一套基礎(chǔ)交通場景下的AI實時物理感知能力和全局認知系統(tǒng),相當于授AI以漁。
這就好比老師教一個在幼兒園階段的孩子,要想讓孩子未來成為棟梁,就先得教他正確認識這個世界,然后對于物理世界要做出正確的反饋。
在教AI認識世界這件事兒上,MogoMind大模型踏出了關(guān)鍵的第一步。
還是拿出行領(lǐng)域來說,今天的AI大模型、自動駕駛技術(shù)、蓬勃發(fā)展,正如當年工業(yè)革命如火如荼,汽車工業(yè)快速增長一樣。
當年的技術(shù)為什么能迅速改變世界?
其中一個原因可能在于蒸汽機、內(nèi)燃機技術(shù)對物理世界的影響足夠直接。
跨入信息時代,人們創(chuàng)新知識的速度變快了,但技術(shù)對于物理世界的影響也變得沒那么直接了。
比如互聯(lián)網(wǎng)技術(shù),不是直接推動生產(chǎn)力,而是改變生產(chǎn)關(guān)系,進而推動社會發(fā)展。
AI時代與互聯(lián)網(wǎng)時代不同,技術(shù)對物理世界的影響正在重回主流。你看,DeepSeek、ChatGPT之后最火的不還是機器人、自動駕駛等產(chǎn)業(yè)?
在出行這個領(lǐng)域里,這種更直接影響表現(xiàn)的會更明顯。
比如,全局感知的實時交通數(shù)據(jù)流分析、決策,改變了出行效率,早上出門上班通勤,路上明顯不堵車了。
再比如,AI多模態(tài)數(shù)據(jù)理解和復(fù)雜場景認知能進一步提升車輛自動駕駛能力,有了更強的輔助駕駛,開車這件事兒變得更加輕松、愜意了。
也許,我們數(shù)十年后再回看今天發(fā)布的MogoMind,這些感受可能會更深。
其實不只是出行,如果放在整個AI產(chǎn)業(yè),AI大模型技術(shù)融合物理世界,也將成為一個重要的技術(shù)演化節(jié)點。
紅杉AI峰會上,OpenAI CEO 奧特曼預(yù)測了未來三年AI改變我們的生活的三種方式。他認為,2025年,AI智能體真正開始走向?qū)嵱茫?026年,AI做出重大科學發(fā)現(xiàn),推動下一波經(jīng)濟增長;2027年,AI將進入物理世界創(chuàng)造價值。
當然,AI真正改變物理世界創(chuàng)造價值,還需要一個演化階段。
互聯(lián)網(wǎng)技術(shù)被發(fā)明出來之后,微軟做出了office,谷歌做出了Chrome,人們才能把PC這個工具用起來。后來,隨著摩爾定律演化,PC信息處理的速度幾何倍上升,股票交易速度更快了、信息傳遞的速度也更快了。
由此,互聯(lián)網(wǎng)從技術(shù)生態(tài),走向了經(jīng)濟生態(tài)。
AI改變世界也需要從技術(shù)生態(tài),走向經(jīng)濟生態(tài)。這也是AI大模型技術(shù)融合物理世界的意義。
AI融入物理世界,是能產(chǎn)生很多經(jīng)濟效益的。比如,自動駕駛降低了出行成本和風險,那么周邊旅游是不是就更火了?再比如,在某些特定行業(yè),有機器人替代人們做危險系數(shù)高的工作,是不就能減少必要的安全風險成本?
從機器人到自動駕駛、從出行到千行百業(yè),AI進一步融合物理世界,人們經(jīng)濟活動的增長范式,或?qū)⒕痛烁淖儭?/p>
當AI融合物理世界足夠深,機器人實體的成本進一步降低,電影里的全民Robot的時代,也許真就不遠了。
看完覺得寫得好的,不防打賞一元,以支持藍海情報網(wǎng)揭秘更多好的項目。