業(yè)內(nèi)關(guān)于如何最大限度激發(fā)大模型潛力,以及打造新質(zhì)生產(chǎn)力的爭論似乎將在今年落下帷幕。眼下,大模型成為 爆改千行百業(yè)的抓手,讓一切相關(guān)技術(shù)的突破都來得熱鬧且快速。
不過,大多數(shù)突破都只是停留在基礎(chǔ)模型層面和淺層應(yīng)用,我們能看到無數(shù)大模型的落地妙想,只是于生產(chǎn)力的本質(zhì)和商業(yè)化程度而言,卻與此前大差不差。究其原因在于這些技術(shù)性的突破大多停留在Demo階段,技術(shù)產(chǎn)品化難言成熟,以至于有人用期貨調(diào)侃。
比如于年初掀起多模態(tài)革命的Sora,這款產(chǎn)品迄今都未曾正式發(fā)布。而引爆全球的LLaMA 3.1,仍舊是基于Scaling Law的基礎(chǔ)模型。就算其為開源派壯了不少聲勢,但受限于meta一次性可調(diào)用的GPU數(shù)量,這個爆點(diǎn)對渴望落地的國內(nèi)大模型賽道的推動亦有限。
在眾多卷基礎(chǔ)大模型能力的企業(yè)中,我們發(fā)現(xiàn)京東云選了不一樣的路徑。
7月30日,京東云峰會上,京東集團(tuán)技術(shù)委員會主席、京東云事業(yè)部總裁曹鵬提出,通用大模型是靠算力堆起來,企業(yè)大模型要靠業(yè)務(wù)跑出來。供應(yīng)鏈?zhǔn)蔷〇|跑馬大模型前沿技術(shù)和產(chǎn)業(yè)應(yīng)用的天然練兵場,當(dāng)其他企業(yè)還在訓(xùn)練大模型或攻堅智能體時,京東內(nèi)部已經(jīng)上了手。
據(jù)了解,過去一段時間中,京東在超100個AI場景已經(jīng)全面鋪開大模型應(yīng)用,近35萬京東自有配送員、超23萬商家、超5萬副主任級別以上醫(yī)生、超2萬采銷運(yùn)營、超1萬研發(fā)人員都在使用,并拿下了大模型時代的首個大規(guī)模商業(yè)化應(yīng)用里程碑——京東云言犀數(shù)字人。
透過數(shù)字人的商業(yè)化突破,京東言犀大模型無論是技術(shù)能力還是應(yīng)用落地,都得到了來自大量實(shí)際場景專業(yè)數(shù)據(jù)的喂養(yǎng)。可以說,本次京東云在峰會上發(fā)布的包括言犀數(shù)字人3.0平臺、言犀智能體平臺以及企業(yè)構(gòu)建大模型全棧服務(wù)等產(chǎn)品,不過是其基于深度產(chǎn)業(yè)knowhow和供應(yīng)鏈場景的水到渠成。
讓大模型在產(chǎn)業(yè)里先跑起來,數(shù)字人吹響前哨
數(shù)字人實(shí)際上是諸多技術(shù)融合的載體,京東探索研究院院長、京東科技人工智能業(yè)務(wù)負(fù)責(zé)人、IEEE Fellow何曉冬博士提到,文案生成、語音融合、形象渲染、多模態(tài)等能力高低都會影響數(shù)字人的實(shí)際落地情況。
因此,數(shù)字人才被視為當(dāng)下大模型多模態(tài)技術(shù)落地的諸多場景中,跑得最快,商業(yè)化最成熟,且實(shí)際應(yīng)用頻率最高的一個。
眾所周知,不論是大模型的技術(shù)產(chǎn)業(yè)適配還是多模態(tài)的技術(shù)內(nèi)需,其面對的一大挑戰(zhàn)便是需要不同類型的數(shù)據(jù)對齊,以及圍繞同類型的能力需要不同建模。這需要一個標(biāo)準(zhǔn)化的interface作為校驗(yàn)多模態(tài)能力以及持續(xù)迭代,就是數(shù)字人。
而今距離采銷東哥數(shù)字人進(jìn)入直播間已過去三個多月,一大批大中小商家在此期間入局。一個重要原因是數(shù)字人降低了直播電商的門檻。對于零售電商而言,以數(shù)字人為代表的AI技術(shù),很大程度上實(shí)現(xiàn)降本提效;對于AI而言,零售電商則是一眾大模型服務(wù)商突破場景壁壘的關(guān)鍵鑰匙。
從品類、客單價、場域的不斷突破,我們能看見數(shù)字人突破場景邊界的清晰脈絡(luò)。無論是大模型能力還是產(chǎn)品化后的AI應(yīng)用,場景都是最好的試金石。
據(jù)了解,京東云言犀數(shù)字人上個階段初步解決了大姿態(tài)、交互等貼合實(shí)際直播場景中的問題,到目前言犀數(shù)字人3.0平臺已經(jīng)上線了100+個性化角色,50+特色行業(yè)屬性場景并以平臺化形態(tài)落地。而轉(zhuǎn)動起場景飛輪的言犀大模型,也在以極快的速度不斷解鎖新能力,逐漸成長為有情感、個性化的數(shù)字人。
語言方面,在不同場景中積累了更多數(shù)據(jù),放大了模型參數(shù)量,讓言犀數(shù)字人在零售、金融等領(lǐng)域的長文本理解和推理能力。語音合成方面,超20萬小時訓(xùn)練量,讓京東數(shù)字人音色的自然表現(xiàn)度上有了明顯提升,一些帶口音的微妙變化都能捕捉到。
京東云言犀技術(shù)團(tuán)隊提到,在數(shù)字人之間的交互已經(jīng)可以做到讓其表現(xiàn)出聆聽狀態(tài)。聆聽姿態(tài)讓數(shù)字人直播從單口到群口,真人與數(shù)字人混播以及多數(shù)字人直播將變成可能。此外,言犀數(shù)字人大模型有更好的通識理解能力,實(shí)現(xiàn)零樣本數(shù)字人生成,這意味著生成新形象,將不再需要預(yù)訓(xùn)練。
實(shí)際場景又為大模型提供了更精準(zhǔn)的數(shù)據(jù)來源,從而轉(zhuǎn)動京東大模型的數(shù)據(jù)飛輪,加速應(yīng)用生長。短短幾個約時間,語音合成所需時間從6月份的6秒,縮短到如今的3-5秒左右。
何曉冬博士表示,大模型的核心人機(jī)交互介質(zhì)是智能體、數(shù)字人、具身智能,分別滿足了云、端、線下不同場景的交互需求,共同構(gòu)建起下一代智能交互的完整觸點(diǎn)。
meta創(chuàng)始人扎克伯格亦在訪談中提到,未來的AI 智能體甚至可能會比人類還多,人們會以各種方式與之互動。
智能體、數(shù)字人、具身智能是滿足不同場景需求,但本質(zhì)上都是基于同一套大模型底座。借由數(shù)字人這項(xiàng)業(yè)務(wù)單點(diǎn)突破而后全面鋪開,在業(yè)務(wù)中生長與進(jìn)化,這是京東云獨(dú)有的產(chǎn)業(yè)驅(qū)動導(dǎo)向的大模型落地路徑。
由點(diǎn)及面,大模型應(yīng)用全面鋪開
雖然我們面向B端服務(wù),但落腳點(diǎn)卻始終在用戶體驗(yàn)升級上,京東云言犀團(tuán)隊認(rèn)為,數(shù)字人B2B2C的底層邏輯讓這項(xiàng)技術(shù)的應(yīng)用落地可以被快速復(fù)制到京東業(yè)務(wù)的方方面面,甚至開辟新的業(yè)務(wù)線,為京東開拓更多AI試驗(yàn)田。
比如,以AI社交為代表的泛娛樂應(yīng)用固然可以在一定助推甚至是冷啟動的情況下,透過年輕化的公域快速裂變,但這類應(yīng)用的留存率卻相對感人。工具類應(yīng)用一定程度上平衡了留存與推薦的權(quán)重,然而缺乏快速裂變的能力,也限制了應(yīng)用本身的場景寬度。
近段時間,一眾AI應(yīng)用層的創(chuàng)業(yè)獨(dú)角獸均被曝尋求收購,很大程度上便源自于此。如用戶大量流失的AI社交應(yīng)用Character.AI,以及無法僅依靠訂閱跑通商業(yè)模式的AI搜索明星Perplexity。
大模型應(yīng)用的可靠性,場景和數(shù)據(jù)飛輪究竟能不能轉(zhuǎn)起來,呈現(xiàn)互為因果的關(guān)系。這也是京東認(rèn)為企業(yè)大模型靠業(yè)務(wù)跑出來的底層邏輯。
從數(shù)字人這個點(diǎn)來看,電商場景的應(yīng)用寬度、深度構(gòu)建了京東大模型的魯棒性,而不同品類的商詳知識、不同行業(yè)領(lǐng)域知識、大規(guī)模交互數(shù)據(jù)則完成了數(shù)據(jù)的互補(bǔ)。這便是應(yīng)用深度為大模型能力帶來的快速躍升。
消費(fèi)是距離用戶最近的場域之一,數(shù)字人在零售電商泛場景的錘煉讓京東的多模態(tài)大模型技術(shù)由點(diǎn)及面成為可能——除電商直播場景外,京東云言犀數(shù)字人還在文旅、金融、智能服務(wù)、政務(wù)咨詢等更廣泛的場景應(yīng)用落地,通過與億級用戶智能交互,帶來下一代交互體驗(yàn)。
比較典型的案例是,京東數(shù)字人的多模態(tài)情感識別能力順暢地延展到了客服場景。我們自京東方面了解到,金融業(yè)務(wù)目前已有超過半數(shù)的用戶在客服場景由數(shù)字人接待,迄今已服務(wù)超過500萬用戶,24小時問題解決率高達(dá)85%,滿意度超90%。
高質(zhì)量的垂域知識也讓京東加快了云端交互為主的智能體的產(chǎn)品化步伐。本次峰會上正式發(fā)布了新一代一站式 AI Agent 開發(fā)平臺——言犀智能體平臺。平臺已接入數(shù)十個大模型,用戶可以低成本快速搭建基于 AI 模型的各類智能體。如今,活躍在京東內(nèi)部的智能體超3300個,平臺還沉淀了100多個行業(yè)解決方案模版。
從產(chǎn)業(yè)中來,到產(chǎn)業(yè)中去。業(yè)務(wù)與問題驅(qū)動的京東言犀大模型無意間加速了技術(shù)迭代的進(jìn)度,這反倒催生了以往未被人注意到的需求。線下文旅場景,基于京東大模型能力的山西大同花木蘭數(shù)字人、江西新余數(shù)字人、云南楚雄數(shù)字人小彝妹以展示大屏、短視頻等終端為載體,豐富游客體驗(yàn)并提速景區(qū)商業(yè)化;企業(yè)側(cè),不少大型企業(yè)也萌生了定制數(shù)十萬員工數(shù)字人形象的需求。
基于大模型這個大腦,多模態(tài)技術(shù)讓用戶的交互界面的變革悄然發(fā)生。
從文字走向視頻化,再走向行業(yè)。我們驗(yàn)證了數(shù)字人大規(guī)模商業(yè)化的突破口,形成了行業(yè)標(biāo)桿的效應(yīng),被問及數(shù)字人乃至京東大模型的應(yīng)用前景時,京東云言犀團(tuán)隊難掩興奮。
畢竟,長期讓規(guī)模跑在商業(yè)化前頭的大模型賽道,可算有了能讓兩者并駕齊驅(qū)的方法論。
邊用邊訓(xùn),轉(zhuǎn)動產(chǎn)業(yè)應(yīng)用的技術(shù)飛輪
越來越多的大模型應(yīng)用,正在京東供應(yīng)鏈上生長,并于京東內(nèi)部超100個AI場景全面鋪開。我們可以隨意像報菜名一樣拉出智能體平臺、總裁數(shù)字人、智能客服、AI外呼,還是面向商家的商家客服京小智、AIGC商品圖生成乃至京東供應(yīng)鏈之內(nèi)小哥終端智能助手、編程助手Joycoder、康康健康助手等一系列應(yīng)用。
不過,應(yīng)用只是大模型服務(wù)商能力輸出的前端,如何授人以漁才是重頭戲。包括訓(xùn)練、精調(diào)、壓縮、拉升等在內(nèi)的大模型能力構(gòu)建才是AIGC時代下,新質(zhì)生產(chǎn)力的內(nèi)生力量。
京東有別于其他模型服務(wù)商的不同在于,其將夯實(shí)基座模型作為過程,目的是從基礎(chǔ)設(shè)施到Agent應(yīng)用,構(gòu)建全場景的大模型服務(wù)能力,持續(xù)推動大模型落地產(chǎn)業(yè),輸出供應(yīng)鏈的行業(yè)knowhow。
就像上半年卷瘋了的長文本,該技術(shù)路徑是大模型接受大量文本數(shù)據(jù)的輸入后,將信息處理并分析推理,最終按不同應(yīng)用場景和需求輸出多種多樣的結(jié)果。
京東透過應(yīng)用,讓大模型這個新質(zhì)生產(chǎn)力在產(chǎn)業(yè)內(nèi)跑起來是輸入,那么其對外開放的企業(yè)模型構(gòu)建能力便是輸出。
我們了解到,京東的大模型技術(shù)在產(chǎn)品化前,都會率先在內(nèi)部完全跑通。尤其是業(yè)已為其所平臺化的數(shù)字人與智能體兩大人機(jī)交互介質(zhì),無論是數(shù)字人的生成還是智能體的構(gòu)建,京東都做到了讓零經(jīng)驗(yàn)的運(yùn)營們拋開算法部門獨(dú)立搭建。
強(qiáng)易用性、零樣本、零幻覺是京東大模型技術(shù)棧產(chǎn)品化的先決條件——可靠性是前提,易用性是基礎(chǔ)。
如果我們再向底層基建下探,就能發(fā)現(xiàn)言犀大模型技術(shù)棧中與產(chǎn)業(yè)完全適配的關(guān)鍵,在于其大模型漸進(jìn)式拉升與壓縮技術(shù)。好比科幻電影《黑客帝國》中的Neo,是架構(gòu)師(Architect)眼中的唯一。
去年末起,為了捅破大模型與產(chǎn)業(yè)間的那層窗戶紙,大模型的拉升與壓縮能力成為AI軍備競賽的賽點(diǎn)。這本質(zhì)上是針對企業(yè)關(guān)于大模型的通用能力、垂域能力、響應(yīng)時間等不同需求的一種大模型場景適配。更重要的是,京東在基礎(chǔ)的拉升與壓縮之上,還做到了同步灌注垂域知識,甚至實(shí)現(xiàn)領(lǐng)域數(shù)據(jù)自進(jìn)化并注入模型中。
海量垂域數(shù)據(jù)的灌輸必將產(chǎn)生過擬合,好比一個學(xué)生,平時做習(xí)題做得很好,考試成績卻很差。為了讓大模型能舉一反三,只好不斷增加訓(xùn)練集,然而這又將導(dǎo)向費(fèi)時費(fèi)力的人工標(biāo)注。如何以較低成本解決過擬合問題,是捅破前述窗戶紙的關(guān)鍵。
自技術(shù)路徑上看,京東的做法與此前的深度學(xué)習(xí)框架fast.ai異曲同工。只不過而fast.ai是在數(shù)據(jù)層,透過漸進(jìn)式圖像分類數(shù)據(jù)集,而京東則是在模型層發(fā)力。
一般來說,多模態(tài)大模型相對更注重全局理解,垂類、細(xì)顆粒度理解與情感識別是短板。京東之所以能在數(shù)字人、智能體等應(yīng)用上率先取得商業(yè)化的突破,根源便在于邊訓(xùn)邊用,讓京東同時轉(zhuǎn)起了產(chǎn)業(yè)和技術(shù)的飛輪。
在尋找新質(zhì)生產(chǎn)力的歷史敘事中,京東云憑借產(chǎn)業(yè)供應(yīng)鏈深度,已然率先跑通了應(yīng)用乃至基礎(chǔ)設(shè)施構(gòu)建的全鏈路。隨著面向公眾的言犀智能體平臺與言犀數(shù)字人3.0平臺的正式發(fā)布,來自產(chǎn)業(yè)的knowhow又將觸及更廣闊的場景,打造更全面的生態(tài)。
角逐基座模型、Demo與某項(xiàng)技術(shù)之巔,或許會將行業(yè)引入垃圾時間,更多創(chuàng)新與確定性的未來,誕生于產(chǎn)業(yè)之中。
看完覺得寫得好的,不防打賞一元,以支持藍(lán)海情報網(wǎng)揭秘更多好的項(xiàng)目。