想進(jìn)Kimi創(chuàng)作空間,挺簡單。
這個(gè)功能在哪兒呢?就在聊天界面下面,有個(gè)不太顯眼的按鈕,上面寫著:Kimi創(chuàng)作空間。
點(diǎn)進(jìn)去后,會(huì)看到一個(gè)全新的創(chuàng)作界面,上面寫著:你喜歡的歌都有它的視頻。我們可以簡稱這個(gè)功能為:文生視頻。
有沒有拿到內(nèi)測名額呢?快去看看。這個(gè)功能怎么用?進(jìn)了創(chuàng)作空間,它有13個(gè)模板,比如:末日風(fēng)格、賽博朋克、情書風(fēng)格、哈利波特黑谷風(fēng)格、搖滾風(fēng)格等等。
操作步驟就兩步:一,輸入提示詞;二,選擇風(fēng)格。然后等著生成就可以了。
如果你是新手,可能會(huì)問:怎么寫音視頻的提示詞?別擔(dān)心。在內(nèi)容描述后面,有一個(gè)選項(xiàng)叫做幫我寫XX風(fēng)格的提示詞。
點(diǎn)擊這個(gè)選項(xiàng),它會(huì)自動(dòng)生成一兩句描述相關(guān)內(nèi)容風(fēng)格的內(nèi)容;整個(gè)過程不需要太多理解成本,只要會(huì)用AI,基本都會(huì)操作。
我試了三種風(fēng)格:情書、末日和黑白復(fù)古。生成速度挺快的,隨機(jī)點(diǎn)開一個(gè)生成的作品,是個(gè)14秒的音視頻。
從視頻人物來看,一眼就能看出是AI生成的,和真實(shí)人物修圖后的質(zhì)感不一樣,模擬感比較重,這也是現(xiàn)在大多數(shù)模型的共同問題,不用太驚訝。
不過,好在它沒有出現(xiàn)「恐怖谷臉」的情況。動(dòng)作、表情和皮膚紋理都挺流暢,眼睛大小、牙齒排列和耳朵形狀都沒有問題,在人物呈現(xiàn)上整體很協(xié)調(diào),這絕對(duì)是模型的一個(gè)進(jìn)步。
再來說說場景。
我對(duì)近景、遠(yuǎn)景、特寫和空鏡都做了測試。我覺得遠(yuǎn)景效果最好,因?yàn)橐暯谴?,給人的整體感覺不一樣。
我給遠(yuǎn)景設(shè)定的是音樂會(huì)現(xiàn)場,就像我們平時(shí)想的那樣,能看到所有人舉著手,還有燈光營造出的氛圍,這方面它做得確實(shí)不錯(cuò)。
中景上,我給Kimi的提示詞是這樣:我告訴它,秋天的公園,一對(duì)情侶在落葉中散步,女孩輕輕踢著地上的落葉,男孩伸手接住一片,然后笑著遞給她。
它生成的結(jié)果畫面整體感覺挺秋天的,情侶之間的互動(dòng)也表現(xiàn)出來了,但是,落葉的形狀,情侶的表情動(dòng)作這些細(xì)節(jié)沒那么完美,還得再改進(jìn)。
近景的效果一般,特寫就不一樣了,感覺挺真實(shí)的,甚至還有讓人眼前一亮的地方。
我給近景的提示詞是:
一張泛黃的情書靜靜地?cái)傇诠爬蠒郎?,周圍都是舊書和一支鋼筆,自然光灑進(jìn)來,情書紙頁微微顫動(dòng),像是在講過去的事。
它生成的畫面挺清晰,把描述的場景呈現(xiàn)得不錯(cuò),雖然和真實(shí)場景比起來還有點(diǎn)差距,但在特寫上的表現(xiàn)已經(jīng)超出了預(yù)期,讓我看到了它在特定鏡頭上的潛力。
所以,在沒有人物的特寫場景上,Kimi還不錯(cuò)。
圖示:Kimi創(chuàng)作空間作品直接生成畫面
看到這,你也許會(huì)有疑問:為什么每個(gè)頁面還能編輯呢?沒錯(cuò),在Kimi 創(chuàng)作空間里,音視頻生成好了之后,有不滿意的地方,可以針對(duì)每一幀進(jìn)行單獨(dú)創(chuàng)作。
比如:
你做了個(gè)14秒的視頻,系統(tǒng)大概會(huì)分成12幀或13幀,每幀旁邊都能單獨(dú)寫提示詞,寫完后,就能用新的提示詞重新生成這一幀。這是個(gè)功能亮點(diǎn)。
如果你覺得模板里的音樂不好聽,或者系統(tǒng)自帶的音樂不合心意,可以輸入鏈接,系統(tǒng)能提取音樂,還能上傳自己的音樂,我看它現(xiàn)在能處理抖音的鏈接,挺方便。
對(duì)了,上傳完音樂,選好模板,如果不知道怎么寫提示詞,也不用擔(dān)心,只要輸入幾個(gè)關(guān)鍵詞就行。
我選了開始懂了這首歌,在內(nèi)容描述里寫了戀人、公園、牽手、失落這些詞,接著點(diǎn)幫我寫的按鈕,它就能生成一段話,省了不少事。
還有個(gè)好處,如果覺得生成慢,可以回到聊天界面,過一兩分鐘再回來,你的內(nèi)容還在,不會(huì)影響生成。Kimi生成完內(nèi)容后,會(huì)發(fā)短信通知你,這點(diǎn)挺方便的。
有優(yōu)勢(shì)總有劣勢(shì),我的感受有五點(diǎn):
一,每次生成的視頻時(shí)長有限,只能生成十幾秒的視頻;二,在個(gè)性化方面比較欠缺,如果想調(diào)整聲音的語調(diào)之類的,系統(tǒng)不支持。
不過,也有個(gè)解決辦法,是可以自己先錄一段音頻,把語調(diào)都調(diào)整好,然后再上傳上去,這樣就能彌補(bǔ)一些不足,但總歸還是沒有系統(tǒng)直接支持方便。
三,生成的視頻質(zhì)量有時(shí)不穩(wěn)定。就像我之前說的,人物看起來和場景細(xì)節(jié)有時(shí)不夠完美,不是每次都能達(dá)到最好的效果,而且風(fēng)格模板雖然多,但有些風(fēng)格比較籠統(tǒng),不夠細(xì)致。
比如:我想要特定年代或者情感的氛圍,就很難精確做到。這對(duì)于對(duì)于細(xì)分場景下想用音視頻的人來說,反而非常重要。
四,對(duì)于新手來說,即使有幫忙生成提示詞的功能,有時(shí)生成的提示詞還是挺模糊的,讓人搞不清楚到底能做出什么樣的視頻,如果是專業(yè)視頻制作人,他們可能也會(huì)有同樣的煩惱。
還有一點(diǎn),現(xiàn)在還不能分享作品,只能下載。我不知道這算不算一個(gè)很重要的功能。不過,根據(jù)使用其他平臺(tái)的經(jīng)驗(yàn),好像這個(gè)功能也不是那么關(guān)鍵。
你也可以親自體驗(yàn)下,看看感受如何?
不得不說,文生視頻發(fā)展挺快,GIR報(bào)告說,2023年全球文生視頻的市場收入大概有720萬美元,預(yù)計(jì)到2030年能漲到22.19億美元。這表示從2024年到2030年,每年的增長率可能會(huì)有56.6%。
感受不到數(shù)字帶來的沖擊也沒關(guān)系,我們換個(gè)角度想。
現(xiàn)在廣告、影視、教育領(lǐng)域?qū)Χ桃曨l的內(nèi)容需求蠻大,大家都說行業(yè)不好做,裁員也多,其實(shí)公司大部分可重復(fù)、不用人力的工種的確在進(jìn)一步被AI、或者會(huì)用AI的人替代。
2023年麥當(dāng)勞就發(fā)布了一個(gè)全AI制作的廣告。
這個(gè)廣告把麥當(dāng)勞的品牌元素巧妙地融入到生活場景里,比如動(dòng)作細(xì)節(jié)、情緒狀態(tài)等等,這種制作方式不僅讓內(nèi)容制作更快,還顯示了AI在大量生產(chǎn)商業(yè)內(nèi)容上的潛力。
還有伊利的《千年江南》和《伊笑過龍年》,這些視頻用AI技術(shù)快速變換場景和面部表情,給廣告增加了特別的情緒和視覺效果。
案例還有很多,不逐一列舉。所以,這種嘗試大大降低了廣告制作成本,也說明了,AI生成視頻已經(jīng)成為廣告創(chuàng)意的一個(gè)有效工具;它可能還不能直接做出一個(gè)完整的廣告視頻,但至少成了一個(gè)有用的輔助工具。
一說生成、我也很好奇,到底哪些人會(huì)用文生音視頻?
AI技術(shù)發(fā)展先有技術(shù),再逐步找到應(yīng)用場景。但是推廣的時(shí)候,就得反過來,得先有人愿意用,用的人多了,大家才會(huì)開始關(guān)注。
這個(gè)過程就像是PMF(Product Market Fit),就是產(chǎn)品和市場要匹配,需要不斷調(diào)整。
我覺得,最開始用文生音視頻的可能是自己做視頻的人。比如:拍短視頻的博主、做內(nèi)容的創(chuàng)作者,或者是給客戶服務(wù)的團(tuán)隊(duì),這些人用了之后,提高了工作效率,慢慢就會(huì)吸引更多的服務(wù)公司來用。
而且,這項(xiàng)技術(shù)也可能會(huì)用在游戲、電影、電商這些地方。比如網(wǎng)易的《逆水寒》,里面很多角色是AI做的。還有像天貓、京東這樣的電商平臺(tái),也開始用AI來做創(chuàng)意內(nèi)容了。
從公司的角度來看,他們要功能很強(qiáng)的AI模型,能和他們的業(yè)務(wù)很好地結(jié)合,個(gè)人用戶呢?希望模型操作簡單,用起來方便,能快速幫他們解決問題。
這兩者并不沖突,反而是相輔相成的。因?yàn)橹挥懈鄠€(gè)人用戶使用并反饋,模型才能不斷優(yōu)化,經(jīng)過多次迭代,最終為企業(yè)客戶提供更強(qiáng)大的服務(wù)。
可以說,個(gè)人用戶的廣泛使用為模型的成長打下基礎(chǔ),模型越成熟,就越能滿足企業(yè)的需求,推動(dòng)整個(gè)行業(yè)向前發(fā)展。
我看到Kimi最近在不斷發(fā)力,比如:推出了數(shù)學(xué)版k0-math,悄悄測試文生音視頻。這些動(dòng)作其實(shí)展現(xiàn)了Kimi在向多模態(tài)技術(shù)發(fā)展的過程中,邁出的一些關(guān)鍵步驟。
為什么說這是關(guān)鍵一步呢?
先了解一下什么是多模態(tài)(Multimodal)。簡單來說,就是讓AI能同時(shí)處理文字、圖片、聲音、視頻這些不同形式的數(shù)據(jù)。這樣就能打破只處理一種數(shù)據(jù)的限制,給用戶提供更全面的解決方案。
它之所以重要,是因?yàn)閺氖袌鼋嵌瓤矗?dāng)前許多大模型廠商都在圍繞自己的核心業(yè)務(wù),深耕多模態(tài)技術(shù),這種依托業(yè)務(wù)根基的發(fā)展方式讓模型更具競爭力。
比如:
阿里推出通義大模型系列,針對(duì)金融、醫(yī)療、娛樂這些行業(yè)進(jìn)行定制;還有Qwen系列模型,Qwen-Math搞數(shù)學(xué),Qwen-Coder為編程設(shè)計(jì),Qwen-VL理解圖片視頻內(nèi)容。
阿里還有個(gè)M6模型,專門針對(duì)電商場景設(shè)計(jì)商品、寫文案、創(chuàng)作虛擬主播劇本等等,這些模型在適應(yīng)不同場景和細(xì)分領(lǐng)域上都很強(qiáng)。
再看看豆包大家族,更是大力出奇跡。
它有兩個(gè)主要的模型,一個(gè)叫 Pro,針對(duì)大規(guī)模文本創(chuàng)作的;另一個(gè)叫Lite,滿足輕量化定制應(yīng)用需求。
除此之外,還有音樂語音模型、聲音復(fù)刻模型、文生圖模型、圖生圖模型、視頻模型,甚至角色扮演和同聲傳譯的模型都有。他們把模型應(yīng)用到了各種工作場景,到處都能看到他們的身影。
所以,Kimi肯定要通過多模態(tài)布局來核心競爭力。
話說回來,像字節(jié)和阿里這樣的公司,在商業(yè)化大模型時(shí)有個(gè)特點(diǎn):他們會(huì)將模型能力封裝成具體產(chǎn)品,通過產(chǎn)品來驗(yàn)證市場需求,再利用產(chǎn)品實(shí)現(xiàn)商業(yè)化。
字節(jié)的豆包,它不僅是一個(gè)大模型的框架,還衍生出很多具體的產(chǎn)品,比如即夢(mèng)。
主要用于文生圖、文生視頻、圖生圖、圖生視頻等領(lǐng)域,而且它已經(jīng)進(jìn)一步商業(yè)化,直接和市場上的可靈等產(chǎn)品進(jìn)行對(duì)標(biāo)和競爭。
但Kimi的產(chǎn)品包裝能力還比較弱,雖然推出了一些功能不錯(cuò)的模型,但商業(yè)化的速度和市場驗(yàn)證的效率顯得更慢一些。
這也導(dǎo)致Kimi在發(fā)展過程中可能更多依賴資本推動(dòng),這種模式比起快速形成產(chǎn)品閉環(huán)的路徑,市場吸引力可能不夠。
相比之下,Kimi在這一點(diǎn)上還有很大的進(jìn)步空間。
如果能把模型能力包裝成獨(dú)立的產(chǎn)品推向市場,用產(chǎn)品來快速測試市場反饋,那么發(fā)展速度可能會(huì)更快。
因?yàn)椋脩舨皇巧底?,真正要讓一個(gè)人付費(fèi)時(shí),反而會(huì)衍生出諸多真需求,而滿足這些真需求,才是走向垂直細(xì)分更重要的一步。
因此,商業(yè)化和技術(shù)發(fā)展并不沖突,有能力不代表有用,這些問題,可能要Kimi進(jìn)一步思考。
看完覺得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。