前幾天,AI 創(chuàng)作者海辛在 X 上發(fā)了一個(gè)巨物寶可夢(mèng)的視頻,播放量 120W+,爆火了。
網(wǎng)上好多人模仿,也有很多人好奇這種視頻怎么做的。
我嘗試做了幾個(gè)視頻,實(shí)現(xiàn)思路:用 AI 出圖,再用 AI 以圖生視頻。關(guān)鍵是生成的圖片效果要好。
之前的 AI 生圖工具,想生成這樣效果的圖片,對(duì)提示詞要求很高,效果還不穩(wěn)定。
能快速模仿,正是用了 Whisk 生圖,再用可靈 AI 生成視頻。
我體驗(yàn)發(fā)現(xiàn),Whisk 實(shí)在太好玩了,操作簡(jiǎn)單、效果好,連提示詞都可以不用寫,產(chǎn)品設(shè)計(jì)還特別值得學(xué)習(xí),趕緊跟你們分享。
先看看 Whisk 怎么玩?
打開 Whisk 首頁(yè),你只需上傳一張圖片,或拖拽頁(yè)面上的圖片到主題框里,不到 1 分鐘即可看到效果。
Whisk 提供 3 種默認(rèn)風(fēng)格:貼紙、琺瑯別針和毛絨玩具。
你看,提示詞都不用寫,直接出圖,效果不錯(cuò)吧?用頭像生成毛絨玩具,幾乎可以直接定制自己的公仔了。
這,只是 Whisk 的簡(jiǎn)化模式。
如果你想做一張更好玩的圖片,點(diǎn)擊在工具中打開或從頭開始進(jìn)入完整模式。
界面非常簡(jiǎn)潔,重點(diǎn)在左邊,可以分別上傳主題、場(chǎng)景和風(fēng)格 3 種圖片。
你可以只上傳 1 或 2 張圖,也可以在每個(gè)主題同時(shí)選多張圖片,非常靈活、可玩性很高。
比如,我讓小火龍給可達(dá)鴨燒烤鴨吃。
如果你不知道做啥,可以點(diǎn)擊擲骰子,Whisk 隨機(jī)出一些圖片,幫你找靈感。
我特別喜歡可達(dá)鴨和皮卡丘,先拿它們做巨物寶可夢(mèng)的視頻。
你看,只用 2 張圖 + 簡(jiǎn)單的提示詞,效果還行吧?
當(dāng)然,AI 生圖挺像開盲盒,不滿意就調(diào)整提示詞,多生成幾次,整體感覺(jué) Whisk 生成效果比別的 AI 生圖工具好,也快很多。
生成滿意的圖片,再用可靈 AI 根據(jù)這張圖,與提示詞描述,生成視頻。
最終成品,看下可達(dá)鴨跳舞如何:
再看看皮卡丘在干嘛:
正如 Whisk 的 slogan :prompt Less,Play More(少寫提示詞,多玩),谷歌做到了。
那 Whisk 怎么實(shí)現(xiàn)的呢?
Whisk 為了讓我們少寫提示詞,用 Gemini 模型的多模態(tài)能力識(shí)別圖片,再用谷歌最新的圖片生成模型 Imagen 3 生圖。
我們上傳的圖片,會(huì)被自動(dòng)識(shí)別并生成詳細(xì)的描述,然后這些描述會(huì)給到 Imagen 3 出圖。
也就是說(shuō),Whisk 并不是直接拿我們上傳的圖去融合,而是先轉(zhuǎn)為文本描述提示詞。
比如,我上傳了一張金字塔的場(chǎng)景,出來(lái)的提示詞老長(zhǎng)了。不得不佩服 Gemini 的多模態(tài)識(shí)別能力。
更有意思的是,Whisk 不是精確地復(fù)制圖片,而是抓住圖片的特點(diǎn),提取關(guān)鍵特征。
這樣生成的圖片,既能限度保留圖片原有特點(diǎn),又能發(fā)散出更多的創(chuàng)意。
生圖環(huán)節(jié),Whisk 結(jié)合「圖片轉(zhuǎn)成的描述提示詞」 + 「用戶寫的提示詞」,產(chǎn)生一個(gè)新的提示詞,來(lái)生成最終效果圖。
點(diǎn)擊每張生成的圖片,可以看到提示詞,也可以自行修改。
這個(gè)轉(zhuǎn)換的過(guò)程,用戶完全無(wú)感知。對(duì)用戶來(lái)說(shuō),只需要做 2 步或 3 步操作,但 Whisk 在背后做了大量的處理工作。
我畫個(gè)簡(jiǎn)單流程對(duì)比,給你感受下。
Whisk 給產(chǎn)品經(jīng)理有什么啟示?
第一,產(chǎn)品要解決用戶核心問(wèn)題。
Whisk 憑借谷歌自家 Gemini 和 Imagen 3 模型的硬實(shí)力,生成圖片效果驚艷,能幫用戶生成高質(zhì)量、有創(chuàng)意、好玩的圖片,形成核心優(yōu)勢(shì)。
第二,Whisk 沒(méi)有走 AI 生圖工具的老路,讓用戶寫復(fù)雜的提示詞,而是讓用戶以上傳圖片為主,去表達(dá)想要圖片的效果。
要知道,寫好提示詞,對(duì)大多數(shù)人來(lái)說(shuō)太難了。反過(guò)來(lái),讓用戶去找圖片卻容易得多。
我們想做某種圖片,往往是看過(guò)某些喜歡的圖片風(fēng)格,希望模仿并改成自己的。
這說(shuō)明 Whisk 把握用戶實(shí)際的使用場(chǎng)景和痛點(diǎn)非常準(zhǔn)。
第三,Whisk 設(shè)計(jì)一個(gè)簡(jiǎn)化模式,讓用戶先快速上手,感受生圖效果,而不是直接讓用戶進(jìn)入完整模式。
用戶體驗(yàn)到產(chǎn)品操作簡(jiǎn)單、效果好,才會(huì)繼續(xù)用。這種方式,降低用戶的使用門檻,體驗(yàn)非常好。
做產(chǎn)品,把功能全塞給用戶,是滿足自己;只給用戶所需的功能,才是有用戶思維。
看完覺(jué)得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。