做公眾號(hào)自媒體的同學(xué)應(yīng)該知道,微信公眾號(hào)官方一直有為公眾號(hào)博主提供了一個(gè)移動(dòng)端的公眾號(hào)管理工具 :「公眾號(hào)訂閱助手」。
可以方便公眾號(hào)運(yùn)營(yíng)在移動(dòng)端管理自己的公眾號(hào)素材、發(fā)布、甚至是其他相關(guān)的賬戶(hù)設(shè)置。
就在最近,一個(gè)博主分享了公眾號(hào)訂閱助手上線的一個(gè)新功能:朗讀音色設(shè)置。
作為公眾號(hào)的超級(jí)管理員,你將有權(quán)限調(diào)整自己的公眾號(hào)文章的朗讀音色。
熟悉公眾號(hào)的同學(xué)都知道,在早些時(shí)候公眾號(hào)已經(jīng)上線了朗讀模式,你可以點(diǎn)擊閱讀全文,公眾號(hào)通過(guò)音頻自動(dòng)播放。
而這個(gè)音頻的朗讀人以前的版本是固定的,現(xiàn)在就朗讀允許博主選擇與創(chuàng)建了音色了。
而現(xiàn)在更新到2.29.1版本后,你有機(jī)會(huì)被灰度到。目前我的賬戶(hù)是沒(méi)有被灰度到的,只有部分的公眾號(hào)賬戶(hù)被灰度了。
比如我看到某些博主已經(jīng)提前上線嘗鮮,如下是公眾號(hào)訂閱助手的設(shè)置功能入口。
沒(méi)有被灰度到的公眾號(hào)訂閱助手哦
公眾號(hào)灰度支持朗讀音色功能
創(chuàng)建音色 圖片來(lái)源:數(shù)字生命卡茲克
試聽(tīng)朗讀,圖片來(lái)源:數(shù)字生命卡茲克
選擇創(chuàng)建的音頻 圖片來(lái)源 :數(shù)字生命卡茲克克隆聲音:Deep Fake技術(shù)
這項(xiàng)技術(shù)其實(shí)是AI的一個(gè)分支應(yīng)用叫做deep fake,現(xiàn)在可以用于圖像與聲音上的克隆。
圖片來(lái)自網(wǎng)絡(luò)
這項(xiàng)深度偽造技術(shù)的基礎(chǔ)是GANS即Generative Adversarial Networks生成式對(duì)抗網(wǎng)絡(luò)。在GitHub上有非常多的開(kāi)源算法,產(chǎn)品經(jīng)理隨時(shí)可以調(diào)用與使用。
要實(shí)現(xiàn)deep fake技術(shù),首先要建立一個(gè)自己的模型,而模型訓(xùn)練要經(jīng)歷6個(gè)步驟,聲音和音頻是各自的模型。
數(shù)據(jù)收集:首先需要收集大量的音頻數(shù)據(jù),微信自然有天然的數(shù)據(jù)優(yōu)勢(shì)(每天有如此多人適用微信語(yǔ)音消息)
特征提?。豪蒙疃葘W(xué)習(xí)算法對(duì)收集到的音頻數(shù)據(jù)進(jìn)行特征提取,即找出語(yǔ)音的各種特征,如音調(diào)、節(jié)奏、音色等
生成模型訓(xùn)練:通過(guò)訓(xùn)練生成模型,將一個(gè)人的聲音轉(zhuǎn)換成另一個(gè)人的聲音。這一過(guò)程通常需要使用到對(duì)抗生成網(wǎng)絡(luò)(GAN)等技術(shù)
合成音頻:將生成的聲音與原始的視頻或音頻進(jìn)行合成,以生成最終的Deepfake音頻
音頻同步:Deepfake技術(shù)還可以將音頻與偽造的音頻同步,使人物在偽造音頻中看似說(shuō)出特定的語(yǔ)句。(這就是
模型調(diào)優(yōu)與驗(yàn)證:通過(guò)超參數(shù)調(diào)優(yōu)和驗(yàn)證數(shù)據(jù)集測(cè)試不斷提升模型的生成效果。例如調(diào)整生成器和判別器的學(xué)習(xí)率,或者增大訓(xùn)練數(shù)據(jù)集,以提高模型的泛化能力。
模型保存與部署:訓(xùn)練完成后,保存模型參數(shù),便于進(jìn)一步使用和優(yōu)化,或?qū)⒛P筒渴鸬綄?shí)際應(yīng)用中。
有了這樣的模型后,用戶(hù)只需要錄入自己的聲音,就可以快速生成,模型越精準(zhǔn),那么聲音越像、時(shí)間越短、生成新素材所錄入的素材越少。
博主提到的合規(guī)與風(fēng)控
有博主解釋到公眾號(hào)的聲音錄入需要試讀是因?yàn)楹弦?guī)與風(fēng)控。
其實(shí)不是的。
Deep fake技術(shù)生成音頻,需要有對(duì)應(yīng)的音頻輸入,由此在朗讀到一定素材后才能夠用模型生成
作為產(chǎn)品經(jīng)理,我們從上面的技術(shù)角度就可以知道,AI產(chǎn)品經(jīng)理需要提供聲音錄入功能、以及聲音校驗(yàn)的功能。
所以才會(huì)有對(duì)應(yīng):試讀、以及試聽(tīng)例句。
用戶(hù)對(duì)聲音的反饋,反而再來(lái)進(jìn)行模型的優(yōu)化。
而作為AI產(chǎn)品經(jīng)理,要想讓用戶(hù)使用這個(gè)功能,就必須為模型錄入素材提供音頻錄入功能,考慮到內(nèi)容版權(quán)的問(wèn)題,最好的方式是選擇博主自己原創(chuàng)的公眾號(hào)文章。
這些文章既可以不需要擔(dān)心「素材版權(quán)問(wèn)題」還能夠提供足夠的各種音調(diào)、聲音起伏、頓挫等閱讀素材。
在音頻解鎖、聲紋解鎖上,也幾乎都是同理,通過(guò)錄入的聲音進(jìn)行聲紋處理,將人類(lèi)特有的聲音聲紋進(jìn)行標(biāo)注
聲紋特點(diǎn) 圖片來(lái)自網(wǎng)絡(luò)
deep fake的AI模型,就是快速標(biāo)注其聲紋的各個(gè)人類(lèi)聲紋特點(diǎn),訓(xùn)練deep fake模型需要大量質(zhì)量好的素材,如果是音頻就是音頻素材,視頻就是視頻素材。
這就是為什么Deepfake的虛假內(nèi)容最多發(fā)生在政客和演員身上,因?yàn)榫W(wǎng)上存有大量他們的圖片數(shù)據(jù)。數(shù)據(jù)越多,效果越好,比如下面的劉德華、吳京、甚至是在速度與激情上使用的都是類(lèi)似道理。
速度與激情保羅沃克
不僅是聲音、還有畫(huà)面,當(dāng)然從deep fake技術(shù)的應(yīng)用實(shí)戰(zhàn)來(lái)說(shuō),畫(huà)面的處理難度要比聲音更難。
電影中deep fake技術(shù)體驗(yàn)
所以讓用戶(hù)錄入自己的聲音,是并不是因?yàn)楹弦?guī)與風(fēng)控的要求。而是要使用這項(xiàng)技術(shù),就需要用戶(hù)錄入聲音。
而用戶(hù)數(shù)據(jù)與訓(xùn)練模型都是在騰訊微信服務(wù)端上,完全不用擔(dān)心別人會(huì)使用,除非有人攻擊了微信騰訊服務(wù)器盜取數(shù)據(jù)。
當(dāng)然還有一個(gè)方式
你可以利用第三方deep fake技術(shù)的APP,通過(guò)錄入模擬的數(shù)字音頻再次模擬,這在技術(shù)上可以的。
只是由于不是錄入的真人聲音,是再次基于deep fake技術(shù)生成的,自然會(huì)有缺失,同時(shí)你也不知道博主的家屬親戚聯(lián)系方式,從理論上來(lái)說(shuō)可以,實(shí)際操作上還是很難的。
今天的分享就在這里。
看完覺(jué)得寫(xiě)得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。