當(dāng)業(yè)界還在熱議DeepSeek-R1開(kāi)源戰(zhàn)略對(duì)AI生態(tài)的重構(gòu)、持續(xù)探討Manus智能Agent的技術(shù)突破時(shí),國(guó)產(chǎn)大模型已在垂直賽道實(shí)現(xiàn)關(guān)鍵性跨越。3月11日,網(wǎng)易有道宣布完成翻譯底層技術(shù)迭代,基于自主研發(fā)的子曰翻譯大模型2.0,在測(cè)試中實(shí)現(xiàn)翻譯質(zhì)量超越國(guó)內(nèi)外主流通用大模型,達(dá)行業(yè)第一。此次突破,也標(biāo)志著國(guó)產(chǎn)大模型在專業(yè)領(lǐng)域取得實(shí)質(zhì)性進(jìn)展,通過(guò)數(shù)據(jù)、算法等技術(shù)創(chuàng)新,使得小參數(shù)垂類模型實(shí)現(xiàn)性能大幅提升。
據(jù)了解,搭載全新大模型的翻譯已在有道詞典、有道翻譯及有道翻譯官內(nèi)上線,提供標(biāo)準(zhǔn)模型、高級(jí)模型兩種不同參數(shù)選擇,用戶可免費(fèi)使用全新AI翻譯,體驗(yàn)更精準(zhǔn)、優(yōu)質(zhì)的翻譯服務(wù)。與此同時(shí),有道詞典筆X7系列也已升級(jí)為最新的翻譯大模型,其余型號(hào)將陸續(xù)更新。
【有道翻譯首頁(yè)】
作為國(guó)內(nèi)翻譯領(lǐng)域的領(lǐng)先者,有道全系翻譯產(chǎn)品目前擁有超10億用戶。QuestMobile數(shù)據(jù)顯示,從2019年至今,網(wǎng)易有道詞典已連續(xù)六年榮獲「中國(guó)互聯(lián)網(wǎng)APP TOP50賽道用戶規(guī)模NO.1」,持續(xù)占據(jù)教育工具領(lǐng)域榜首。
繼率先推出統(tǒng)計(jì)機(jī)器翻譯及神經(jīng)網(wǎng)絡(luò)翻譯(NMT)后,有道再次領(lǐng)銜行業(yè),在翻譯技術(shù)上實(shí)現(xiàn)重大突破,使子曰翻譯大模型2.0的整體性能實(shí)現(xiàn)質(zhì)的飛躍。
根據(jù)國(guó)際權(quán)威翻譯評(píng)測(cè)集WMT和Flores200的最新測(cè)試數(shù)據(jù)顯示,子曰翻譯大模型2.0在中英互譯領(lǐng)域的譯文專業(yè)度和穩(wěn)定性較前代版本均有顯著提升。除此之外,在涵蓋人文學(xué)科、商科、生活服務(wù)、醫(yī)療、科學(xué)等19個(gè)垂直領(lǐng)域的多學(xué)科對(duì)比測(cè)試中,子曰翻譯大模型2.0與國(guó)內(nèi)外主流通用大模型及專業(yè)翻譯模型展開(kāi)全面競(jìng)技,數(shù)據(jù)顯示,子曰翻譯大模型2.0在專業(yè)性、準(zhǔn)確性、語(yǔ)言慣例和風(fēng)格等方面,展現(xiàn)出了更高的翻譯準(zhǔn)確率、流暢度,模型翻譯質(zhì)量達(dá)到行業(yè)第一。
經(jīng)歷了10個(gè)月的技術(shù)更迭,子曰翻譯大模型2.0從數(shù)據(jù)、算法、評(píng)估三個(gè)層面進(jìn)行技術(shù)突破,最終以14B小參數(shù)垂類模型實(shí)現(xiàn)高水準(zhǔn)翻譯性能,這也再次展現(xiàn)出有道在教育大模型發(fā)展上的垂直專業(yè)優(yōu)勢(shì)。
在數(shù)據(jù)層面,有道收集并嚴(yán)格清洗了高質(zhì)量的翻譯語(yǔ)料數(shù)據(jù),并由英語(yǔ)專八認(rèn)證人員及職業(yè)譯員進(jìn)行精細(xì)化人工標(biāo)注,使得模型擁有海量的優(yōu)質(zhì)數(shù)據(jù)資源庫(kù),增強(qiáng)其在多樣化翻譯場(chǎng)景的應(yīng)對(duì)能力。
在算法層面,有道以子曰大模型為基礎(chǔ),進(jìn)行二次預(yù)訓(xùn)練,進(jìn)一步打造了更具專業(yè)性與針對(duì)性的翻譯基座大模型,結(jié)合大模型蒸餾技術(shù)、大模型融合技術(shù)、online DPO技術(shù)等多項(xiàng)手段,有效避免了大模型的災(zāi)難性遺忘問(wèn)題,并在運(yùn)行效率、準(zhǔn)確性、流暢性等翻譯性能上實(shí)現(xiàn)了大幅提升。
在評(píng)估層面,借助翻譯數(shù)據(jù)沉淀,有道自主研發(fā)了翻譯評(píng)估模型Reward Model,其準(zhǔn)確率超越了COMET——當(dāng)前最先進(jìn)的評(píng)估指標(biāo)之一,為子曰翻譯大模型的性能評(píng)估提供可靠的量化依據(jù)及完善的人工評(píng)估方案,多維度對(duì)模型的翻譯結(jié)果進(jìn)行評(píng)估和分析。
事實(shí)上,隨著DeepSeek等開(kāi)源模型的應(yīng)用范圍逐漸擴(kuò)大,場(chǎng)景+數(shù)據(jù)越來(lái)越成為AI應(yīng)用的護(hù)城河。作為深耕翻譯領(lǐng)域17年的代表,有道在該領(lǐng)域內(nèi)的數(shù)據(jù)及資源積累,使其能夠以高質(zhì)量語(yǔ)料訓(xùn)練強(qiáng)化模型的翻譯性能,展現(xiàn)出更強(qiáng)的領(lǐng)域?qū)I(yè)性和翻譯任務(wù)針對(duì)性,使得小參數(shù)垂類模型的翻譯質(zhì)量反超通用大模型。
通用大模型比的是參數(shù)大、算力強(qiáng),但翻譯這件事,參數(shù)堆不出專業(yè)度;當(dāng)通用大模型競(jìng)逐參數(shù)規(guī)模時(shí),我們還是更相信垂類模型的未來(lái)價(jià)值——用專業(yè)的垂直應(yīng)用真正解決專業(yè)場(chǎng)景的痛點(diǎn),這也正是我們持續(xù)努力和進(jìn)化的方向。網(wǎng)易有道相關(guān)負(fù)責(zé)人表示。
看完覺(jué)得寫(xiě)得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。