AI大模型翻車！小學(xué)數(shù)學(xué)問題難倒一眾好漢分不清大小，業(yè)內(nèi)人士大模型就是偏科，文科強(qiáng)理科弱

藍(lán)海情報(bào)網(wǎng) 2024-07-18 01:23:26 517

AI大模型翻車！小學(xué)數(shù)學(xué)問題難倒一眾好漢：分不清大小，業(yè)內(nèi)人士：大模型就是偏科，文科強(qiáng)理科弱

圖片來(lái)源：攝圖網(wǎng)

當(dāng)前，以大模型為代表的人工智能技術(shù)正處于蓬勃發(fā)展的階段。大模型，具有巨大的參數(shù)規(guī)模和深度學(xué)習(xí)能力，能夠?qū)崿F(xiàn)更加精確的語(yǔ)言理解、圖像識(shí)別和智能決策等任務(wù)。然而，大模型技術(shù)卻在一道小學(xué)數(shù)學(xué)問題上翻了車，分不清誰(shuí)大誰(shuí)小。

7月13日，最新一期的《歌手》公布排名，孫楠得票13.8%，外國(guó)歌手香緹莫得票13.11%。引發(fā)了網(wǎng)友對(duì)排名的質(zhì)疑。不少網(wǎng)友認(rèn)為13.11%大于13.8%，因此，香緹莫的得票率比孫楠高。隨后，關(guān)于13.8和13.11大小比較話題沖上熱搜。

一財(cái)網(wǎng)消息，以9.11和9.9哪個(gè)大為例，經(jīng)測(cè)試，ChatGPT以及目前國(guó)內(nèi)的主流大模型，包括阿里、百度等5家大廠模型，月之暗面等6家AI獨(dú)角獸的模型。阿里通義千問、百度文心一言、Minimax和騰訊元寶4家大模型答對(duì)，其他8家則答錯(cuò)。

結(jié)果顯示，大部分大模型在問答中都錯(cuò)誤地比較了小數(shù)點(diǎn)后的數(shù)字，認(rèn)為9.11大于9.9.考慮到數(shù)字涉及的語(yǔ)境問題，將其限定為在數(shù)學(xué)語(yǔ)境下，如ChatGPT這樣的大模型也照樣答錯(cuò)。

值得注意的是，ChatGPT等大模型出現(xiàn)了胡說(shuō)八道的現(xiàn)象，但在為9.9填補(bǔ)了9.90的零位數(shù)后，就得出了正確的回答。這類大模型說(shuō)胡話的現(xiàn)象，在業(yè)界被稱為大模型出現(xiàn)幻覺。此前，哈爾濱工業(yè)大學(xué)和華為的研究團(tuán)隊(duì)發(fā)表的綜述論文認(rèn)為，模型產(chǎn)生幻覺的三大來(lái)源：數(shù)據(jù)源、訓(xùn)練過(guò)程和推理。大模型可能會(huì)過(guò)度依賴訓(xùn)練數(shù)據(jù)中的一些模式，如位置接近性、共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)和相關(guān)文檔計(jì)數(shù)，從而導(dǎo)致幻覺。此外，大模型還可能會(huì)出現(xiàn)長(zhǎng)尾知識(shí)回憶不足、難以應(yīng)對(duì)復(fù)雜推理的情況。

截至發(fā)稿，月之暗面回應(yīng)表示：其實(shí)我們?nèi)祟悓?duì)大模型的能力探索——無(wú)論是大模型能做到什么，還是大模型做不到什么——都還處于非常早期的階段。我們非常期待用戶在使用中能夠發(fā)現(xiàn)和報(bào)告更多的邊界案例(Corner Case)，不管是最近的‘9.9和9.11哪個(gè)大、13.8和13.11哪個(gè)大’，還是之前的‘strawberry有幾個(gè)r’，這些邊界案例的發(fā)現(xiàn)，有助于我們?cè)黾訉?duì)大模型能力邊界的了解。

針對(duì)大模型答數(shù)學(xué)題普遍吃癟的問題，有業(yè)內(nèi)人士表示，目前來(lái)看大模型的數(shù)理能力相對(duì)較差的情況在中外都是一樣的，打個(gè)比方可以這樣講，大模型就是偏科，文科強(qiáng)理科弱，這個(gè)情況在一段時(shí)間內(nèi)也不會(huì)得到明顯的改善。

從AI大模型在小學(xué)數(shù)學(xué)問題上‘翻車’回看AI大模型行業(yè)發(fā)展情況：

——AI大模型是一種新的智能計(jì)算范式

超大規(guī)模智能模型，簡(jiǎn)稱大模型，是近年興起的一種新的人工智能計(jì)算范式。和傳統(tǒng)AI模型相比，大模型的訓(xùn)練使用了更多的數(shù)據(jù)，具有更好的泛化性，可以應(yīng)用到更廣泛的下游任務(wù)中。按照應(yīng)用場(chǎng)景劃分，AI大模型主要包括語(yǔ)言大模型、視覺大模型和多模態(tài)大模型等。業(yè)界典型的自然語(yǔ)言大模型有GPT-3、源、悟道和文心等。視覺大模型也已廣泛應(yīng)用于自動(dòng)駕駛、智能安防、醫(yī)學(xué)影像等領(lǐng)域?；诙嗄B(tài)大模型的以文生圖技術(shù)也迅速發(fā)展，AI內(nèi)容生成(AI Generated Content，AIGC)已成為下一個(gè)AI發(fā)展的重點(diǎn)領(lǐng)域。

AI大模型翻車！小學(xué)數(shù)學(xué)問題難倒一眾好漢：分不清大小，業(yè)內(nèi)人士：大模型就是偏科，文科強(qiáng)理科弱

——全球生成式AI應(yīng)用需求分析

根據(jù)麥肯錫在2023年4月進(jìn)行的一項(xiàng)調(diào)查，盡管GenAl進(jìn)入公眾視野并不久,但對(duì)這些工具的嘗試性應(yīng)用已經(jīng)相當(dāng)普遍，受訪者們預(yù)計(jì)這些新能力將改變其所在行業(yè)。生成式AI已引起商界人士的興趣：受訪者不分地區(qū)、行業(yè)和資歷等級(jí)，人人都在工作中和工作之外嘗試使用生成式AI。79%的受訪者表示，他們至少在工作中或工作之外接觸過(guò)生成式AI。22%的受訪者表示，他們會(huì)在工作中經(jīng)常使用生成式AI。不同資歷受訪者的生成式AI使用率非常相似，而從行業(yè)和地區(qū)來(lái)看，技術(shù)行業(yè)和北美地區(qū)受訪者的生成式AI使用率最高。

AI大模型翻車！小學(xué)數(shù)學(xué)問題難倒一眾好漢：分不清大小，業(yè)內(nèi)人士：大模型就是偏科，文科強(qiáng)理科弱

——全球生成式AI行業(yè)市場(chǎng)規(guī)模

隨著ChatGPT的火爆出圈，生成式AI成為各行各業(yè)關(guān)注和熱議的話題。全球科技巨頭和AI廠商紛紛下場(chǎng)，唯恐錯(cuò)過(guò)此番科技盛宴。行業(yè)翹楚和媒體將生成式AI浪潮類比昔日的移動(dòng)互聯(lián)網(wǎng)機(jī)遇，認(rèn)為它將對(duì)全球經(jīng)濟(jì)和各個(gè)行業(yè)帶來(lái)深遠(yuǎn)影響，企業(yè)也將迎來(lái)重大變革機(jī)遇，同時(shí)，根據(jù)Bloomberg Intelligence披露的數(shù)據(jù)，2023年全球生成式AI市場(chǎng)整體規(guī)模約為670億美元，預(yù)計(jì)2029年及2032年將分別達(dá)到7280億美元和1.3萬(wàn)億美元，2022-2032年復(fù)合增長(zhǎng)率高達(dá)42%。

AI大模型翻車！小學(xué)數(shù)學(xué)問題難倒一眾好漢：分不清大小，業(yè)內(nèi)人士：大模型就是偏科，文科強(qiáng)理科弱

據(jù)世界知名咨詢機(jī)構(gòu)麥肯錫報(bào)告估計(jì)，生成式人工智能(AIGC)最終每年可為全球增加7.3萬(wàn)億美元的GDP。作為新興的第四產(chǎn)業(yè)，大模型將與第一產(chǎn)業(yè)農(nóng)業(yè)、第二產(chǎn)業(yè)工業(yè)、第三產(chǎn)業(yè)服務(wù)業(yè)一起，將成為推動(dòng)經(jīng)濟(jì)發(fā)展的新引擎。作為新的產(chǎn)業(yè)增長(zhǎng)極，第四產(chǎn)業(yè)將深刻改變經(jīng)濟(jì)社會(huì)各個(gè)領(lǐng)域，為生產(chǎn)力發(fā)展帶來(lái)巨大的提升。

星環(huán)科技創(chuàng)始人孫元浩認(rèn)為2024年，或?qū)⒊蔀槿斯ぶ悄?，特別是生成式AI賦能各行各業(yè)的元年，智能化應(yīng)用在各個(gè)領(lǐng)域發(fā)揮越來(lái)越重要的作用，為人們的生活和工作帶來(lái)更多的便利和創(chuàng)新。其中，大模型發(fā)揮了重要的作用。

經(jīng)濟(jì)學(xué)人APP資訊組

看完覺得寫得好的，不防打賞一元，以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。

標(biāo)簽：模型生成受訪者隨筆