国产精品综合av_日韩精品偷拍一区二区_久草视频资源在线_亚洲视频 中文字幕_亚洲电影AV一区春药高潮_小×导航福利在线导航_欧美性爱一级短视频_人成视频免费在线观看不卡_国产九色在线播放_国产高清无码一区二区

藍(lán)海情報(bào)網(wǎng)

AI大模型翻車!小學(xué)數(shù)學(xué)問題難倒一眾好漢 分不清大小,業(yè)內(nèi)人士 大模型就是偏科,文科強(qiáng)理科弱

藍(lán)海情報(bào)網(wǎng) 517

AI大模型翻車!小學(xué)數(shù)學(xué)問題難倒一眾好漢 分不清大小,業(yè)內(nèi)人士 大模型就是偏科,文科強(qiáng)理科弱

AI大模型翻車!小學(xué)數(shù)學(xué)問題難倒一眾好漢:分不清大小,業(yè)內(nèi)人士:大模型就是偏科,文科強(qiáng)理科弱

圖片來(lái)源:攝圖網(wǎng)

當(dāng)前,以大模型為代表的人工智能技術(shù)正處于蓬勃發(fā)展的階段。大模型,具有巨大的參數(shù)規(guī)模和深度學(xué)習(xí)能力,能夠?qū)崿F(xiàn)更加精確的語(yǔ)言理解、圖像識(shí)別和智能決策等任務(wù)。然而,大模型技術(shù)卻在一道小學(xué)數(shù)學(xué)問題上翻了車,分不清誰(shuí)大誰(shuí)小。

7月13日,最新一期的《歌手》公布排名,孫楠得票13.8%,外國(guó)歌手香緹莫得票13.11%。引發(fā)了網(wǎng)友對(duì)排名的質(zhì)疑。不少網(wǎng)友認(rèn)為13.11%大于13.8%,因此,香緹莫的得票率比孫楠高。隨后,關(guān)于13.8和13.11大小比較話題沖上熱搜。

一財(cái)網(wǎng)消息,以9.11和9.9哪個(gè)大為例,經(jīng)測(cè)試,ChatGPT以及目前國(guó)內(nèi)的主流大模型,包括阿里、百度等5家大廠模型,月之暗面等6家AI獨(dú)角獸的模型。阿里通義千問、百度文心一言、Minimax和騰訊元寶4家大模型答對(duì),其他8家則答錯(cuò)。

結(jié)果顯示,大部分大模型在問答中都錯(cuò)誤地比較了小數(shù)點(diǎn)后的數(shù)字,認(rèn)為9.11大于9.9.考慮到數(shù)字涉及的語(yǔ)境問題,將其限定為在數(shù)學(xué)語(yǔ)境下,如ChatGPT這樣的大模型也照樣答錯(cuò)。

值得注意的是,ChatGPT等大模型出現(xiàn)了胡說(shuō)八道的現(xiàn)象,但在為9.9填補(bǔ)了9.90的零位數(shù)后,就得出了正確的回答。這類大模型說(shuō)胡話的現(xiàn)象,在業(yè)界被稱為大模型出現(xiàn)幻覺。此前,哈爾濱工業(yè)大學(xué)和華為的研究團(tuán)隊(duì)發(fā)表的綜述論文認(rèn)為,模型產(chǎn)生幻覺的三大來(lái)源:數(shù)據(jù)源、訓(xùn)練過(guò)程和推理。大模型可能會(huì)過(guò)度依賴訓(xùn)練數(shù)據(jù)中的一些模式,如位置接近性、共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)和相關(guān)文檔計(jì)數(shù),從而導(dǎo)致幻覺。此外,大模型還可能會(huì)出現(xiàn)長(zhǎng)尾知識(shí)回憶不足、難以應(yīng)對(duì)復(fù)雜推理的情況。

截至發(fā)稿,月之暗面回應(yīng)表示:其實(shí)我們?nèi)祟悓?duì)大模型的能力探索——無(wú)論是大模型能做到什么,還是大模型做不到什么——都還處于非常早期的階段。我們非常期待用戶在使用中能夠發(fā)現(xiàn)和報(bào)告更多的邊界案例(Corner Case),不管是最近的‘9.9和9.11哪個(gè)大、13.8和13.11哪個(gè)大’,還是之前的‘strawberry有幾個(gè)r’,這些邊界案例的發(fā)現(xiàn),有助于我們?cè)黾訉?duì)大模型能力邊界的了解。

針對(duì)大模型答數(shù)學(xué)題普遍吃癟的問題,有業(yè)內(nèi)人士表示,目前來(lái)看大模型的數(shù)理能力相對(duì)較差的情況在中外都是一樣的,打個(gè)比方可以這樣講,大模型就是偏科,文科強(qiáng)理科弱,這個(gè)情況在一段時(shí)間內(nèi)也不會(huì)得到明顯的改善。

從AI大模型在小學(xué)數(shù)學(xué)問題上‘翻車’回看AI大模型行業(yè)發(fā)展情況:

——AI大模型是一種新的智能計(jì)算范式

超大規(guī)模智能模型,簡(jiǎn)稱大模型,是近年興起的一種新的人工智能計(jì)算范式。和傳統(tǒng)AI模型相比,大模型的訓(xùn)練使用了更多的數(shù)據(jù),具有更好的泛化性,可以應(yīng)用到更廣泛的下游任務(wù)中。按照應(yīng)用場(chǎng)景劃分,AI大模型主要包括語(yǔ)言大模型、視覺大模型和多模態(tài)大模型等。業(yè)界典型的自然語(yǔ)言大模型有GPT-3、源、悟道和文心等。視覺大模型也已廣泛應(yīng)用于自動(dòng)駕駛、智能安防、醫(yī)學(xué)影像等領(lǐng)域?;诙嗄B(tài)大模型的以文生圖技術(shù)也迅速發(fā)展,AI內(nèi)容生成(AI Generated Content,AIGC)已成為下一個(gè)AI發(fā)展的重點(diǎn)領(lǐng)域。

AI大模型翻車!小學(xué)數(shù)學(xué)問題難倒一眾好漢:分不清大小,業(yè)內(nèi)人士:大模型就是偏科,文科強(qiáng)理科弱

——全球生成式AI應(yīng)用需求分析

根據(jù)麥肯錫在2023年4月進(jìn)行的一項(xiàng)調(diào)查,盡管GenAl進(jìn)入公眾視野并不久,但對(duì)這些工具的嘗試性應(yīng)用已經(jīng)相當(dāng)普遍,受訪者們預(yù)計(jì)這些新能力將改變其所在行業(yè)。生成式AI已引起商界人士的興趣:受訪者不分地區(qū)、行業(yè)和資歷等級(jí),人人都在工作中和工作之外嘗試使用生成式AI。79%的受訪者表示,他們至少在工作中或工作之外接觸過(guò)生成式AI。22%的受訪者表示,他們會(huì)在工作中經(jīng)常使用生成式AI。不同資歷受訪者的生成式AI使用率非常相似,而從行業(yè)和地區(qū)來(lái)看,技術(shù)行業(yè)和北美地區(qū)受訪者的生成式AI使用率最高。

AI大模型翻車!小學(xué)數(shù)學(xué)問題難倒一眾好漢:分不清大小,業(yè)內(nèi)人士:大模型就是偏科,文科強(qiáng)理科弱

——全球生成式AI行業(yè)市場(chǎng)規(guī)模

隨著ChatGPT的火爆出圈,生成式AI成為各行各業(yè)關(guān)注和熱議的話題。全球科技巨頭和AI廠商紛紛下場(chǎng),唯恐錯(cuò)過(guò)此番科技盛宴。行業(yè)翹楚和媒體將生成式AI浪潮類比昔日的移動(dòng)互聯(lián)網(wǎng)機(jī)遇,認(rèn)為它將對(duì)全球經(jīng)濟(jì)和各個(gè)行業(yè)帶來(lái)深遠(yuǎn)影響,企業(yè)也將迎來(lái)重大變革機(jī)遇,同時(shí),根據(jù)Bloomberg Intelligence披露的數(shù)據(jù),2023年全球生成式AI市場(chǎng)整體規(guī)模約為670億美元,預(yù)計(jì)2029年及2032年將分別達(dá)到7280億美元和1.3萬(wàn)億美元,2022-2032年復(fù)合增長(zhǎng)率高達(dá)42%。

AI大模型翻車!小學(xué)數(shù)學(xué)問題難倒一眾好漢:分不清大小,業(yè)內(nèi)人士:大模型就是偏科,文科強(qiáng)理科弱

據(jù)世界知名咨詢機(jī)構(gòu)麥肯錫報(bào)告估計(jì),生成式人工智能(AIGC)最終每年可為全球增加7.3萬(wàn)億美元的GDP。作為新興的第四產(chǎn)業(yè),大模型將與第一產(chǎn)業(yè)農(nóng)業(yè)、第二產(chǎn)業(yè)工業(yè)、第三產(chǎn)業(yè)服務(wù)業(yè)一起,將成為推動(dòng)經(jīng)濟(jì)發(fā)展的新引擎。作為新的產(chǎn)業(yè)增長(zhǎng)極,第四產(chǎn)業(yè)將深刻改變經(jīng)濟(jì)社會(huì)各個(gè)領(lǐng)域,為生產(chǎn)力發(fā)展帶來(lái)巨大的提升。

星環(huán)科技創(chuàng)始人孫元浩認(rèn)為2024年,或?qū)⒊蔀槿斯ぶ悄?,特別是生成式AI賦能各行各業(yè)的元年,智能化應(yīng)用在各個(gè)領(lǐng)域發(fā)揮越來(lái)越重要的作用,為人們的生活和工作帶來(lái)更多的便利和創(chuàng)新。其中,大模型發(fā)揮了重要的作用。

經(jīng)濟(jì)學(xué)人APP資訊組

看完覺得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。

標(biāo)簽:

ad2

推薦內(nèi)容