大語言模型,為什么要做大,小的不行嗎?
這些問題讓技術(shù)開發(fā)者、創(chuàng)業(yè)者,還有研究人員都很頭疼,作為一個(gè)商業(yè)記錄者,我也曾被各種觀點(diǎn)左右。怎么辦?
為了理清思路,決定系統(tǒng)學(xué)習(xí)這門學(xué)科。最近,我在學(xué)了中科院和清華大學(xué)的大模型系列研討課,收獲挺多;說到底,我們可以把問題分成三塊:大、語言、模型。如果能搞懂這三個(gè)問題,疑惑就解決了一半。
解答這些問題,說難也難,說不難也不難。難的是,得先做點(diǎn)考古工作。比如,要了解我們以前是怎么研究語言的,歷史上發(fā)生了什么。
不難的是,一旦理清了歷史脈絡(luò),找到了關(guān)鍵問題的核心,答案就清楚了。所以,我把學(xué)到的知識(shí)梳理一下,從語言學(xué)的起源和發(fā)展、早期研究的方法,還有自然語言處理(NLP)的雛形三大方面,匯報(bào)給你。
01從哪開始呢?就從80年前說起吧。你知道嗎?
語言學(xué)這個(gè)領(lǐng)域,其實(shí)起步挺晚的,大概是1900年左右才真正成型。在那之前,語言學(xué)只是人類學(xué)里的一個(gè)小分支。
說到這兒,你可能覺得有點(diǎn)復(fù)雜,又是語言學(xué),又是人類學(xué)的,到底啥意思?簡單來說,人類學(xué)是研究人類是怎么來的,為什么會(huì)有「人」這個(gè)物種;而語言學(xué),作為人類學(xué)的一部分,主要研究的是語言的歷史和變化。
大家都知道,現(xiàn)在有很多方言,比如河南話、東北話、北京話,但你知道這些語言的根源是什么嗎?
我們常提到的「漢藏語系」就是個(gè)好例子。歷史上,漢語和藏語其實(shí)是同根生的,它們都源自一個(gè)古老的語言體系。隨著時(shí)間的流逝,這些語言慢慢分化,形成了不同的方言和語種。
在1950年之前,語言學(xué)受到心理學(xué)的很大影響。
那時(shí)候,人們把語言看作是腦子里的一些想法,研究語言的方法也是按照行為主義(Behaviorism)來的。
什么是行為主義呢?
簡單講,人的心理和行為是可以通過觀察、測量研究的。比如:一個(gè)人聽到什么,做出什么反應(yīng),這些都是可以記錄下來的,所以有數(shù)據(jù),有實(shí)際的經(jīng)驗(yàn)作為支持。
然而,由于技術(shù)限制,當(dāng)時(shí)的研究沒法深入探討意識(shí)問題。意識(shí)在大腦里太復(fù)雜了,看不見也摸不著,所以人們覺得不應(yīng)該研究那些沒有科學(xué)依據(jù)的意識(shí)行為。
于是,人的大腦就被看作是一個(gè)黑盒:你輸入什么,它就輸出什么。
所以,在行為主義的影響下,心理學(xué)研究形成了一個(gè)基本觀點(diǎn):人的行為可以歸結(jié)為兩個(gè)因素:先天因素和后天因素。
先天因素是「遺傳」,我們?yōu)槭裁磿?huì)有某種行為,可能是因?yàn)槲覀兊母改?、祖父母等遺傳給我們的;后天因素是環(huán)境影響,你現(xiàn)在的行為是從出生到現(xiàn)在,所有環(huán)境影響的反映,是你過去所有經(jīng)歷的結(jié)果。
還有一點(diǎn),當(dāng)時(shí)很多學(xué)者認(rèn)為,世界上有很多不同的文化,有的文化影響大,有的影響小。
比如,中國人說話的順序是一種方式,日本人說話的順序可能就不一樣;我們不應(yīng)該研究文化,因?yàn)檫@種研究會(huì)引來文化爭論,
所有,初期有兩個(gè)觀點(diǎn):人類學(xué)反對(duì)研究語法差異,否認(rèn)大腦有「意識(shí)」和「思考」的機(jī)制。
02當(dāng)時(shí)語言學(xué)處于什么階段呢?一句話總結(jié)即:大家都在爭論語言學(xué)是什么,并試圖給它們下定義。
具體怎么理解呢?
我們可以從1907年到1911年出版的《普通語言學(xué)教程》說起。書的作者是費(fèi)爾迪南·德·索緒爾(Ferdinand de Saussure)。。
他在書里提出了兩個(gè)重要的概念:語言和言語,還給它們下了定義。他的研究主要關(guān)注兩個(gè)領(lǐng)域:音系學(xué)和詞法學(xué)。
音系學(xué),就是研究語言里用哪些聲音作為基礎(chǔ),這些聲音怎么組合成詞。比如,你說話時(shí),一個(gè)詞是由很多聲音組成的,哪些音素構(gòu)成了這個(gè)詞。
詞法學(xué),就是研究這些聲音怎么組成詞語,以及為什么這樣的組合能表達(dá)特定的意思。
那么,當(dāng)時(shí)最先進(jìn)的語言學(xué)研究是什么樣的呢?這里要提到一個(gè)人,叫伯爾赫斯·弗雷德里克·斯金納,大家通常叫他B. F. 斯金納。
他主要研究心理學(xué)和教育,特別是怎么教小孩學(xué)習(xí)。
他的研究完全按照行為主義的方法來。經(jīng)過二十多年的研究,他寫了本書叫《言語行為》,總結(jié)了自己在語言學(xué)上的發(fā)現(xiàn);斯金納認(rèn)為,人類的語言是一種條件反射。著名的巴甫洛夫?qū)嶒?yàn)就是他理論。
舉個(gè)例子:
比如Candy這個(gè)詞意思是糖果。小孩怎么知道Candy是糖呢?因?yàn)槊看嗡fCandy,就有人給他一塊糖。時(shí)間一長,他就學(xué)會(huì)了,只要說Candy就能得到糖。
斯金納覺得,語言的學(xué)習(xí)是通過外部的刺激和反應(yīng)形成的,完全可以用行為主義的條件反射來解釋。
不過,斯金納的觀點(diǎn)很快就被推翻,推翻他的人是喬姆斯基(Noam Chomsky)。
1957年,喬姆斯基提出了完全不同的觀點(diǎn),還寫了兩本書,一本叫《句法結(jié)構(gòu)》,另一本叫《評(píng)言語行為》。他認(rèn)為,我們不應(yīng)該把大腦看作一個(gè)黑盒,而是應(yīng)該從心智的角度出發(fā),研究大腦內(nèi)部發(fā)生了什么。
并且,喬姆斯基舉了一個(gè)例子來說明他的觀點(diǎn)。他說:
每個(gè)人心里都有一個(gè)語言的深層結(jié)構(gòu)。比如,不管你說什么語言,當(dāng)你想表達(dá)你想吃什么時(shí),大腦里生成的原始想法都遵循一種邏輯形式。
然后,這個(gè)想法會(huì)經(jīng)過語言和文化的轉(zhuǎn)換,變成具體的語法形式,比如英語、漢語。這個(gè)過程發(fā)生在大腦里,而且可以用機(jī)械的方式建模,甚至可以用算法來描述。
簡單說,喬姆斯基認(rèn)為,我們的心智可以用一些簡單的規(guī)則來描述。
因此,喬姆斯基創(chuàng)立了一門新的學(xué)科,研究如何用符號(hào)和規(guī)則來描述這種轉(zhuǎn)換;他的理論,徹底改變了語言學(xué)的研究方向。
03這個(gè)學(xué)科叫什么呢?形式語言(Formal language)。
喬姆斯基的理論不光影響了語言學(xué),還和當(dāng)時(shí)的數(shù)理邏輯里的自動(dòng)機(jī)理論結(jié)合,做出了不少新成果。
比如:
自動(dòng)機(jī)理論和編譯原理里的一些概念,像喬姆斯基譜系、喬姆斯基范式、正則文法、上下文無關(guān)文法等等,都是喬姆斯基提出來的。
看到這里,你可能會(huì)有點(diǎn)迷惑:這都是什么呢?別急,我來簡單解釋一下。
喬姆斯基譜系是個(gè)分類系統(tǒng),它把語言按復(fù)雜程度分了幾個(gè)等級(jí)。比如,最簡單的語言叫正則語言,復(fù)雜點(diǎn)的叫上下文無關(guān)語言,再復(fù)雜點(diǎn)的還有上下文相關(guān)語言等等。
范式呢,是一種特別的語法規(guī)則形式。簡單來說,它把句子結(jié)構(gòu)簡化成一種標(biāo)準(zhǔn)格式,方便計(jì)算機(jī)處理。比如,一個(gè)句子可以拆分成更小的部分,每個(gè)部分都遵循固定的規(guī)則。
至于正則文法、上下文無關(guān)法,我們可以把它們想象成電話號(hào)碼或郵政編碼的格式,特點(diǎn)是規(guī)則簡單、比較固定,適合處理像123-4567這種有規(guī)律的內(nèi)容。
但是編程語言里的語法規(guī)則,或自然語言里的句子結(jié)構(gòu)就不同了;它們的規(guī)則更復(fù)雜,因?yàn)樯舷挛目赡苡嘘P(guān)系。比如,一個(gè)句子的意思可能取決于前面的內(nèi)容,比如:如果……那么……
此外,喬姆斯基還提出了普遍文法的概念。什么是普遍文法呢?簡單來說,就像所有語言都有名詞和動(dòng)詞,所有語言都有表達(dá)過去、現(xiàn)在和未來的方式。
喬姆斯基認(rèn)為,所有人類語言都共享一套基本的規(guī)則。
不管是英語還是漢語,大腦里的語言規(guī)則都是一樣的,這些規(guī)則是先天就有的,因?yàn)橹挥腥祟惸苷莆照Z言,動(dòng)物怎么訓(xùn)練都不行。
所以,他認(rèn)為這是人類大腦特有的,由基因決定的。
看到這,你可能覺得,他對(duì)計(jì)算機(jī)研究很透徹,其實(shí)他不是計(jì)算機(jī)科學(xué)家,他的研究主要集中在語言學(xué)和認(rèn)知科學(xué)領(lǐng)域,但他的理論對(duì)計(jì)算機(jī)科學(xué)、編程語言、自然語言處理影響很大。
后來,從1950年開始,自然語言處理(NLP)的研究正式起步了。最開始,科學(xué)家們有了個(gè)新工具,叫做自動(dòng)機(jī)。
從那時(shí)起,NLP研究用的是符號(hào)主義方法,符號(hào)主義是啥意思呢?就是通過人工構(gòu)造規(guī)則來描述自然語言,然后用確定的邏輯推理來處理自然語言。這種方法催生了一個(gè)新的學(xué)科,叫做計(jì)算語言學(xué)。
今天,如果你做自然語言處理研究,可能會(huì)把成果發(fā)表在ACL上。ACL是啥?它是計(jì)算語言學(xué)學(xué)會(huì)(Association for Computational Linguistics)的縮寫,這個(gè)學(xué)會(huì)的會(huì)議是自然語言處理領(lǐng)域最重要的會(huì)議之一。
現(xiàn)在,我們發(fā)論文還是會(huì)往ACL、EMNLP上投。其實(shí),這些會(huì)議的名字就是這么來的。
當(dāng)時(shí)的科學(xué)家用符號(hào)主義方法研究后,很快就取得了一些進(jìn)展,我們能實(shí)現(xiàn)一些簡單的自然語言處理功能。當(dāng)時(shí)大家都很興奮,覺得自然語言處理似乎沒那么難。
于是,一些語言學(xué)家認(rèn)為,未來可以像物理學(xué)家研究材料一樣研究語言,這樣就不會(huì)帶有人類的偏見、主觀看法,因?yàn)檎Z言必須簡化成可操作的形式,才能用電子設(shè)備處理。
我們先把語言變成邏輯符號(hào),然后寫一些公式來處理它,這樣就能避免人類的偏見;不過,今天我們發(fā)現(xiàn),不僅語言學(xué)家不能這樣研究語言,就連物理學(xué)家用類似方法研究材料也遇到了瓶頸。
這是時(shí)代發(fā)展帶來的變化,不管怎樣,喬姆斯基老爺子成果還是很了不起的。
04當(dāng)時(shí)對(duì)NLP研究,最早的一個(gè)成功案例,歷史上叫它喬治城實(shí)驗(yàn),發(fā)生在1956年。
這個(gè)實(shí)驗(yàn)怎么回事呢?
美國人搞了一個(gè)機(jī)器翻譯系統(tǒng),想把俄語翻成英語。他們?cè)贗BM 701計(jì)算機(jī)上編程序。
那臺(tái)機(jī)器特別大,用紙帶輸入輸出,存儲(chǔ)量也小,只能處理幾百個(gè)詞,不過他們還是成功展示了這個(gè)系統(tǒng),翻譯了大約60個(gè)句子,算是取得了初步成果,
從那時(shí)起,DARPA(美國國防高級(jí)研究計(jì)劃局)開始資助自然語言處理(NLP)的研究。
大家都覺得,像機(jī)器翻譯這樣的問題,大概十年就能搞定,語言差異不再是交流障礙。可是十年后,大家發(fā)現(xiàn),還是只能做類似的東西。
1965年,出現(xiàn)了一個(gè)叫ELIZA的程序。它的目的是模擬心理治療過程。這個(gè)程序挺簡單,只有四百多行代碼。它通過一個(gè)解釋器運(yùn)行一個(gè)三百多行的腳本,實(shí)現(xiàn)了聊天功能。
ELIZA的特點(diǎn)是不會(huì)沒話說,不管你說啥,它都能用一些通用句子回應(yīng)你,總能和你聊下去。雖然最初是為心理治療設(shè)計(jì)的,但人們認(rèn)為它是世界上第一個(gè)聊天機(jī)器人,效果還不錯(cuò)。
甚至今天還有報(bào)道說,ELIZA在圖靈測試中的得分比GPT-3.5還高。不過,符號(hào)主義的研究方法并沒有取得預(yù)期的巨大成功。
為啥呢?
到了1966年左右,大家發(fā)現(xiàn),十年過去了,機(jī)器翻譯問題還是沒解決;DARPA資助了很多研究,投入了大量資金,但進(jìn)展不理想。DARPA派人去各個(gè)項(xiàng)目組檢查,看看錢花哪兒了,研究進(jìn)展如何。結(jié)果發(fā)現(xiàn),進(jìn)展非常慢。
于是,1969年,人工智能研究的熱情開始減退。
DARPA的政策也變了,當(dāng)時(shí)蘇聯(lián)很強(qiáng),美國在冷戰(zhàn)中處于劣勢(shì),又深陷越戰(zhàn),大部分資金都投入了登月計(jì)劃,和蘇聯(lián)競爭,剩下的錢用于AI研究,但AI研究看不到短期內(nèi)的應(yīng)用前景,所以資金減少了。
DARPA要求,以后資助的項(xiàng)目必須說明短期內(nèi)對(duì)軍事的幫助,否則不再提供資金。從那時(shí)起,研究資金減少,AI研究進(jìn)入了第一次寒冬。
所以,寒冬是怎么走出來的呢?
1980年代以后,研究方式變了,大家逐漸不再完全相信喬姆斯基的理論。雖然喬姆斯基的理論很好,一開始很多人相信并做相關(guān)研究,但后來發(fā)現(xiàn),寫規(guī)則似乎永遠(yuǎn)寫不完,效果也不理想。
于是,規(guī)則方法逐漸被拋棄,反對(duì)喬姆斯基的聲音開始出現(xiàn);同時(shí),計(jì)算機(jī)技術(shù)也在發(fā)展,微處理器和個(gè)人電腦開始普及。到了2000年左右,互聯(lián)網(wǎng)迅速發(fā)展,語料收集變得容易多了。
以前語料要靠人工輸入,現(xiàn)在可以從網(wǎng)上抓取數(shù)據(jù)。這些條件的變化,使得NLP研究的主流方法轉(zhuǎn)向了統(tǒng)計(jì)方法。
這就是自然語言處理(NLP)80年發(fā)展??偨Y(jié)四點(diǎn):
一,人們經(jīng)歷了從行為主義向認(rèn)知科學(xué)的轉(zhuǎn)變;二,早期的自然語言處理依賴于符號(hào)主義、規(guī)則系統(tǒng),后來轉(zhuǎn)向統(tǒng)計(jì)法;三,喬姆斯基對(duì)NLP做出了巨大貢獻(xiàn);四,NLP的發(fā)展離不開計(jì)算機(jī)技術(shù)的進(jìn)步。
一口氣說了這么多,不知道講的夠不夠清晰?
看完覺得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。