NLP的早期發(fā)展里程碑

藍(lán)海情報(bào)網(wǎng) 2025-01-06 13:21:04 376

NLP的早期發(fā)展里程碑

大語言模型，為什么要做大，小的不行嗎？

這些問題讓技術(shù)開發(fā)者、創(chuàng)業(yè)者，還有研究人員都很頭疼，作為一個(gè)商業(yè)記錄者，我也曾被各種觀點(diǎn)左右。怎么辦？

為了理清思路，決定系統(tǒng)學(xué)習(xí)這門學(xué)科。最近，我在學(xué)了中科院和清華大學(xué)的大模型系列研討課，收獲挺多；說到底，我們可以把問題分成三塊：大、語言、模型。如果能搞懂這三個(gè)問題，疑惑就解決了一半。

解答這些問題，說難也難，說不難也不難。難的是，得先做點(diǎn)考古工作。比如，要了解我們以前是怎么研究語言的，歷史上發(fā)生了什么。

不難的是，一旦理清了歷史脈絡(luò)，找到了關(guān)鍵問題的核心，答案就清楚了。所以，我把學(xué)到的知識(shí)梳理一下，從語言學(xué)的起源和發(fā)展、早期研究的方法，還有自然語言處理（NLP）的雛形三大方面，匯報(bào)給你。

從哪開始呢？就從80年前說起吧。你知道嗎？

語言學(xué)這個(gè)領(lǐng)域，其實(shí)起步挺晚的，大概是1900年左右才真正成型。在那之前，語言學(xué)只是人類學(xué)里的一個(gè)小分支。

說到這兒，你可能覺得有點(diǎn)復(fù)雜，又是語言學(xué)，又是人類學(xué)的，到底啥意思？簡單來說，人類學(xué)是研究人類是怎么來的，為什么會(huì)有「人」這個(gè)物種；而語言學(xué)，作為人類學(xué)的一部分，主要研究的是語言的歷史和變化。

大家都知道，現(xiàn)在有很多方言，比如河南話、東北話、北京話，但你知道這些語言的根源是什么嗎？

我們常提到的「漢藏語系」就是個(gè)好例子。歷史上，漢語和藏語其實(shí)是同根生的，它們都源自一個(gè)古老的語言體系。隨著時(shí)間的流逝，這些語言慢慢分化，形成了不同的方言和語種。

在1950年之前，語言學(xué)受到心理學(xué)的很大影響。

那時(shí)候，人們把語言看作是腦子里的一些想法，研究語言的方法也是按照行為主義（Behaviorism）來的。

什么是行為主義呢？

簡單講，人的心理和行為是可以通過觀察、測量研究的。比如：一個(gè)人聽到什么，做出什么反應(yīng)，這些都是可以記錄下來的，所以有數(shù)據(jù)，有實(shí)際的經(jīng)驗(yàn)作為支持。

然而，由于技術(shù)限制，當(dāng)時(shí)的研究沒法深入探討意識(shí)問題。意識(shí)在大腦里太復(fù)雜了，看不見也摸不著，所以人們覺得不應(yīng)該研究那些沒有科學(xué)依據(jù)的意識(shí)行為。

于是，人的大腦就被看作是一個(gè)黑盒：你輸入什么，它就輸出什么。

所以，在行為主義的影響下，心理學(xué)研究形成了一個(gè)基本觀點(diǎn)：人的行為可以歸結(jié)為兩個(gè)因素：先天因素和后天因素。

先天因素是「遺傳」，我們?yōu)槭裁磿?huì)有某種行為，可能是因?yàn)槲覀兊母改?、祖父母等遺傳給我們的；后天因素是環(huán)境影響，你現(xiàn)在的行為是從出生到現(xiàn)在，所有環(huán)境影響的反映，是你過去所有經(jīng)歷的結(jié)果。

還有一點(diǎn)，當(dāng)時(shí)很多學(xué)者認(rèn)為，世界上有很多不同的文化，有的文化影響大，有的影響小。

比如，中國人說話的順序是一種方式，日本人說話的順序可能就不一樣；我們不應(yīng)該研究文化，因?yàn)檫@種研究會(huì)引來文化爭論，

所有，初期有兩個(gè)觀點(diǎn)：人類學(xué)反對(duì)研究語法差異，否認(rèn)大腦有「意識(shí)」和「思考」的機(jī)制。

當(dāng)時(shí)語言學(xué)處于什么階段呢？一句話總結(jié)即：大家都在爭論語言學(xué)是什么，并試圖給它們下定義。

具體怎么理解呢？

我們可以從1907年到1911年出版的《普通語言學(xué)教程》說起。書的作者是費(fèi)爾迪南·德·索緒爾（Ferdinand de Saussure）。。

他在書里提出了兩個(gè)重要的概念：語言和言語，還給它們下了定義。他的研究主要關(guān)注兩個(gè)領(lǐng)域：音系學(xué)和詞法學(xué)。

音系學(xué)，就是研究語言里用哪些聲音作為基礎(chǔ)，這些聲音怎么組合成詞。比如，你說話時(shí)，一個(gè)詞是由很多聲音組成的，哪些音素構(gòu)成了這個(gè)詞。

詞法學(xué)，就是研究這些聲音怎么組成詞語，以及為什么這樣的組合能表達(dá)特定的意思。

那么，當(dāng)時(shí)最先進(jìn)的語言學(xué)研究是什么樣的呢？這里要提到一個(gè)人，叫伯爾赫斯·弗雷德里克·斯金納，大家通常叫他B. F. 斯金納。

他主要研究心理學(xué)和教育，特別是怎么教小孩學(xué)習(xí)。

他的研究完全按照行為主義的方法來。經(jīng)過二十多年的研究，他寫了本書叫《言語行為》，總結(jié)了自己在語言學(xué)上的發(fā)現(xiàn)；斯金納認(rèn)為，人類的語言是一種條件反射。著名的巴甫洛夫?qū)嶒?yàn)就是他理論。

舉個(gè)例子：

比如Candy這個(gè)詞意思是糖果。小孩怎么知道Candy是糖呢？因?yàn)槊看嗡fCandy，就有人給他一塊糖。時(shí)間一長，他就學(xué)會(huì)了，只要說Candy就能得到糖。

斯金納覺得，語言的學(xué)習(xí)是通過外部的刺激和反應(yīng)形成的，完全可以用行為主義的條件反射來解釋。

不過，斯金納的觀點(diǎn)很快就被推翻，推翻他的人是喬姆斯基（Noam Chomsky）。

1957年，喬姆斯基提出了完全不同的觀點(diǎn)，還寫了兩本書，一本叫《句法結(jié)構(gòu)》，另一本叫《評(píng)言語行為》。他認(rèn)為，我們不應(yīng)該把大腦看作一個(gè)黑盒，而是應(yīng)該從心智的角度出發(fā)，研究大腦內(nèi)部發(fā)生了什么。

并且，喬姆斯基舉了一個(gè)例子來說明他的觀點(diǎn)。他說：

每個(gè)人心里都有一個(gè)語言的深層結(jié)構(gòu)。比如，不管你說什么語言，當(dāng)你想表達(dá)你想吃什么時(shí)，大腦里生成的原始想法都遵循一種邏輯形式。

然后，這個(gè)想法會(huì)經(jīng)過語言和文化的轉(zhuǎn)換，變成具體的語法形式，比如英語、漢語。這個(gè)過程發(fā)生在大腦里，而且可以用機(jī)械的方式建模，甚至可以用算法來描述。

簡單說，喬姆斯基認(rèn)為，我們的心智可以用一些簡單的規(guī)則來描述。

因此，喬姆斯基創(chuàng)立了一門新的學(xué)科，研究如何用符號(hào)和規(guī)則來描述這種轉(zhuǎn)換；他的理論，徹底改變了語言學(xué)的研究方向。

這個(gè)學(xué)科叫什么呢？形式語言（Formal language）。

喬姆斯基的理論不光影響了語言學(xué)，還和當(dāng)時(shí)的數(shù)理邏輯里的自動(dòng)機(jī)理論結(jié)合，做出了不少新成果。

比如：

自動(dòng)機(jī)理論和編譯原理里的一些概念，像喬姆斯基譜系、喬姆斯基范式、正則文法、上下文無關(guān)文法等等，都是喬姆斯基提出來的。

看到這里，你可能會(huì)有點(diǎn)迷惑：這都是什么呢？別急，我來簡單解釋一下。

喬姆斯基譜系是個(gè)分類系統(tǒng)，它把語言按復(fù)雜程度分了幾個(gè)等級(jí)。比如，最簡單的語言叫正則語言，復(fù)雜點(diǎn)的叫上下文無關(guān)語言，再復(fù)雜點(diǎn)的還有上下文相關(guān)語言等等。

范式呢，是一種特別的語法規(guī)則形式。簡單來說，它把句子結(jié)構(gòu)簡化成一種標(biāo)準(zhǔn)格式，方便計(jì)算機(jī)處理。比如，一個(gè)句子可以拆分成更小的部分，每個(gè)部分都遵循固定的規(guī)則。

至于正則文法、上下文無關(guān)法，我們可以把它們想象成電話號(hào)碼或郵政編碼的格式，特點(diǎn)是規(guī)則簡單、比較固定，適合處理像123-4567這種有規(guī)律的內(nèi)容。

但是編程語言里的語法規(guī)則，或自然語言里的句子結(jié)構(gòu)就不同了；它們的規(guī)則更復(fù)雜，因?yàn)樯舷挛目赡苡嘘P(guān)系。比如，一個(gè)句子的意思可能取決于前面的內(nèi)容，比如：如果……那么……

此外，喬姆斯基還提出了普遍文法的概念。什么是普遍文法呢？簡單來說，就像所有語言都有名詞和動(dòng)詞，所有語言都有表達(dá)過去、現(xiàn)在和未來的方式。

喬姆斯基認(rèn)為，所有人類語言都共享一套基本的規(guī)則。

不管是英語還是漢語，大腦里的語言規(guī)則都是一樣的，這些規(guī)則是先天就有的，因?yàn)橹挥腥祟惸苷莆照Z言，動(dòng)物怎么訓(xùn)練都不行。

所以，他認(rèn)為這是人類大腦特有的，由基因決定的。

看到這，你可能覺得，他對(duì)計(jì)算機(jī)研究很透徹，其實(shí)他不是計(jì)算機(jī)科學(xué)家，他的研究主要集中在語言學(xué)和認(rèn)知科學(xué)領(lǐng)域，但他的理論對(duì)計(jì)算機(jī)科學(xué)、編程語言、自然語言處理影響很大。

后來，從1950年開始，自然語言處理（NLP）的研究正式起步了。最開始，科學(xué)家們有了個(gè)新工具，叫做自動(dòng)機(jī)。

從那時(shí)起，NLP研究用的是符號(hào)主義方法，符號(hào)主義是啥意思呢？就是通過人工構(gòu)造規(guī)則來描述自然語言，然后用確定的邏輯推理來處理自然語言。這種方法催生了一個(gè)新的學(xué)科，叫做計(jì)算語言學(xué)。

今天，如果你做自然語言處理研究，可能會(huì)把成果發(fā)表在ACL上。ACL是啥？它是計(jì)算語言學(xué)學(xué)會(huì)（Association for Computational Linguistics）的縮寫，這個(gè)學(xué)會(huì)的會(huì)議是自然語言處理領(lǐng)域最重要的會(huì)議之一。

現(xiàn)在，我們發(fā)論文還是會(huì)往ACL、EMNLP上投。其實(shí)，這些會(huì)議的名字就是這么來的。

當(dāng)時(shí)的科學(xué)家用符號(hào)主義方法研究后，很快就取得了一些進(jìn)展，我們能實(shí)現(xiàn)一些簡單的自然語言處理功能。當(dāng)時(shí)大家都很興奮，覺得自然語言處理似乎沒那么難。

于是，一些語言學(xué)家認(rèn)為，未來可以像物理學(xué)家研究材料一樣研究語言，這樣就不會(huì)帶有人類的偏見、主觀看法，因?yàn)檎Z言必須簡化成可操作的形式，才能用電子設(shè)備處理。

我們先把語言變成邏輯符號(hào)，然后寫一些公式來處理它，這樣就能避免人類的偏見；不過，今天我們發(fā)現(xiàn)，不僅語言學(xué)家不能這樣研究語言，就連物理學(xué)家用類似方法研究材料也遇到了瓶頸。

這是時(shí)代發(fā)展帶來的變化，不管怎樣，喬姆斯基老爺子成果還是很了不起的。

當(dāng)時(shí)對(duì)NLP研究，最早的一個(gè)成功案例，歷史上叫它喬治城實(shí)驗(yàn)，發(fā)生在1956年。

這個(gè)實(shí)驗(yàn)怎么回事呢？

美國人搞了一個(gè)機(jī)器翻譯系統(tǒng)，想把俄語翻成英語。他們?cè)贗BM 701計(jì)算機(jī)上編程序。

那臺(tái)機(jī)器特別大，用紙帶輸入輸出，存儲(chǔ)量也小，只能處理幾百個(gè)詞，不過他們還是成功展示了這個(gè)系統(tǒng)，翻譯了大約60個(gè)句子，算是取得了初步成果，

從那時(shí)起，DARPA（美國國防高級(jí)研究計(jì)劃局）開始資助自然語言處理（NLP）的研究。

大家都覺得，像機(jī)器翻譯這樣的問題，大概十年就能搞定，語言差異不再是交流障礙。可是十年后，大家發(fā)現(xiàn)，還是只能做類似的東西。

1965年，出現(xiàn)了一個(gè)叫ELIZA的程序。它的目的是模擬心理治療過程。這個(gè)程序挺簡單，只有四百多行代碼。它通過一個(gè)解釋器運(yùn)行一個(gè)三百多行的腳本，實(shí)現(xiàn)了聊天功能。

ELIZA的特點(diǎn)是不會(huì)沒話說，不管你說啥，它都能用一些通用句子回應(yīng)你，總能和你聊下去。雖然最初是為心理治療設(shè)計(jì)的，但人們認(rèn)為它是世界上第一個(gè)聊天機(jī)器人，效果還不錯(cuò)。

甚至今天還有報(bào)道說，ELIZA在圖靈測試中的得分比GPT-3.5還高。不過，符號(hào)主義的研究方法并沒有取得預(yù)期的巨大成功。

為啥呢？

到了1966年左右，大家發(fā)現(xiàn)，十年過去了，機(jī)器翻譯問題還是沒解決；DARPA資助了很多研究，投入了大量資金，但進(jìn)展不理想。DARPA派人去各個(gè)項(xiàng)目組檢查，看看錢花哪兒了，研究進(jìn)展如何。結(jié)果發(fā)現(xiàn)，進(jìn)展非常慢。

于是，1969年，人工智能研究的熱情開始減退。

DARPA的政策也變了，當(dāng)時(shí)蘇聯(lián)很強(qiáng)，美國在冷戰(zhàn)中處于劣勢(shì)，又深陷越戰(zhàn)，大部分資金都投入了登月計(jì)劃，和蘇聯(lián)競爭，剩下的錢用于AI研究，但AI研究看不到短期內(nèi)的應(yīng)用前景，所以資金減少了。

DARPA要求，以后資助的項(xiàng)目必須說明短期內(nèi)對(duì)軍事的幫助，否則不再提供資金。從那時(shí)起，研究資金減少，AI研究進(jìn)入了第一次寒冬。

所以，寒冬是怎么走出來的呢？

1980年代以后，研究方式變了，大家逐漸不再完全相信喬姆斯基的理論。雖然喬姆斯基的理論很好，一開始很多人相信并做相關(guān)研究，但后來發(fā)現(xiàn)，寫規(guī)則似乎永遠(yuǎn)寫不完，效果也不理想。

于是，規(guī)則方法逐漸被拋棄，反對(duì)喬姆斯基的聲音開始出現(xiàn)；同時(shí)，計(jì)算機(jī)技術(shù)也在發(fā)展，微處理器和個(gè)人電腦開始普及。到了2000年左右，互聯(lián)網(wǎng)迅速發(fā)展，語料收集變得容易多了。

以前語料要靠人工輸入，現(xiàn)在可以從網(wǎng)上抓取數(shù)據(jù)。這些條件的變化，使得NLP研究的主流方法轉(zhuǎn)向了統(tǒng)計(jì)方法。

這就是自然語言處理（NLP）80年發(fā)展?？偨Y(jié)四點(diǎn)：

一，人們經(jīng)歷了從行為主義向認(rèn)知科學(xué)的轉(zhuǎn)變；二，早期的自然語言處理依賴于符號(hào)主義、規(guī)則系統(tǒng)，后來轉(zhuǎn)向統(tǒng)計(jì)法；三，喬姆斯基對(duì)NLP做出了巨大貢獻(xiàn)；四，NLP的發(fā)展離不開計(jì)算機(jī)技術(shù)的進(jìn)步。

一口氣說了這么多，不知道講的夠不夠清晰？

看完覺得寫得好的，不防打賞一元，以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。

標(biāo)簽：標(biāo)簽內(nèi)容隨筆