文:王智遠(yuǎn) | ID:Z201440
這幾天,看了一些關(guān)于聊天機(jī)器人(Chatbot)的論文,也想了不少東西;這里分享一下我的看法,如果有謬誤,可以提出來,也歡迎和我交流。
事情是這樣:
我前些天遇到一個(gè)問題,電腦里、各種工具(比如印象筆記、Obsidian、飛書、釘釘)里,文檔太多了,到處亂放,看著就頭疼。人天生不喜歡亂糟糟的東西,這太煩了。
我就想,要有個(gè)本地模型或者AI助理,我一問,它就能幫我把相關(guān)內(nèi)容找出來,整理好,直接給我一個(gè)清晰的答案,那該多好;不過,想法只是想法,要實(shí)現(xiàn)它還得好好探索。
在探索過程中,我又一次接觸到了聊天機(jī)器人(Chatbot)和人工智能體(AI Agent)這兩個(gè)詞。很多人以為它們是一樣的,其實(shí)完全不一樣。
有什么不一樣呢?
Chatbot收到你的問題后,會(huì)用自然語(yǔ)言處理技術(shù)去理解你的意思,然后,生成一個(gè)合適的回答。在這個(gè)過程中,Chatbot得能理解你的話(語(yǔ)義理解),還得記住你們的對(duì)話內(nèi)容(對(duì)話管理),這樣才能準(zhǔn)確回答你的問題。
比如,你問它:今天天氣怎么樣?它得先明白你想問天氣,然后去查今天的天氣,最后告訴你答案。要是你接著問:明天呢?它還得記得你剛剛問過天氣,接著回答明天的情況。
Chatbot在很多地方都很有用,不管是生產(chǎn)還是研究,要是它沒有本地知識(shí),可能就答不上你的問題了。
你有沒有想過,為啥工業(yè)界都這么喜歡Chatbot呢?因?yàn)樗茏詣?dòng)跟人對(duì)話,能當(dāng)智能客服,也能當(dāng)語(yǔ)音助手。比如天貓、京東、滴滴、支付寶這些平臺(tái),它們的智能客服就是Chatbot,能幫我們解決很多問題,效率很高。
再說說Chatbot的種類,我大概知道有三種。
第一種是關(guān)鍵字識(shí)別類。
這種機(jī)器人很常見,在電商平臺(tái)和銀行APP里。它會(huì)從你的話里找出關(guān)鍵字,然后根據(jù)關(guān)鍵字來回答你,或者,引導(dǎo)你下一步該怎么做。這種機(jī)器人主要是給企業(yè)用的,比較實(shí)用。
第二種是按鈕/菜單類。
這種機(jī)器人沒有太多對(duì)話功能。用戶只要點(diǎn)按鈕或者選菜單,就能找到自己想要的信息。它有時(shí)候會(huì)和關(guān)鍵字識(shí)別類的機(jī)器人一起用,方便用戶操作。
第三種是AI + ML類(人工智能加機(jī)器學(xué)習(xí))。這種機(jī)器人最厲害,它能根據(jù)聊天的內(nèi)容和上下文,進(jìn)行自然的對(duì)話。在GPT出來之前,這種高級(jí)的聊天機(jī)器人基本都被大公司壟斷了。
后來,隨著自然語(yǔ)言處理技術(shù)(NLP)的發(fā)展,它有了一個(gè)新名字,叫AI Agent。
為啥叫AI Agent呢?
因?yàn)楝F(xiàn)在的聊天機(jī)器人變得更強(qiáng)大、更靈活了。按功能分,有任務(wù)型、閑聊型和混合型。任務(wù)型的機(jī)器人像一個(gè)小助手,能幫你訂機(jī)票、查股票價(jià)格或者管理日程,通過多輪對(duì)話幫你完成任務(wù)。
閑聊型的機(jī)器人,主要是陪你聊天,提供情感陪伴,給它一個(gè)話題,它都能回應(yīng),不過它沒有那么明確的目標(biāo);混合型的機(jī)器人則是把任務(wù)型、閑聊型的特點(diǎn)結(jié)合起來,像個(gè)全能選手。
再說說對(duì)話領(lǐng)域。
開放域的機(jī)器人,可以和它聊任何話題。比如你用過Kimi、DeepSeek這些AI聊天框,它們有個(gè)聯(lián)網(wǎng)功能,打開后就能邊搜邊回答,這就是開放域。
半開放域的機(jī)器人,范圍稍微窄一些,但也能聊很多東西。它更專注,聊天范圍很明確,像百度給比亞迪做的那個(gè)智能體一樣,它只回答和比亞迪有關(guān)的內(nèi)容。
現(xiàn)在最流行的聊天機(jī)器人,大家都知道,是既能檢索又能生成,既可以單輪對(duì)話,也能多輪對(duì)話,既可以開放域,也能封閉域。因?yàn)樗鼈冏兊眠@么靈活,功能也升級(jí)了,它的名字也升級(jí)了,才叫:AI Agent。
這就是它的不同和升級(jí)之處。
既然這樣,問題來了,是不是AI Agent出來后,代表著傳統(tǒng)的chatbot能力沒用了呢?不是的。我認(rèn)為,諸多廠商都在補(bǔ)齊這個(gè)能力。
為什么這么說呢?先說說我的解決方案,你就明白了。
我電腦里存了大量資料,像各種各樣的文件夾,生活工作的照片,還有五花八門的文檔,Word、Excel、PDF啥都有。
為了讓MacBook里的文件和筆記能快速找到,又不想部署本地模型,我就在Cherry Studio里接入了BAAI/bge-m3模型,這樣,它能調(diào)用本地知識(shí)庫(kù),我現(xiàn)在可以用對(duì)話框,對(duì)電腦知識(shí)庫(kù)提問。
說個(gè)例子:
比如,我現(xiàn)在想知道電腦里幾十個(gè)PPT里,關(guān)于某個(gè)方案的結(jié)論。我的做法是,把它們放到一個(gè)主題文件夾里,然后在Cherry Studio的對(duì)話框里輸入問題,比如:這個(gè)方案的最終結(jié)論是什么?
模型就會(huì)自動(dòng)從這些PPT里找到相關(guān)內(nèi)容,把結(jié)論整理出來告訴我。這樣,我就不要一個(gè)個(gè)打開PPT去翻找了,方便多了;其實(shí),這個(gè)能力是Chatbot、工具、本地知識(shí)庫(kù)和AI模型結(jié)合起來實(shí)現(xiàn)的。
再舉個(gè)例子,Obsidian。
我之前說過,Obsidian里有500多萬字的內(nèi)容,這些是我一點(diǎn)點(diǎn)積累下來的碎片化想法。但是,內(nèi)容這么多,用Dataview插件都過濾不出來,要是靠人工去查找特定信息,那可太累了。
怎么辦?
后來,我在Obsidian里裝了一個(gè)Copilot插件,然后通過API接入了豆包大模型。有了這個(gè)Chatbot,豆包直接基于我的知識(shí)庫(kù)給我回答問題,它不僅能給我相關(guān)鏈接,還能生成我想要的內(nèi)容,方便多了。
所以,結(jié)論是:AI Agent并不是獨(dú)立存在的。
我是通過工具(比如Cherry Studio、Copilot)接入API,用它來索引本地知識(shí)庫(kù),這樣,智能體,就能更好地融入工作流、理解和回答我的問題。
但是,這樣還不夠。因?yàn)?,它只能做生成式回答,還不具備制定任務(wù)和執(zhí)行復(fù)雜操作的能力。
換句話說,它能根據(jù)我的問題調(diào)動(dòng)電腦上任何交流的內(nèi)容、資料,生成合適的回答,但沒辦法主動(dòng)去安排任務(wù)、乃至,協(xié)調(diào)多個(gè)步驟或者管理復(fù)雜的工作流程。
市面上,目前我看到把檢索、本地知識(shí)和技能打通的有三家:Notion、釘釘、Apple Intelligence。
Notion的特點(diǎn)是,你可以直接對(duì)著它的Notion AI進(jìn)行操作,比如做表格、提問、畫流程圖、頭腦風(fēng)暴想法,或者起草會(huì)議流程。它把那些繁瑣的操作都隱藏起來,實(shí)現(xiàn)了自動(dòng)化。它的搜索功能,本質(zhì)上已經(jīng)像一個(gè)智能體了。
釘釘?shù)膫€(gè)人AI助理,是聊天機(jī)器人的升級(jí)版。它不僅有了手腳(通過API接入各種技能),還能記住本地知識(shí)庫(kù)的內(nèi)容,并且能幫你制定任務(wù)。
蘋果的Apple Intelligence本質(zhì)上也是一個(gè)聊天機(jī)器人。你可能在小紅書或抖音上看到過很多人用Intelligence的場(chǎng)景,用戶只要對(duì)著iPhone問問題、提任務(wù)、做搜索或者做備忘,它都能搞定。
所以,它們?nèi)业那罢爸幵谟?,從根源、從系統(tǒng)的底層入手,都在理解,并嘗試解決一個(gè)人在面對(duì)工具和內(nèi)容混亂時(shí)的低效和協(xié)同性問題。
AIPC到來,相信肯定也是電腦上帶一個(gè)AI助理,用嘴喊一下,嗨,Siri,幫我打開微信,我要給……
但這種簡(jiǎn)單的語(yǔ)音指令只是表面功能,而背后是不是像我上述說的一樣:自動(dòng)整合相關(guān)工具、內(nèi)容,從而讓用戶從繁瑣的操作中解放出來呢?我想,肯定會(huì)的,應(yīng)該快了。
看完覺得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。