文:王智遠(yuǎn) | ID:Z201440
Open AI為期12天的直播,結(jié)束了。
科技圈博主和KOL們終于可以松一口氣,對于Sam團(tuán)隊(duì)而言,這場馬拉松式的直播無疑是一次巨大挑戰(zhàn),估計(jì)他們累得夠嗆。
你看了嗎?有沒有漏掉的?
我可是一天沒錯(cuò)過,一開始像追劇一樣熬夜觀看,后來發(fā)現(xiàn)干貨并不多,索性就改為白天追視頻和媒體發(fā)布的新聞。
不過,我有隨時(shí)記筆記的習(xí)慣,所有有價(jià)值的信息都會第一時(shí)間記錄在Obsidian筆記軟件里。
前四天內(nèi)容,我已經(jīng)分享過,沒看的朋友可以點(diǎn)擊「一口氣看完OpenAI前四天內(nèi)容」;今天結(jié)束之際,也把后八天的經(jīng)常亮點(diǎn)也總結(jié)了出來,確保大家不會錯(cuò)過任何重要信息。
就從Day5開始吧。
Sam說:嗨,歡來到我們「12 Days of OpenAI」系列的第五天。今天,我想介紹讓 ChatGPT 更加簡單易用的一些新功能。
蘋果的朋友們正努力將 ChatGPT 集成到 iPhone、iPad 的 iOS 系統(tǒng)以及 macOS 系統(tǒng)中;我們的目標(biāo)是讓 ChatGPT 在各種平臺上都能輕松順暢地使用。
我們都很喜歡 Apple 的設(shè)備,因此對這次集成非常自豪,所以,你可以在不登錄的情況下使用ChatGPT了,但如果你有賬戶,體驗(yàn)會更好。
接下來,正式開始了。工程團(tuán)隊(duì)的 Dave和它的伙伴,利用半個(gè)小時(shí)時(shí)間,演示完一切功能。
簡單講,主要有五個(gè)核心內(nèi)容:一,蘋果公司將ChatGPT集成到了iPhone、iPad的iOS系統(tǒng)以及macOS系統(tǒng)中,使得用戶可以在這些設(shè)備上更簡單易用地使用ChatGPT。
二,當(dāng)Siri認(rèn)為ChatGPT能更好地解決問題時(shí),可以直接將請求交給ChatGPT。三,Apple Intelligence的寫作工具現(xiàn)在可以借助ChatGPT從零開始為用戶起草文檔。
四,在iPhone 16上,用戶可以通過攝像頭控制功能調(diào)動視覺智能,使用ChatGPT來了解鏡頭里看到的東西。
五,Siri可以直接針對預(yù)覽狀態(tài)的文檔調(diào)用ChatGPT的能力進(jìn)行問答,用戶可以選擇是否僅共享當(dāng)前屏幕截圖或共享文檔全部內(nèi)容。
這就是第五天的內(nèi)容,用一句話總結(jié)即:蘋果公司宣布將ChatGPT集成到iOS和macOS系統(tǒng)中,用戶可通過Siri直接訪問ChatGPT,甚至無需賬戶即可使用。
第六天,說了什么呢?
首先,發(fā)布了兩個(gè)新功能:高級視頻對話和屏幕共享。用戶現(xiàn)在可以和ChatGPT實(shí)時(shí)共享屏幕了。
其次,ChatGPT里新增了一個(gè)圣誕老人語音模式。只要用戶開啟語音模式,然后說「hohoho」,就能啟動這個(gè)模式。
在案例展示環(huán)節(jié),團(tuán)隊(duì)給ChatGPT展示了水壺和滴漏器的實(shí)時(shí)視頻,在ChatGPT的指導(dǎo)下,他們一步步完成了咖啡制作;ChatGPT給出了幾個(gè)步驟提示,比如:
在滴漏器中放濾紙、把咖啡粉加到濾器里、慢慢倒熱水,要轉(zhuǎn)圈倒等等。
團(tuán)隊(duì)還宣布,這些新功能將支持最新的移動應(yīng)用、桌面應(yīng)用、Web平臺,還有Teams集成。他們計(jì)劃在明年年初,把這些功能開放給企業(yè)用戶和教育用戶。
所以,第六天重點(diǎn)是ChatGPT推出的高級視頻對話和屏幕共享功能,還有新增的圣誕老人語音模式,這些更新主要展示了ChatGPT的多模態(tài)交互能力。
不知道第七天的內(nèi)容算不算大招:推出了Projects。
什么是Projects?
簡單來說,一個(gè)能把ChatGPT的所有功能整合到一起的工具,或者你也可以只用Projects,不用ChatGPT的其他功能。
這場發(fā)布會是由OpenAI的首席產(chǎn)品官Kevin Weil和他的兩個(gè)同事Drew Schuster和Thomas Dimson一起主持的。Kevin Weil在直播里說,現(xiàn)在可以把熟悉的ChatGPT功能都整合到項(xiàng)目里,或者,只單獨(dú)使用項(xiàng)目功能。
Thomas Dimson補(bǔ)充說,Projects像一個(gè)智能文件夾,這個(gè)功能是基于ChatGPT最近推出的對話搜索功能開發(fā),可以查看和搜索以前的聊天內(nèi)容,都是文本形式的。
用Projects的方法挺簡單,大概分三步:
一.在ChatGPT界面上點(diǎn)「創(chuàng)建項(xiàng)目」按鈕;二.把聊天記錄加到項(xiàng)目里;三.試試搜索功能。還有個(gè)Canvas自由畫布工具可以用,不過這些步驟不是一定要全做,每一步都有很多可以發(fā)揮的地方。
Projects能用來干啥?
Kevin Weil和他的團(tuán)隊(duì)在直播里展示了幾個(gè)案例。
他們用Projects創(chuàng)建了一個(gè)Secret Santa項(xiàng)目,Schuster上傳了群組的聊天記錄和大家的需求,然后讓ChatGPT隨機(jī)分配任務(wù),還讓ChatGPT幫忙寫了封郵件給群組。
還有個(gè)例子,Schuster上傳了一些關(guān)于家用電器的筆記,然后問ChatGPT:冰箱的濾水器什么時(shí)候需要更換?如果你平時(shí)有記錄家里的重要信息,這個(gè)功能就特別有用。
總的來說,Projects有三大功能:
一,幫我管理項(xiàng)目,把聊天記錄、文件這些都放在一起,方便整理;二,有搜索功能,即使項(xiàng)目里堆了很多東西,也能快速找到需要的內(nèi)容。
三,融合Canvas自由畫布工具,這個(gè)功能能讓我更直觀地看到項(xiàng)目里的內(nèi)容,整理起來更清晰。這個(gè)功能是免費(fèi)的,我覺得有點(diǎn)像在模仿Claude。
這就是第七天的內(nèi)容,一句話總結(jié)即推出Projects。
第八天,OpenAI給我們帶來了幾個(gè)新消息;首先,他們宣布ChatGPT Search現(xiàn)在對所有登錄的免費(fèi)用戶開放了,不管是用網(wǎng)頁版,還是iOS、Android手機(jī)都能用。
產(chǎn)品負(fù)責(zé)人Kevin Wheel說,這個(gè)搜索功能特別重要;用它能幫ChatGPT找到最新的信息,回答網(wǎng)上的問題。他自己也每天都在用,很高興現(xiàn)在大家都能用上。
第二,ChatGPT Search還能和高級語音模式一起用。這樣,用語音和ChatGPT聊天的時(shí)候,也能順便搜索信息,讓語音交流更厲害、更方便。
還有,ChatGPT Search現(xiàn)在和Apple Maps合作了。
如果你在iOS的ChatGPT應(yīng)用里找到一家餐廳,可以直接點(diǎn)一下,用Apple Maps導(dǎo)航過去。這說明ChatGPT Search和Apple Maps合作得很緊密。
另外,在手機(jī)應(yīng)用里,你可以用語音模式和ChatGPT聊天。它會把你的語音問題和網(wǎng)上的信息結(jié)合起來,給你答案。比如,你問圣誕市場的事,它就會告訴你什么時(shí)候開門,哪天營業(yè)。
最后,ChatGPT Search還能加到瀏覽器里,你可以把它設(shè)成默認(rèn)的搜索引擎,這樣上網(wǎng)搜東西就更快,還能得到智能的搜索建議。
總之,第八天的內(nèi)容重點(diǎn)是ChatGPT Search功能的擴(kuò)展和增強(qiáng)。包括了全球用戶都能用、和Apple Maps的合作、手機(jī)應(yīng)用里的語音模式,還有瀏覽器的集成,這些更新讓ChatGPT的搜索能力變得更強(qiáng)了。
第九天的活動被稱為「對開發(fā)者最有用的一天」。
這一天,他們推出了o1模型的正式版API;這個(gè)新版本的o1模型速度更快,成本更低,還增加了視覺識別和函數(shù)調(diào)用等新功能。這讓開發(fā)者在構(gòu)建應(yīng)用時(shí)更加輕松。
現(xiàn)場演示中,Michelle Pogras和Brian John展示了o1模型的新特性。他們介紹了函數(shù)調(diào)用、結(jié)構(gòu)化輸出、開發(fā)者消息、推理參數(shù)和視覺輸入等功能。
他們特別演示了如何使用o1模型的視覺輸入功能解析稅務(wù)表單,展示了模型如何識別表單中的錯(cuò)誤,并輸出修正后的結(jié)果。
接下來,實(shí)時(shí)API也進(jìn)行了全面升級。OpenAI引入了WebRTC支持,這大大簡化了實(shí)時(shí)語音應(yīng)用的開發(fā)流程。同時(shí),相關(guān)服務(wù)的價(jià)格也大幅降低,其中GPT-4o的音頻處理費(fèi)用降低了60%。
Olivier Godement介紹了WebRTC集成的新功能,展示了怎么自動處理音頻流、管理網(wǎng)絡(luò)擁堵、實(shí)時(shí)噪聲抑制和音頻編碼,還支持了原生瀏覽器API。
最后,他們推出了「偏好微調(diào)」功能;這個(gè)技術(shù)讓開發(fā)者可以根據(jù)用戶的偏好,定制AI模型的回答風(fēng)格和內(nèi)容。比如,金融科技公司用了這個(gè)功能后,AI助手的準(zhǔn)確率提高了5個(gè)百分點(diǎn)以上。
Michelle Pogras提到,這項(xiàng)技術(shù)有成對比較學(xué)習(xí)機(jī)制、人類標(biāo)注和A/B測試支持,還能生成合成數(shù)據(jù)。他們展示了這項(xiàng)技術(shù)在金融分析助手中的應(yīng)用案例,說明了怎么通過優(yōu)化提升查詢的準(zhǔn)確率。
所以,這一天的重點(diǎn)有三個(gè):o1模型API的正式推出、實(shí)時(shí)API的升級和價(jià)格調(diào)整、以及偏好微調(diào)功能的推出。
第十天有什么呢?
OpenAI在第10天的活動里,搞了兩個(gè)新動作:
一,他們開了ChatGPT的熱線電話服務(wù)。就像給朋友打電話一樣,你可以直接撥1-800-CHAT-GPT(也就是1-800-242-8478)和ChatGPT聊天;這個(gè)服務(wù)每個(gè)月送你15分鐘免費(fèi)通話,對那些想快點(diǎn)問個(gè)問題或者試試新功能的人來說,挺方便的。
二,他們讓ChatGPT能集成到WhatsApp里。這樣,你就能在WhatsApp上直接和ChatGPT聊天,不用換應(yīng)用,也不用開電腦,聊天變得更簡單。
不過,這個(gè)功能有兩個(gè)限制:
目前只對美國用戶開放,因?yàn)樘柎a是美國的;第二,每個(gè)月免費(fèi)通話時(shí)間只有15分鐘,如果你聊得更多,可能得想別的辦法。
還有,聊天的時(shí)候不支持上網(wǎng)搜信息,只能根據(jù)它學(xué)過的東西回答。所以,如果你已經(jīng)有ChatGPT Plus,可能還是用ChatGPT App里的高級語音模式更合適。今天這個(gè)功能,主要是給你多一個(gè)選擇。
我覺得,第十天的活動,沒那么激動人心。說白了,就是你可以打電話給ChatGPT了。其實(shí),國內(nèi)的豆包、文小言、Kimi,早就能做到。
第十一天的內(nèi)容,關(guān)于「桌面應(yīng)用程序」。
產(chǎn)品負(fù)責(zé)人Kevin Wheel和團(tuán)隊(duì)成員John Nastos、Justin Rushing介紹了一些新的桌面應(yīng)用程序功能。這些功能是為了幫助大家在Mac和Windows電腦上工作得更快、更好。
那么,桌面應(yīng)用程序都有哪些好處呢?
讓ChatGPT變得更能干,不只是回答問題,還能自動幫你完成任務(wù);這個(gè)應(yīng)用程序能看你的屏幕,幫你自動化工作流程,讓你工作更高效。
Justin展示了怎么用ChatGPT和Warp終端一起玩。
比如:數(shù)數(shù)Git倉庫里提交了多少次代碼,還能生成圖表。John則演示了在Xcode里怎么用ChatGPT幫忙編程,實(shí)時(shí)寫出代碼,還能調(diào)試。
ChatGPT現(xiàn)在還能和Apple Notes、Notion、Quip這些應(yīng)用互動,你可以直接在這些應(yīng)用里寫東西、編輯;新加的高級語音模式讓你能通過說話和ChatGPT交流,立刻得到回應(yīng),讓用起來更爽。
所有新功能在直播結(jié)束后就推出了,你只需要更新到最新版的ChatGPT Mac應(yīng)用程序就能用;通過新功能,OpenAI希望大家能更好地掌握和自動化自己的工作流程,提高工作效率。
簡單來說,三點(diǎn):
一是「增強(qiáng)的自動化能力」,桌面應(yīng)用程序能看你的屏幕,自動化你的工作流程,提高工作效率。
二是「跨應(yīng)用協(xié)作」,ChatGPT可以和Warp終端、Xcode、Apple Notes、Notion、Quip等多種應(yīng)用互動,不管你是編程、記筆記還是項(xiàng)目管理,都能實(shí)時(shí)幫忙。
三是「語音交互功能」,新加的高級語音模式讓你能通過說話和ChatGPT交流,實(shí)現(xiàn)更自然、更便捷的交互體驗(yàn),進(jìn)一步提高你的工作和操作效率。
今天是最后一天,也是直播的第十二天,OpenAI重點(diǎn)介紹了o3和o3 mini的預(yù)告。為啥跳過了o2?為了避免版權(quán)問題,OpenAI直接用了o3這個(gè)名字。
如果要我用一句話形容o3,我會說--它強(qiáng)大得讓人震驚,可能會給程序員帶來沖擊。
為什么這么說呢?
我們先來看看OpenAI的研究員怎么說。o1是第一個(gè)大型推理模型,它只是用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的大型語言模型(LLM)。o3則是在o1的基礎(chǔ)上,進(jìn)一步擴(kuò)展了RL的應(yīng)用,結(jié)果非常令人印象深刻。
簡單來說,o1只是證明了LLM加上RL是可行的,但我們并沒有全力以赴;o3則是全力以赴,通過擴(kuò)大規(guī)模,真正釋放了LLM加RL的潛力。
這也驗(yàn)證了一點(diǎn)--對于編程、數(shù)學(xué)這類能夠明確定義任務(wù)獎勵(lì)和容易獲取過程數(shù)據(jù)的任務(wù),通過強(qiáng)化學(xué)習(xí),它們的潛力可以不斷被挖掘,直到達(dá)到世界頂級水平。
那么,o3有哪些核心能力呢?官方展示了一些數(shù)據(jù)。
首先,o3模型在Codeforces編程比賽中獲得了2727分,這個(gè)分?jǐn)?shù)讓它達(dá)到了國際特級大師的水平,大約在全球競爭性人類編碼者中排名前200。這個(gè)分?jǐn)?shù)比o1模型的1891分高出了44%。
注釋:(Codeforces是一個(gè)在線編程比賽平臺,讓全球的程序員在限定時(shí)間內(nèi)解決算法問題,以此測試和提升自己的編程技能)。
其次,在2024年美國數(shù)學(xué)邀請賽(AIME)中,o3模型的得分為96.7%,只錯(cuò)了一道題。這個(gè)得分大幅超過了o1模型的83.3%,相當(dāng)于一名頂級數(shù)學(xué)家的水平。從競賽數(shù)學(xué)的角度來看,o3的準(zhǔn)確率比o1正式版高15%,比o1預(yù)覽版高近71%。
這些結(jié)果展示了o3模型在編程和數(shù)學(xué)領(lǐng)域的卓越性能,標(biāo)志著AI在這些領(lǐng)域的進(jìn)步。
簡單來說,o3的三個(gè)亮點(diǎn):
一是推理能力的大幅提升;二是在數(shù)學(xué)和邏輯測試中的卓越表現(xiàn);三是編程能力的突破。
所以,o3在實(shí)踐上證明了,對于編程這類能夠明確定義任務(wù)獎勵(lì),和容易獲取過程數(shù)據(jù)的任務(wù),通過對強(qiáng)化學(xué)習(xí)的擴(kuò)展,它的潛力可以不斷被挖掘,直到成為世界上最頂級的程序員之一。
最讓人興奮的消息是,o3 mini預(yù)計(jì)明年一月底就會發(fā)布!只需要再等一個(gè)月!o3 mini上線后,很快就會開放API調(diào)用,并附帶o1的所有API功能。
好了,以上就是Open AI這8天的全部內(nèi)容。你認(rèn)為哪天的發(fā)布能載入AGI史側(cè)呢?
看完覺得寫得好的,不防打賞一元,以支持藍(lán)海情報(bào)網(wǎng)揭秘更多好的項(xiàng)目。