當(dāng)前位置:首頁 > 外匯資訊 > 正文內(nèi)容

OpenAI全新發(fā)布o(jì)1模型 - 我們正式邁入了下一個(gè)時(shí)代

激石外匯2024-09-13 11:58:12外匯資訊183

激石Pepperstone(http://hppnl.com/)報(bào)道:

大半夜的,OpenAI抽象了整整快半年的新模型。

在沒有任何預(yù)告下,正式登場(chǎng)。

正式版名稱不叫草莓,草莓只是內(nèi)部的一個(gè)代號(hào)。他們的正式名字,叫:

為什么取名叫o1,OpenAI是這么說的:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻譯過來是:

對(duì)于復(fù)雜推理任務(wù)來說,這是一個(gè)重要的進(jìn)展,代表了人工智能能力的新水平。鑒于此,我們將計(jì)數(shù)器重置為 1,并將這一系列命名為 OpenAI o1。

這次模型的強(qiáng)悍,甚至讓OpenAI不惜推掉了過去GPT系列的命名,重新起了一個(gè)o系列。

炸了,真的炸了。

我現(xiàn)在,頭皮發(fā)麻,真的,這次OpenAI o1發(fā)布,也標(biāo)志著,AI行業(yè),正式進(jìn)入了一個(gè)全新的紀(jì)元。

“我們通往AGI的路上,已經(jīng)沒有任何阻礙?!?/strong>

在邏輯和推理能力上,我直接先放圖,你們就知道,這玩意有多離譜。

AIME 2024,一個(gè)高水平的數(shù)學(xué)競(jìng)賽,GPT4o準(zhǔn)確率為13.4%,而這次的o1 預(yù)覽版,是56.7%,還未發(fā)布的o1正式版,是83.3%。

代碼競(jìng)賽,GPT4o準(zhǔn)確率為11.0%,o1 預(yù)覽版為62%,o1正式版,是89%。

而最牛逼的博士級(jí)科學(xué)問題 (GPQA Diamond),GPT4o是56.1,人類專家水平是69.7,o1達(dá)到了恐怖的78%。

我讓Claude翻譯了一下o1的圖,丑是丑了點(diǎn),但是能看的懂每項(xiàng)數(shù)據(jù)意思就行。

什么叫全面碾壓,這就是。

特別是在測(cè)試測(cè)試化學(xué)、物理和生物學(xué)專業(yè)知識(shí)的基準(zhǔn)GPQA-diamond上,o1 的表現(xiàn)全面超過了人類博士專家,這也是有史以來,第一個(gè)獲得此成就的模型。

而整個(gè)模型之所以達(dá)到如此成就,基石就是Self-play RL,不知道這個(gè)的可以去看我前兩天的預(yù)測(cè)文章:新模型草莓到底是個(gè)啥?

通過Self-play RL,o1學(xué)會(huì)了磨練其思維鏈并完善所使用的策略。它學(xué)會(huì)了識(shí)別和糾正自己的錯(cuò)誤。

它也學(xué)會(huì)了將復(fù)雜的步驟分解為更簡(jiǎn)單的步驟。

而且當(dāng)當(dāng)前的方法不起作用時(shí),它也學(xué)會(huì)了嘗試不同的方法。

他學(xué)會(huì)的這些,就是我們?nèi)祟?,最核心的思考方式?strong>慢思考。

諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼有一本著作,名叫:《思考,快與慢》。

非常詳細(xì)的闡述了人類的兩種思考方式。

第一種是快思考(系統(tǒng)1),特點(diǎn)是快速、自動(dòng)、直覺性、無意識(shí),舉幾個(gè)例子:

  • 看到一個(gè)笑臉就知道對(duì)方心情很好。

  • 1+1=2 這樣簡(jiǎn)單的計(jì)算。

  • 開車時(shí)遇到危險(xiǎn)情況立即踩剎車。

這些就是快思考,也就是傳統(tǒng)的大模型,死記硬背后學(xué)得的快速反應(yīng)的能力。

第二種是慢思考(系統(tǒng)2),特點(diǎn)是緩慢、需要努力、邏輯性、有意識(shí),舉幾個(gè)例子:

  • 解決一道復(fù)雜的數(shù)學(xué)題

  • 填寫稅務(wù)申報(bào)表

  • 權(quán)衡利弊后做出重要決定

這就是慢思考,我們?nèi)祟愔詮?qiáng)大的核心,也是AI要通往下一步AGI路上的基石。

而現(xiàn)在,o1終于踏出了堅(jiān)實(shí)的一步,擁有了人類慢思考的特質(zhì),在回答前,會(huì)反復(fù)的思考、拆解、理解、推理,然后給出最終答案。

說實(shí)話,這些增強(qiáng)的推理能力在處理科學(xué)、編碼、數(shù)學(xué)及類似領(lǐng)域的復(fù)雜問題時(shí)絕對(duì)極度有用。

例如o1可以被醫(yī)療研究人員用來注釋細(xì)胞測(cè)序數(shù)據(jù),被物理學(xué)家用來生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,以及被各個(gè)領(lǐng)域的開發(fā)人員用來構(gòu)建和執(zhí)行多步驟工作流,等等等等。

o1也絕對(duì)是全新一代的數(shù)據(jù)飛輪,如果答案正確,整個(gè)邏輯鏈就會(huì)變成一個(gè)包含正負(fù)獎(jiǎng)勵(lì)的訓(xùn)練示例的小型數(shù)據(jù)集。

以O(shè)penAI的用戶級(jí)別,未來的進(jìn)化速度,只會(huì)更恐怖。

寫到這,我忽然嘆了口氣,我覺得我跟一年以后的o1比起來,可能就是個(gè)純廢物了,真的。。。

目前,o1模型已經(jīng)逐步向所有ChatGPT Plus和 Team用戶開放,未來會(huì)考慮對(duì)免費(fèi)用戶開放。

分為兩個(gè)模型,o1預(yù)覽版和o1 mini,o1-mini就是更快更小更便宜,推理啥的都不錯(cuò),極度適合數(shù)學(xué)和代碼,就是世界知識(shí)會(huì)差很多,適用于需要推理但不需要廣泛世界知識(shí)的場(chǎng)景。

o1預(yù)覽版每周30條,o1-mini每周50條。

雪崩,甚至不是按以前的3小時(shí)來限制的,是每周30條,也能從側(cè)面看出來,o1這個(gè)模型,有多貴了。

對(duì)于開發(fā)者來說,只對(duì)已經(jīng)付過1000美刀的等級(jí)5開發(fā)者開放,每分鐘限制20次。

都挺少的。

而且在功能上閹割挺大,但是畢竟早期,理解。

API的價(jià)格上,o1預(yù)覽版每百萬輸入15美元,每百萬輸出60美元,這個(gè)推理成本...

o1-mini會(huì)便宜一些,每百萬輸入3美元,每百萬輸出12美元。

輸出成本都是推理成本的4倍,對(duì)比一下GPT4o,分別是5美元和15美元。

o1-mini還是勉強(qiáng)有一些經(jīng)濟(jì)效應(yīng)的,不過還是開始,后面等著OpenAI打骨折。

既然說o1已經(jīng)對(duì)Plus用戶開放,我就直接去我的號(hào)上看了眼,還不錯(cuò),拿到了。

那自然,第一時(shí)間試一試。

目前不支持曾經(jīng)的所有功能,也就是沒有圖片理解、圖片生成、代碼解釋器、網(wǎng)頁搜索等等,只有一個(gè)可以對(duì)話的裸模型。

我先是一個(gè)曾經(jīng)很致命的問題:

“農(nóng)夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨(dú)相處,羊和白菜也不能單獨(dú)相處,問農(nóng)夫該如何過河?!?/strong>

思考了6秒時(shí)間,給了我一個(gè)很完美的回答。

還有之前一個(gè)坑遍所有大模型的調(diào)休問題:

“這是中國(guó)2024年9月9日(星期一)開始到10月13日的放假調(diào)休安排:上6休3上3休2上5休1上2休7再上5休1。

請(qǐng)你告訴我除了我本來該休的周末,我因?yàn)榉偶俣嘈菹⒘藥滋???/strong>

在o1思考了整整30秒以后,給出了一天不差的極度精準(zhǔn)的答案。

無敵,真的無敵。

再來一個(gè)更難的,就是曾經(jīng)姜萍那個(gè)比賽的奧數(shù)題:

別問我題目什么意思,我看不懂,我是廢物,這題曾經(jīng)擊敗所有的大模型,這次,我們讓o1也來試一下看看。

在o1思考了整整1分多鐘之后,他給出了答案。

...

全...對(duì)...

我裂開了。

目前我自己試下來,感覺Prompt,未來可能也要重新摸索,在GPT為代表的快思考大模型時(shí)代,我們有很多所謂的一步一步思考之類的玩意,現(xiàn)在全都無效了,對(duì)o1甚至還有負(fù)效果。

OpenAI給出的最佳寫法是:

  • 保持提示簡(jiǎn)單直接:模型擅長(zhǎng)理解和響應(yīng)簡(jiǎn)短、清晰的指令,而不需要大量的指導(dǎo)。

  • 避免思路鏈提示:由于這些模型在內(nèi)部進(jìn)行推理,因此不需要提示它們“逐步思考”或“解釋你的推理”。

  • 使用分隔符來提高清晰度:使用三重引號(hào)、XML 標(biāo)簽或章節(jié)標(biāo)題等分隔符來清楚地指示輸入的不同部分,幫助模型適當(dāng)?shù)亟忉尣煌牟糠帧?/p>

  • 限制檢索增強(qiáng)生成 (RAG) 中的附加上下文:提供附加上下文或文檔時(shí),僅包含最相關(guān)的信息,以防止模型過度復(fù)雜化其響應(yīng)。

最后,我想說一下這個(gè)思考的時(shí)長(zhǎng)。

現(xiàn)在o1是思考了一分鐘,但是,如果是真正的AGI,說實(shí)話,思考的越慢可能會(huì)越刺激。

當(dāng)他真的,可以去做證明數(shù)學(xué)定理,去做癌癥藥物研發(fā),去做天體研究呢?

每一次的思考,可以達(dá)到幾小時(shí)、幾天、甚至幾周呢?

最后的結(jié)果,可能會(huì)讓所有人震驚的難以置信。

現(xiàn)在,沒有人能想象到,那時(shí)候的AI,會(huì)是一個(gè)什么樣的存在。

而o1的未來,在我看到,也絕對(duì)不止是一個(gè)普普通通的ChatGPT。

而是我們前往下個(gè)時(shí)代,最偉大的基石。

“我們通往AGI的路上,已經(jīng)沒有任何阻礙。”

現(xiàn)在,我毫不猶豫的堅(jiān)信著這句話。

星光熠熠的下一個(gè)時(shí)代。

在今天。

正式到來了。?????????

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。

本文鏈接:http://hppnl.com/news/3603.html

標(biāo)簽: OpenAI

“OpenAI全新發(fā)布o(jì)1模型 - 我們正式邁入了下一個(gè)時(shí)代” 的相關(guān)文章

電池漲、油價(jià)漲!美國(guó)電動(dòng)車全線漲價(jià)

激石Pepperstone(http://hppnl.com/)報(bào)道:在過去幾個(gè)月里,特斯拉、福特、通用汽車、Rivian和Lucid紛紛提高了其電動(dòng)車的價(jià)格。 6月16日,特斯拉大幅提高了其所有產(chǎn)品線的電動(dòng)汽車的價(jià)格,其中一些車型的價(jià)格漲幅高達(dá)6000美元。特斯拉最暢銷的Model Y...

日元短線走高,報(bào)道稱安倍胸部中槍被送往醫(yī)院

激石Pepperstone(http://hppnl.com/)報(bào)道:日元兌美元短線走高30多點(diǎn)。據(jù)NHK報(bào)道,日本前首相安倍晉三在奈良講話時(shí)倒地,有槍聲傳出。安倍胸部中槍,被緊急送往醫(yī)院。風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)...

罕見!德國(guó)、日本、越南都出現(xiàn)了貿(mào)易赤字,這意味著什么?

激石Pepperstone(http://hppnl.com/)報(bào)道:今年5月份,全球各大主要經(jīng)濟(jì)體幾乎全都在貿(mào)易逆差。 德國(guó),傳統(tǒng)制造業(yè)強(qiáng)國(guó),產(chǎn)品暢銷全球,歐洲經(jīng)濟(jì)火車頭,自1991年以來一直保持著貿(mào)易順差。 但7月4日德國(guó)聯(lián)邦統(tǒng)計(jì)局公布的數(shù)據(jù)打破了這一記錄,2022年5月,德國(guó)出口額...

加息受益者:美國(guó)銀行業(yè)要賺翻了!

激石Pepperstone(http://hppnl.com/)報(bào)道:隨著美聯(lián)儲(chǔ)加息,美國(guó)銀行業(yè)的貸款收益大增,盡管它們正在為潛在衰退做準(zhǔn)備。 分析人士預(yù)計(jì),在本周公布的第二季度財(cái)報(bào)中,摩根大通、美國(guó)銀行和花旗集團(tuán)的凈利息收入將出現(xiàn)增長(zhǎng)。凈利息收入指的是銀行從貸款和其他資產(chǎn)中獲得的利息減...

貝萊德警告:高波動(dòng)時(shí)代來臨,不要抄底股票和債券

激石Pepperstone(http://hppnl.com/)報(bào)道:通脹“高燒”與衰退陰霾接踵而至,令全球股票和債券市場(chǎng)在今年舉步維艱,并刷新三年以來最差表現(xiàn)。 對(duì)此全球資管巨頭貝萊德的策略師已經(jīng)表示,目前看不到快速?gòu)?fù)蘇的跡象。 勞動(dòng)力短缺造成的供應(yīng)瓶頸仍將繼續(xù)推動(dòng)物價(jià)上行,因此央行將...

“認(rèn)養(yǎng)一頭牛”到底是不是智商稅?

激石Pepperstone(http://hppnl.com/)報(bào)道:隨著認(rèn)養(yǎng)一頭牛向上交所主板上市發(fā)起沖擊,這個(gè)網(wǎng)紅乳業(yè)品牌的紅與黑,完整呈現(xiàn)出來。 這是專門為新中產(chǎn)打造的乳業(yè)新消費(fèi)品牌,不斷向用戶重申“奶牛養(yǎng)得好,牛奶才會(huì)好”的品牌主張,宣傳它們的奶牛每天伙食費(fèi)80塊,每天聽音樂,...