GPT-4o mini突然上線!該換小模型賽道的OpenAI意欲何為?
相信很多大家對GPT-4o mini突然上線!該換小模型賽道的OpenAI意欲何為?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
ChatGPT 正式進入了“4”時代。
7月18日,OpenAI 官宣推出了GPT-3.5Turbo的替代品——GPT-4o mini,至此,ChatGPT的更新迭代又近了一步,來到了4字開頭的時期。據(jù)了解,即日起,ChatGPT的免費用戶,Plus用戶以及Team用戶都能夠使用GPT-4o mini,企業(yè)版客戶也會在隨后獲得使用GPT-4o mini的權限。
OpenAI殺入小模型賽道!GPT-4o mini究竟有哪些過人之處?
在各大AI企業(yè)爭相推出產(chǎn)品的當下,OpenAI的更新速度并不算太快。很多人都希望蟄伏許久的OpenAI能夠一出手,就干件大事兒,諸如推出一個在各個方面都能碾壓上一代產(chǎn)品的GPT-5.0。也正因此,很多人對于GPT-4o mini的出現(xiàn)感到些許失望。
但需要說明的是,GPT-4.o mini不僅不是一無是處,反而是一個極具代表性的產(chǎn)品。OpenAI把GPT-4o mini描述為“一個具有卓越文本智能和多模態(tài)推理能力的小模型”,這就對其進行了精準定位:小模型賽道上的領先產(chǎn)品。
據(jù)OpenAI介紹,GPT-4o mini目前在LMSYS排行榜上的聊天偏好方面優(yōu)于GPT-4,在文本智能和多模態(tài)推理方面的學術基準測試中超越了GPT-3.5Turbo和其他小型模型,并且支持的語言范圍與GPT-4o相同。而GPT-4o mini在函數(shù)調用方面也表現(xiàn)出色,可以使開發(fā)人員構建獲取數(shù)據(jù)或使用外部系統(tǒng)采取行動的應用程序。
此外,與GPT-3.5Turbo相比,GPT-4o mini的長上下文性能有所提高,已經(jīng)在幾個關鍵基準上進行了評估,即推理任務,數(shù)學和編碼能力以及多模態(tài)推力。
在推理任務方面,GPT-4o mini在涉及文本和視覺的推理任務上優(yōu)于其他小型模型,在文本智能和推理基準MMLU上的得分為82.0%,而Gemini Flash為77.9%,Claude Haiku為73.8%;在數(shù)學和編碼能力方面,GPT-4o mini的表現(xiàn)優(yōu)于市場上之前的小型模型,在測量數(shù)學推理的MGSM上,GPT-4o mini得分為87.0%,而Gemini Flash得分為75.5%,Claude Haiku得分為71.7%;在測量編碼性能的HumanEval上,GPT-4o mini得分為87.2%,而Gemini Flash得分為71.5%,Claude Haiku得分為75.9%;在多模態(tài)推理方面,GPT-4o mini在多模態(tài)推理評估MMMU中也表現(xiàn)出色,得分為59.4%,而Gemini Flash為56.1%,Claude Haiku為50.2%。
更重要的是,GPT-4o mini還有一項極具競爭力的優(yōu)勢:價格足夠實惠。
OpenAI表示,開發(fā)人員使用GPT-4o mini時,每100萬個輸入tokens需支付15美分,每100萬個輸出tokens需支付60美分。這個定價比之前的Frontier型號便宜了足足一個數(shù)量級。即便與自家的上一代產(chǎn)品GPT-3.5Turbo也要便宜60%以上。
GPT-4o用起來究竟如何?一手測評結果:懂得不算多,但速度絕對快。
當然,理論上的優(yōu)勢說的再多,也不及大家的實際體驗來得重要和直觀。
目前,GPT-4o mini 在 WildBench 測試上排名第9,優(yōu)于谷歌的Gemini-flash以及 Anthropic的Claude3Haiku。看得出來,大家對于這款新晉產(chǎn)品還是很感興趣的。
有網(wǎng)友在GPT-4o mini開放測試的第一時間就趕過去問它了一個問題:9.11和9.9哪個大?
很遺憾,GPT-4o mini沒有給出正確的答案,不僅沒有給出正確的答案,還在錯誤的路上越走越遠,一本正經(jīng)地回答9.11大于9.9,因為0.1大于0.9。
隨后,網(wǎng)友在 Poe(Quora 開發(fā)的應用程序,已經(jīng)集成了 GPT-4o mini)中輸入人物傳記電影《Eno》的設計封面,讓GPT-4o和GPT-4omini模型進行解讀,結果 mini翻車了。GPT-4o mini 直接表示“自己認不出照片上的人”,反而是GPT-4o的回答就比較準確。
不過,說起響應速度,那么GPT-4o mini確實對得起OpenAI給予的“faster”標簽。與它進行對話,幾乎無需任何等待,輸出速度堪稱快的離譜。
盡管就目前來看,GPT-4o mini回答問題的準確性還有待提高,但不可否認,它目前已經(jīng)是性能最為優(yōu)越的小模型了,完全可以超越GPT-3.5Turbo和其他小模型。據(jù)了解,GPT-4o mini的知識更新到去年10月,語言種類和GPT-4o對齊,上下文窗口為128k。
當下的GPT-4.o mini在API中僅支持文本和視覺模態(tài),而在不久的未來,它還將擴展到視頻和音頻的輸入及輸出。盡管還沒有任何參數(shù)規(guī)模被披露,但OpenAI的官方直接表示,這是他們目前最經(jīng)濟,最有成本效益的小模型了,微調功能也將很快上線。
小模型的出現(xiàn),才能真正完成OpenAI的使命?
雖然GPT-4o mini是一個小模型,但相較于大模型,它在性能上并沒有做出太大妥協(xié)。
得益于優(yōu)化的架構設計和高效的算法,GPT-4o mini 能夠在保留大模型強大性能的基礎上,提供更加輕量級的解決方案。這使得它在處理文本生成,對話和翻譯等任務時,依然能夠表現(xiàn)出色。
但是問題來了,先前一直在做大模型的OpenAI為什么選擇轉頭深耕小模型賽道?
OpenAI API方面的負責人Godement表示,這涉及到一個“優(yōu)先考慮”的問題。此前,OpenAI專注于GPT-4這樣的大模型,而隨著時間的推移,OpenAI終于注意到了開發(fā)者們渴望對小模型的愿景,才終于決定投入資源。據(jù)了解,OpenA對于GPT-4o mini是非常有信心的,認為其一定會非常受歡迎。
事實的確如此。對于渴望低成本構建應用的開發(fā)者來說,GPT-4o mini來得太及時了。譬如金融初創(chuàng)公司Ramp在測試中,就用它構建了提取收據(jù)上費用的工具,不必費力瀏覽文本框,模型就會自動對所有內容排序,大大提高了工作效率。
在OpenAI設想的未來里,模型將會被無縫集成到每一個應用程序和每一個網(wǎng)站之上。如今,隨著GPT-4o mini的推出為開發(fā)者更高效、更經(jīng)濟地構建和擴展強大的AI應用鋪平道路??梢钥吹?,AI正在變得更容易訪問,可靠,并會融入到所有人的日常體驗中。而OpenAI,則會繼續(xù)引領這一進程。
曾幾何時,OpenAI也是一心要走大模型之路的,可惜這條路它們走得并不順利。盡管相較于上一波AI公司,OpenAI創(chuàng)造了更大的現(xiàn)金流,但從戰(zhàn)略上說,它并沒有把自己倒騰到一個合適的位置上。
在這種情況下,一味死磕大模型,很有可能給公司造成毀滅性的打擊,會導致高昂的人才,訓練成本根本找不到落點。更可怕的是,一旦技術增長停滯后,它的客戶端注定會把它踢掉或者在多個供應商之間壓價。這就會導致大模型公司變成賺錢費勁,花錢很痛快的公司,這是沒法長久維持的。所以做大模型。不管創(chuàng)造了多少收入,本質上還在險境里面。
如今,OpenAI顯然找到了更適合自己的打開方式。但有一點毋庸置疑,大模型要卷,小模型也要卷,不卷是不可能的。
圖片來源于網(wǎng)絡
文字資料參考:
公眾號“新智元”文章《奧特曼深夜發(fā)動價格戰(zhàn),GPT-4o mini暴跌99%!清華同濟校友立功,GPT-3.5退役》
https://www.zhihu.com/question/662021096/answer/3567789827
https://baijiahao.baidu.com/s?id=1804991663805668979
以上就是關于【GPT-4o mini突然上線!該換小模型賽道的OpenAI意欲何為?】的相關內容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內飾以及寬敞的空間,吸引了眾多消費者的關注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設計風格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學校被評為薩里郡表現(xiàn)最好的小學
- 約克區(qū)九所小學將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學家確定腦細胞類型是排尿的主要控制者