最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁(yè) >> 今日更新 >

阿里開(kāi)源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!

2024-08-09 09:00:45 來(lái)源: 用戶(hù): 

相信很多大家對(duì)阿里開(kāi)源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

阿里巴巴開(kāi)源了最新數(shù)學(xué)模型Qwen2-Math,一共有基礎(chǔ)和指令微調(diào)兩種版本,包括1.5B、7B和72B三種參數(shù)。

根據(jù)阿里在主流數(shù)學(xué)基準(zhǔn)測(cè)試顯示,Qwen2-Math-72B指令微調(diào)版本的性能超過(guò)了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名閉源模型,就連Meta最新開(kāi)源的超強(qiáng)模型Llama-3.1-405B也照樣拿下。

也就是說(shuō),Qwen2-Math-72B是目前全球最強(qiáng)的數(shù)學(xué)推理大模型。不知能否挑戰(zhàn)一下前不久谷歌剛獲得國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽銀牌,僅差1分獲得金牌的雙混合模型AlphaProof和AlphaGeometry2(這兩個(gè)模型還處于研究階段)。

開(kāi)源地址:https://huggingface.co/Qwen

Github:https://github.com/QwenLM/Qwen2-Math?tab=readme-ov-file

基礎(chǔ)模型

Qwen2-Math的基礎(chǔ)模型使用Qwen2-1.5B、7B和72B進(jìn)行初始化,然后在精心設(shè)計(jì)的高質(zhì)量數(shù)學(xué)專(zhuān)用語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,該語(yǔ)料庫(kù)包含大規(guī)模高質(zhì)量的數(shù)學(xué)網(wǎng)絡(luò)文本、書(shū)籍、代碼、考試題目以及由 Qwen-2模型合成的數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)。

阿里在在三個(gè)英語(yǔ)數(shù)學(xué)基準(zhǔn) GSM8K、Math 和MMLU-STEM 上評(píng)估了Qwen2-Math 基模型。同時(shí)評(píng)估了三個(gè)中國(guó)數(shù)學(xué)基準(zhǔn) CMATH,GaoKao Math Cloze 和 GaoKao Math QA,所有評(píng)估均使用 Few-shot CoT 方式。

結(jié)果顯示,Qwen2-Math基礎(chǔ)模型的性能大幅度超越了Llama-3.1-8B/7B/405B全系列。

指令微調(diào)模型

在開(kāi)發(fā)指令微調(diào)模型方面, Qwen2-Math-72B 訓(xùn)練的模型采用了密集的獎(jiǎng)勵(lì)信號(hào)與二元信號(hào)的結(jié)合,二元信號(hào)在此起到指示模型是否正確回答問(wèn)題的作用,類(lèi)似于分類(lèi)任務(wù)中的標(biāo)簽,有助于模型在訓(xùn)練過(guò)程中進(jìn)行自我校正。

結(jié)合信號(hào)后,模型通過(guò)拒絕采樣方法構(gòu)建了SFT數(shù)據(jù)集。拒絕采樣是一種蒙特卡羅方法,通過(guò)在更大范圍內(nèi)按照均勻分布隨機(jī)采樣,然后接受或拒絕采樣點(diǎn)來(lái)估計(jì)復(fù)雜問(wèn)題的概率分布。

這種方法在處理復(fù)雜概率分布時(shí)特別有用,因?yàn)樗灰蠓植嫉母怕史植己瘮?shù)可逆,從而解決了一些分布難以直接采樣的問(wèn)題 。

隨后使用GRPO強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,這是近端策略?xún)?yōu)化的一種變體,通過(guò)迭代過(guò)程進(jìn)行訓(xùn)練,其中獎(jiǎng)勵(lì)模型會(huì)根據(jù)策略模型的輸出不斷更新,以確保策略的持續(xù)改進(jìn) 。

阿里使用英語(yǔ)和中文的數(shù)學(xué)基準(zhǔn)評(píng)測(cè)對(duì)Qwen2-Math-72B指令微調(diào)模型進(jìn)行了綜合評(píng)估。還使用了更有難度的OlympiadBench、CollegeMath、高考(GaoKao)、AIME2024、 AMC2023以及中國(guó)2024年高考/中考數(shù)學(xué)題進(jìn)行了測(cè)試。

結(jié)果顯示,其數(shù)學(xué)推理性能大幅度超越了GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等知名開(kāi)閉源模型。阿里表示,Qwen2-Math已經(jīng)能解答一些數(shù)學(xué)競(jìng)賽難題,包括多道IMO競(jìng)賽題。

在預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集上阿里都進(jìn)行了去污染處理,特別是清洗了對(duì)GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math等知名基準(zhǔn)測(cè)試數(shù)據(jù)集有重疊的正例污染樣本,以保證測(cè)試效果的準(zhǔn)確性、公平性。

目前,Qwen2-Math模型僅支持英文,但阿里表示會(huì)很快推出中英雙語(yǔ)版本,幫助更多的用戶(hù)開(kāi)發(fā)生成式AI應(yīng)用。

以上就是關(guān)于【阿里開(kāi)源新模型:超GPT-4o,數(shù)學(xué)能力全球第一!】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

  免責(zé)聲明:本文由用戶(hù)上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!

 
分享:
最新文章
  • 【空調(diào)外機(jī)聲音大是什么問(wèn)題】空調(diào)在使用過(guò)程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會(huì)讓人感到困擾。空調(diào)外機(jī)...瀏覽全文>>
  • 【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過(guò)程中,外機(jī)發(fā)出較大的噪音是很多用戶(hù)遇到的常見(jiàn)問(wèn)題。這不僅影響居住...瀏覽全文>>
  • 【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
  • 【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來(lái)一定的安全隱患。了解空...瀏覽全文>>
  • 【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來(lái)越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
  • 【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過(guò)程中,有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對(duì)設(shè)備造...瀏覽全文>>
  • 【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對(duì)...瀏覽全文>>
  • 【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩(shī)意的成語(yǔ),常用來(lái)形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>
  • 【空格怎么打出來(lái)】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單,但很...瀏覽全文>>
  • 【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問(wèn)題。其實(shí),“空格”是一個(gè)非?;A(chǔ)的...瀏覽全文>>