最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁(yè) >> 今日更新 >

新SOTA來(lái)了:國(guó)產(chǎn)9B模型多項(xiàng)得分超4o-mini,中國(guó)出海電商已經(jīng)用上了

2024-09-19 14:30:29 來(lái)源: 用戶: 

相信很多大家對(duì)新SOTA來(lái)了:國(guó)產(chǎn)9B模型多項(xiàng)得分超4o-mini,中國(guó)出海電商已經(jīng)用上了還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

阿里開(kāi)源,又拿第一了。

這次是在多模態(tài)領(lǐng)域:

就在剛剛,阿里國(guó)際AI團(tuán)隊(duì)開(kāi)源多模態(tài)大模型Ovis1.6。在多模態(tài)權(quán)威綜合評(píng)測(cè)基準(zhǔn)OpenCompass上,Ovis1.6-Gemma2-9B版本綜合得分超越Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流開(kāi)源模型,在300億以下參數(shù)開(kāi)源模型中位居第一。

在數(shù)學(xué)推理和視覺(jué)理解等多項(xiàng)任務(wù)中,得分甚至超過(guò)了閉源的GPT-4o-mini。

具體來(lái)說(shuō),Ovis1.6能勝任視覺(jué)感知推理、數(shù)學(xué)和科學(xué)、生活場(chǎng)景等多種多模態(tài)任務(wù)。

拿大家伙兒都很關(guān)注的數(shù)理能力舉個(gè)例子,Ovis1.6的表現(xiàn)是醬嬸的:

媽媽再也不用擔(dān)心我學(xué)不明白大學(xué)數(shù)學(xué)。

用來(lái)輔助讀讀論文:

分析財(cái)報(bào),效果也相當(dāng)不錯(cuò)。

還能當(dāng)場(chǎng)看圖教你做一道經(jīng)典的炸魚(yú)薯?xiàng)l(手動(dòng)狗頭)。

值得一提的是,阿里國(guó)際的Ovis系列多模態(tài)大模型,遵循的是Apache2.0開(kāi)源協(xié)議。也就是說(shuō),協(xié)議很寬松,商用很友好。

從結(jié)構(gòu)上對(duì)齊視覺(jué)和文本嵌入

話不多說(shuō),我們照例來(lái)拆解一下Ovis這個(gè)新科第一背后的技術(shù)細(xì)節(jié)。

根據(jù)OpenCompass評(píng)測(cè)基準(zhǔn),Ovis1.6-Gemma2-9B超過(guò)了Qwen2-VL-7B、MiniCPM-V-2.6等一眾相同參數(shù)量級(jí)的知名多模態(tài)模型。

在數(shù)學(xué)等推理任務(wù)中,甚至有媲美70B參數(shù)模型的表現(xiàn)。

Ovis1.6的幻覺(jué)現(xiàn)象和錯(cuò)誤率也低于同級(jí)別模型,展現(xiàn)了更高的文本質(zhì)量和準(zhǔn)確率。

如何做到?阿里國(guó)際AI團(tuán)隊(duì)的核心思路是:從結(jié)構(gòu)上對(duì)齊視覺(jué)和文本嵌入。

當(dāng)前,多數(shù)開(kāi)源多模態(tài)大語(yǔ)言模型(MLLM)并非從頭訓(xùn)練整個(gè)模型,而是通過(guò)像多層感知機(jī)(MLP)這樣的連接器,將預(yù)訓(xùn)練的大語(yǔ)言模型(LLM)和視覺(jué)Transformer集成起來(lái),給LLM裝上“眼睛”。

這樣一來(lái),就導(dǎo)致了一個(gè)問(wèn)題:MLLM的文本和視覺(jué)模塊采用不同的嵌入策略,使得視覺(jué)和文本信息沒(méi)辦法無(wú)縫融合,限制了模型性能的進(jìn)一步提升。

針對(duì)這個(gè)問(wèn)題,Ovis采用了視覺(jué)tokenizer+視覺(jué)嵌入表+大語(yǔ)言模型的架構(gòu)。

Ovis借鑒了大語(yǔ)言模型中的文本嵌入策略,引入了可學(xué)習(xí)的視覺(jué)嵌入表,將連續(xù)的視覺(jué)特征先轉(zhuǎn)換為概率化的視覺(jué)token,再經(jīng)由視覺(jué)嵌入表多次索引加權(quán)得到結(jié)構(gòu)化的視覺(jué)嵌入。

文本方面,Ovis沿用當(dāng)前大語(yǔ)言模型的處理方式,文本tokenizer將輸入文本轉(zhuǎn)化為one-hot token,并根據(jù)文本嵌入表查找到每個(gè)文本token對(duì)應(yīng)的嵌入向量。

最后,Ovis將所有視覺(jué)嵌入向量與文本嵌入向量拼接起來(lái),經(jīng)由Transformer處理,完成多模態(tài)任務(wù)。

此次開(kāi)源的Ovis1.6,相較于前代Ovis1.5,還在架構(gòu)、數(shù)據(jù)、訓(xùn)練策略等方面做出了進(jìn)一步優(yōu)化。

架構(gòu)方面,采用動(dòng)態(tài)子圖方案,能靈活應(yīng)對(duì)不同分辨率圖像特征,提升了模型處理復(fù)雜視覺(jué)任務(wù)的能力。

數(shù)據(jù)方面,Ovis1.6在訓(xùn)練中涵蓋了多種類型的數(shù)據(jù)集,包括Caption、OCR、Table、Chart、Math等,確保模型在廣泛的應(yīng)用場(chǎng)景中都有出色表現(xiàn)。

訓(xùn)練策略方面,采用DPO等方案持續(xù)優(yōu)化模型性能,增強(qiáng)了模型在生成文本和理解復(fù)雜指令方面的能力,使得模型在復(fù)雜任務(wù)上的表現(xiàn)進(jìn)一步提升。

消融實(shí)驗(yàn)的結(jié)果還顯示,在訓(xùn)練數(shù)據(jù)、模型參數(shù)、LLM和視覺(jué)底座都保持相同的情況下,與基于MLP連接器的多模態(tài)大模型架構(gòu)相比,Ovis性能整體提升了8.8%。

量子位還了解到,作為一項(xiàng)基礎(chǔ)研究,Ovis目前已經(jīng)被廣泛應(yīng)用到了阿里國(guó)際的實(shí)際業(yè)務(wù)中。

AI能力變革出海電商

正如大家所知,阿里國(guó)際是一家AI驅(qū)動(dòng)的、擁有多個(gè)全球知名電商的公司。

而事實(shí)上,出海電商這個(gè)場(chǎng)景,早已第一批被AIGC“滲透”。

原因很直接:做出海生意,往往面臨海外市場(chǎng)復(fù)雜、成本和競(jìng)爭(zhēng)壓力大、跨境人才短缺等等共性問(wèn)題,而多模態(tài)大模型這樣的AIGC技術(shù),恰恰能在這些問(wèn)題上,提供適配的降本增效方案。

舉個(gè)例子,在跨境電商領(lǐng)域,退貨退款一直是影響用戶體驗(yàn)的重要因素。

傳統(tǒng)方案是人工進(jìn)行退款退貨的審核和判責(zé)。這不僅需要大量審核人力和較久的審核時(shí)間,還會(huì)因?yàn)槿斯ぶ饔^的評(píng)判標(biāo)準(zhǔn)不一,導(dǎo)致判罰的不穩(wěn)定性較高。多數(shù)平臺(tái)為了保證用戶體驗(yàn),傾向于給消費(fèi)者更多的傾斜,但這也傷害了部分商家和平臺(tái)的權(quán)益。

現(xiàn)在,基于Ovis,阿里國(guó)際融合過(guò)去積累的大量電商知識(shí),上線了智能退款系統(tǒng)。

相比于人工,Ovis針對(duì)用戶提供的退貨退款圖文和視頻詳情,可以提供秒級(jí)的審核服務(wù),且具有高度穩(wěn)定的一致性。這就在保證消費(fèi)者和商家公平權(quán)益的同時(shí),實(shí)現(xiàn)了快速低成本的退貨退款方案。

另外,在商品屬性提取、生成賣(mài)點(diǎn)等場(chǎng)景中,Ovis也已落地應(yīng)用。

阿里國(guó)際AI團(tuán)隊(duì),正是在如此預(yù)判下成立試跑的。而就在成立這一年多時(shí)間里,阿里國(guó)際已經(jīng)實(shí)現(xiàn)AI能力在跨境電商領(lǐng)域的規(guī)?;瘧?yīng)用:

AI發(fā)布商品達(dá)到百萬(wàn)規(guī)模,并且通過(guò)AI優(yōu)化,這些產(chǎn)品在海外的搜索量提升了37%。

AI能力覆蓋營(yíng)銷、客戶服務(wù)、商品發(fā)布、設(shè)計(jì)、合規(guī)等40+應(yīng)用場(chǎng)景,服務(wù)全球50萬(wàn)商家。

阿里國(guó)際AI能力日均超5千萬(wàn)次調(diào)用,規(guī)模每?jī)稍路?/p>

……

Ovis之外,阿里國(guó)際還構(gòu)建了多語(yǔ)言增強(qiáng)大模型Marco,電商版多模態(tài)大模型MarcoVL,提供的MaaS服務(wù)包括:

多語(yǔ)言文本生成技術(shù):為商品詳情描述適配當(dāng)?shù)卣Z(yǔ)言,讓AI為商品介紹改寫(xiě)優(yōu)化多語(yǔ)言標(biāo)題,突破語(yǔ)言和文化壁壘。

AI圖片處理,比如一鍵生成多張?zhí)摂M試衣效果。

以及智能消除、智能摳圖等圖像設(shè)計(jì)類能力。

可以說(shuō),從創(chuàng)立店鋪到市場(chǎng)營(yíng)銷,再到售前售后,在出海電商的各個(gè)環(huán)節(jié),阿里國(guó)際都已提供相應(yīng)的AI技術(shù)予以輔助——

潛移默化中,AI已經(jīng)完全改變商家的工作方式和生產(chǎn)效率。

△店鋪設(shè)計(jì)來(lái)自AI

大模型之所以能在各行各業(yè)掀起驚濤駭浪,核心原因就是對(duì)生產(chǎn)力的解放和降本增效。

在這一波變革之中,對(duì)于阿里國(guó)際這樣的平臺(tái)而言,AI技術(shù)能力再次成為最受關(guān)注的核心競(jìng)爭(zhēng)力。

而借助平臺(tái)之力,出海電商商家已經(jīng)開(kāi)始第一批享受擁抱AI的紅利。

對(duì)于廣大開(kāi)發(fā)者而言,來(lái)自于實(shí)干家們的開(kāi)源貢獻(xiàn),亦是福音。

Ovis1.6開(kāi)源地址和Demo:

arXiv:https://arxiv.org/abs/2405.20797

Github:https://github.com/AIDC-AI/Ovis

Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

以上就是關(guān)于【新SOTA來(lái)了:國(guó)產(chǎn)9B模型多項(xiàng)得分超4o-mini,中國(guó)出海電商已經(jīng)用上了】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

  免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!

 
分享:
最新文章