AI翻譯界殺手誕生!阿里國(guó)際翻譯大模型吊打谷歌和GPT-4
相信很多大家對(duì)AI翻譯界殺手誕生!阿里國(guó)際翻譯大模型吊打谷歌和GPT-4還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】AI翻譯,全球大廠都卷瘋了!但「綠就是白」「光腿神」這類翻譯卻讓人啼笑皆非。就在剛剛,阿里國(guó)際發(fā)布首個(gè)商用翻譯大模型,電商出海神器真來了!
果式文案一出,少不了網(wǎng)友的熱議。
蘋果iOS18官方7月更新的系統(tǒng)宣傳語中,「真的很你」硬生生文案,被許多人吐槽太過抽象。
原本英文的廣告語是「Yours. Truly.」。
但到了中文這里,則有種「明明每個(gè)字都認(rèn)識(shí),可連在一起卻怎么也讀不懂了」的感覺。
如果從翻譯的角度來看,原因主要在于語言之間存在的文化鴻溝。
與專業(yè)術(shù)語不同的是,蘊(yùn)含豐富文化寓意的詞語,字面翻譯對(duì)于有文化背景的人來說,難以理解。
論文地址:https://arxiv.org/html/2305.14328v2
如今,隨著LLM的多語言能力越來越強(qiáng),也讓此前鮮有進(jìn)展的AI翻譯賽道,突然卷了起來。
早已布局的科技大廠,以及剛剛下場(chǎng)的各路LLM初創(chuàng),紛紛推出了自家的AI翻譯產(chǎn)品。
DeepL表示,自家LLM的譯文需要更少的編輯。要達(dá)到同樣的質(zhì)量,谷歌需要兩倍的編輯量,而GPT-4則需要三倍
不可否認(rèn),AI翻譯仍然是一個(gè)復(fù)雜領(lǐng)域。
基于深度學(xué)習(xí)的機(jī)器翻譯,雖然對(duì)于訓(xùn)練過的文本語料可以游刃有余,但對(duì)于和訓(xùn)練文本差異過大的文本,翻譯能力就會(huì)大幅下降。
除了訓(xùn)練數(shù)據(jù)的局限性之外,AI的上下文理解有限、也讓不同語種的語言結(jié)構(gòu)差異和文化語境差異等原因,也會(huì)導(dǎo)致AI經(jīng)常給出偏差很遠(yuǎn)的答案。
就沒有一款輕易上手、放心可用的高效AI翻譯工具嗎?
我們經(jīng)過一番實(shí)測(cè)發(fā)現(xiàn),在一眾模型產(chǎn)品中,阿里國(guó)際最新的大模型產(chǎn)品——Marco-MT,在廣義的翻譯領(lǐng)域表現(xiàn)就相當(dāng)亮眼,通過結(jié)合上下語義、場(chǎng)景、對(duì)象等,提供更加精準(zhǔn)的翻譯,結(jié)合阿里的數(shù)據(jù)優(yōu)勢(shì),在電商領(lǐng)域尤為出色。
國(guó)產(chǎn)大模型,解決「光腿神」難題
眾所周知,電商行業(yè)中術(shù)語繁多,不同領(lǐng)域有眾多盲點(diǎn),即使請(qǐng)專職的翻譯,也很難短時(shí)間內(nèi)給出最準(zhǔn)確的說法。
舉個(gè)例子,在國(guó)內(nèi)賣爆了的光腿神器,怎么解釋給歪果仁呢?
有人說,用現(xiàn)成的翻譯產(chǎn)品不就行了?
某產(chǎn)品給出的結(jié)果是——「Bare legs god」,好家伙,「光腿神」可還行。
類似的翻譯一個(gè)比一個(gè)抽象,要讓老外驚掉下巴。
而有了Marco,我們就不會(huì)再常常遇到這種抽象的場(chǎng)景了。
Marco翻譯大模型可支持三種方式的翻譯:基于語境的產(chǎn)品翻譯、圖像翻譯、實(shí)時(shí)聊天翻譯。
在處理電商專有詞、流行詞和口語詞等翻譯任務(wù)時(shí),這個(gè)模型不僅能更好地保留原意,還能立馬輸出簡(jiǎn)潔、準(zhǔn)確的表達(dá),而且非常符合「歪果仁」的語言習(xí)慣。
比如「光腿神器」的翻譯,以往的兩個(gè)翻譯產(chǎn)品分別是「A magical tool for bare legs」(一個(gè)神奇的光腿工具)和「Bare legs god」(光腿神)。
而用了Marco翻譯大模型,「The bare leg artifact」的譯法簡(jiǎn)潔精妙,老外看了都說好!
同樣,「綠色顯白」這類非??谡Z化的流行詞,Marco-MT給出的翻譯也是非常地道——Green is flattering for the complexion!
相比之下,翻譯1號(hào)在表述上并不是很符合當(dāng)?shù)厝说牧?xí)慣,尤其是「make your skin look whiter」這段。
內(nèi)容大意:綠色讓你的皮膚看起來更白!這是一條非常仙的裙子,時(shí)尚且永不過時(shí),相當(dāng)優(yōu)雅,而且顯瘦。它很適合我的風(fēng)格,穿上它我一定會(huì)吸引很多注意力
翻譯2號(hào)則更加拉跨,內(nèi)容和語法完全不對(duì)。
「綠就是白」,「時(shí)尚但不時(shí)尚」,充滿了矛盾的哲學(xué)……
內(nèi)容大意:綠色是白色哦!真的非常仙的裙子,時(shí)尚但不時(shí)尚,更有大氣的感覺,而且也很顯瘦,更適合我的風(fēng)格,穿出去回頭率很高哦
接下來,我們加大難度。
「真的是可鹽可甜,穿著顯瘦,拍照簡(jiǎn)直不要好看呀,太上鏡了!」,怎么說?
Marco率先作答:sweet and cute——甜美可愛。
翻譯1號(hào)和2號(hào)則異口同聲:salt/salty and sweet!(好的,有被齁到)
再來一題:
Marco依然發(fā)揮穩(wěn)定,正確地翻譯出了「泰美辣」的意思——「so beautiful」。
另外兩位選手的表現(xiàn),倒是也在意料之中——
1號(hào)并不能get到這是什么意思,直接輸出了拼音「Tai Meila」;2號(hào)拆開翻譯成了Tammy(人名)和Spice(香料)。
再比如「畫風(fēng)突變」,西班牙語版翻譯出來是這樣的——
不了解西語的朋友可能看不出端倪,「cambio repentino en el estilo de pintura」這句話,翻譯回來的意思是——「繪畫風(fēng)格的突然變化」。
可以說是驢唇不對(duì)馬嘴了。
針對(duì)這些訓(xùn)練預(yù)料相對(duì)較少的語種,Marco-MT給出的答案——「Cambio de estilo」,不僅意思更加貼合原文,表達(dá)也更加native。
英文種草「信達(dá)雅」
性能如此強(qiáng)大的翻譯模型,為什么出自阿里國(guó)際?
顯然,這與公司在該領(lǐng)域的多年積累密不可分:
數(shù)十億規(guī)模的高質(zhì)量電商預(yù)料數(shù)據(jù),讓團(tuán)隊(duì)在跨境電商領(lǐng)域一下子就建起了起極為顯著的數(shù)據(jù)優(yōu)勢(shì)
服務(wù)于全球市場(chǎng)的電商平臺(tái),讓團(tuán)隊(duì)對(duì)不同國(guó)家和地區(qū)的文化、語言以及商業(yè)法規(guī)有了深入的了解
因此一經(jīng)發(fā)布,Marco翻譯大模型就在BLEU、COMET,以及人工評(píng)測(cè)指標(biāo)上上,一舉超越市場(chǎng)上的頭部翻譯產(chǎn)品。
基于Flores公開榜單數(shù)據(jù)的評(píng)測(cè)結(jié)果
將其它語言譯為英語的測(cè)試中,它的所有結(jié)果均已超越行業(yè)標(biāo)桿企業(yè)的產(chǎn)品,比如谷歌、ChatGPT、DeepL。
而將英語譯成其他語言方面,也有一半語言的測(cè)試結(jié)果超過了谷歌、ChatGPT。
這么好用的大模型,用起來會(huì)不會(huì)很貴?恰恰相反!
Marco的性價(jià)比可謂拉滿,100萬個(gè)字符僅需12美元。
針對(duì)不同的翻譯,前兩者價(jià)格一致,圖像翻譯還更劃算些。
Marco翻譯大模型主要支持15種語言間的互譯。
除了常見的中英,還覆蓋了韓語、日語、西班牙語、法語等全球使用量最多的語種,以及烏爾都、孟加拉、尼泊爾、希伯來等小語種。
可以說,跨境電商常用語種,Marco基本實(shí)現(xiàn)了全覆蓋。
應(yīng)用場(chǎng)景能夠在多語種之間流暢轉(zhuǎn)換,Marco也就打通了跨境電商中的兩個(gè)核心場(chǎng)景。
內(nèi)容本地化
商家上傳的商品信息,包括標(biāo)題、詳情、屬性、商品圖片短語等,都能被精準(zhǔn)翻譯成目標(biāo)市場(chǎng)語言。
根據(jù)海量電子商務(wù)數(shù)據(jù)訓(xùn)練后的AI,在產(chǎn)品標(biāo)題生成上是手到擒來
另外,模型在搜索關(guān)鍵詞和對(duì)話翻譯上也表現(xiàn)不俗,還支持高并發(fā)調(diào)用,并且能理解電商相關(guān)知識(shí),滿足各種風(fēng)格偏好。
不管買家用的什么語言,都可以靠AI絲滑地把對(duì)話翻譯過去
個(gè)人文檔翻譯
對(duì)于個(gè)人文檔翻譯,Marco也能根據(jù)上下文提供高質(zhì)量翻譯。
譯文不僅有良好的可讀性,還支持不同風(fēng)格,滿足個(gè)人用戶的多樣化需求。
總之,Marco作為AI原子能力,可以輕松接入到電商商品管理、客服及搜索導(dǎo)購等系統(tǒng)中。
商家和買家都能獲得自動(dòng)翻譯服務(wù),溝通效率倍增,全面提升消費(fèi)者觸達(dá)效果。
可以說,Marco的出現(xiàn),能讓阿里國(guó)際的速賣通、Lazada、Trendyol等電商平臺(tái),以及外部電商類客戶,比如為多平臺(tái)運(yùn)營(yíng)商家提供服務(wù)的獨(dú)立SaaS商(ISV),和對(duì)翻譯效果有更高要求的跨境商家,都能提供更絲滑的服務(wù)。
背后技術(shù)在訓(xùn)練Marco的過程中,阿里國(guó)際團(tuán)隊(duì)用了多項(xiàng)創(chuàng)新性技術(shù)。
基于通義千問系列大模型,他們進(jìn)行了多語言增強(qiáng)訓(xùn)練,搭建出多語言大模型基座——Marco翻譯大模型。
預(yù)訓(xùn)練過程中,Marco采用了多語言數(shù)據(jù)篩選技術(shù)。
比如,特別增強(qiáng)語種識(shí)別、多維度數(shù)據(jù)質(zhì)量評(píng)估,由此,就獲得了高質(zhì)量、大規(guī)模多語言數(shù)據(jù)。
與此同時(shí),通過利用多語言MoE、參數(shù)擴(kuò)展方法,從而保證主導(dǎo)語言(如中英)性能不下降的情況下,提升了其他語種的性能。
微調(diào)階段,基于多語言大模型基座,再利用SFT對(duì)模型翻譯能力全面激活。
對(duì)此,研究人員提出了一種自動(dòng)構(gòu)建高質(zhì)量偏好數(shù)據(jù)的方法,通過強(qiáng)化學(xué)習(xí)緩解LLM的幻覺問題,還提升了電商場(chǎng)景特有詞翻譯效果。
Marco翻譯大模型還有兩處獨(dú)特的創(chuàng)新。
大模型驅(qū)動(dòng)
首先,模型能夠主動(dòng)進(jìn)行語義理解與內(nèi)容重構(gòu),而不是簡(jiǎn)單的文字轉(zhuǎn)換,從而避免了各種哭笑不得的歧義。
比如,「你的寶貝正在路上」,不會(huì)再被翻譯成「Your baby is on the way」;
而且「豬豬女孩」,也不再會(huì)被直白地翻譯為「Pig girl」。
這些富含特色文化且難以直譯的詞匯,Marco翻譯大模型都能恰如其分地表達(dá)出來。
再以「我太太太太喜歡這個(gè)商品了」為例,一些AI翻譯產(chǎn)品會(huì)將這句話翻譯為「My wife likes this product」。
而在Marco大模型中,這句話非常地道地翻譯為「I love this product sooooo much」。
情景化翻譯
其次,AI翻譯中融入了情境化翻譯能力,這就使它能夠依據(jù)特定的環(huán)境及目標(biāo)受眾進(jìn)行智能調(diào)整。
最終呈現(xiàn)的效果上,不僅翻譯準(zhǔn)確無誤,還貼近本土語言的自然流暢。
跨境電商ALL in AI,下一步再降成本
說來,阿里國(guó)際為什么要做翻譯大模型呢?
與那些致力于模型研發(fā)、實(shí)現(xiàn)AGI公司不同,阿里國(guó)際從一開始就想明白了,要走AI應(yīng)用落地之路。
AI成為跨境電商關(guān)鍵變量2023年,人工智能作為技術(shù)全新變量,掀起了整個(gè)跨境電商行業(yè)的巨大風(fēng)暴。
全球最大電商平臺(tái)亞馬遜,推出了AI服務(wù)平臺(tái)Amazon Bedrock,讓客戶通過在線領(lǐng)先模型構(gòu)建GenAI應(yīng)用程序。
還有蝦皮(Shopee)、Shopify等一些知名電商平臺(tái),爭(zhēng)相布局。
作為全球最大的跨境電商平臺(tái)之一,阿里國(guó)際也在全力All in AI。
去年4月,他們?cè)趦?nèi)部專門成立了AI Business百人團(tuán)隊(duì),并對(duì)40+關(guān)鍵場(chǎng)景進(jìn)行AI測(cè)試。
中小商家們?cè)诔龊B飞辖?jīng)歷的「九九八十一難」——語言文化壁壘、專業(yè)人才短缺、獲客成本高等等,被逐一破解。
比如,AI圖像編輯功能可以一鍵實(shí)現(xiàn)裁剪、背景生成、移除等功能,點(diǎn)擊率超7%;
虛擬模特能夠隨意上身試穿,膚色性別任選,堪比專業(yè)影棚拍攝效果。
經(jīng)過一年多的嘗試,成果已經(jīng)初顯。
近半年的數(shù)據(jù)顯示,平均每?jī)蓚€(gè)月,商家對(duì)于AI的調(diào)用量就翻1倍,AI的調(diào)用量已經(jīng)突破日均1億次。
更具象地說,一個(gè)在速賣通起家的Zeuslap顯示器創(chuàng)業(yè)9年,借助AI從名不經(jīng)傳的小作坊,迅速成長(zhǎng)為平臺(tái)行業(yè)TOP1的品牌。
以往,他們會(huì)招聘專業(yè)美工師,從摳圖、找素材、PS,一周只能做4-5套。
自從去年11月用上AI工具之后,70%以上的設(shè)計(jì)圖幾乎被AI承包。比如,商品banner圖、產(chǎn)品場(chǎng)景圖、YouTube封面圖等等。
截至目前,全球超1億件商品被AI優(yōu)化,50萬跨境商家用AI賺到了錢。
阿里國(guó)際之所以成績(jī)斐然,與團(tuán)隊(duì)過去所攻克的研究難題密不可分。
在多語言方面,為了提升大模型多語言能力,并將其更高效地用實(shí)際任務(wù)中,多語言增強(qiáng)大模型MarcoPolo由此誕生。
并且,實(shí)現(xiàn)了更低成本更優(yōu)效果。
在多模態(tài)方面,多模態(tài)大模型MarcoPolo-VL能夠用「眼睛」精準(zhǔn)識(shí)別,進(jìn)行推薦。
還有團(tuán)隊(duì)最新發(fā)布的多模態(tài)大模型Ovi,直接拿下開源第一。
在ICCV2023頂會(huì)上,一向低調(diào)的阿里國(guó)際AI團(tuán)隊(duì),憑借「視覺-語言算法推理」workshop拔得頭籌。
簡(jiǎn)單講,這與當(dāng)下火熱的GPT-4V多模態(tài)生成是同題競(jìng)賽。
Marco翻譯大模型,大規(guī)模商用這次,Marco翻譯大模型亮相,進(jìn)一步為語言文化壁壘提供了絕佳的解決方案。
這款A(yù)I翻譯大模型核心聚焦在兩大領(lǐng)域——電子商務(wù)、日常交流。
它將集成到阿里國(guó)際旗下眾多跨境電商業(yè)務(wù)平臺(tái),如速賣通、Lazada、Trendyol。
此外,Marco翻譯大模型還將面向全球個(gè)人用戶,真正實(shí)現(xiàn)從專業(yè)商務(wù)到日常生活全覆蓋。
試用傳送門:https://aidc-ai.com/page/translation.htm#tryout
由此可見,阿里國(guó)際的AI翻譯大模型有著巨大的商業(yè)化前景。
首先,它與阿里生態(tài)系統(tǒng)深度融合。
阿里國(guó)際擁有著天然的3億用戶出海業(yè)務(wù),而且電商足跡遍布全球100+國(guó)家/地區(qū),連接著數(shù)百萬商家及數(shù)億消費(fèi)者。
這一龐大的生態(tài)網(wǎng)絡(luò)預(yù)示著,僅在阿里國(guó)際內(nèi)部,就擁有服務(wù)廣泛用戶群體和多樣化應(yīng)用場(chǎng)景的廣闊舞臺(tái)。
其次,AI翻譯服務(wù)并不局限于阿里生態(tài)之內(nèi)。
團(tuán)隊(duì)成員們積極向外擴(kuò)展,讓Marco翻譯大模型觸及更廣泛用戶群體、商業(yè)實(shí)體。
因?yàn)?,外部的生態(tài)才是一個(gè)潛力無窮、規(guī)模驚人的市場(chǎng)空間,尤其是全球新興市場(chǎng)的需求。
阿里國(guó)際AI國(guó)際在最受歡迎TOP20使用國(guó)中,約半數(shù)未發(fā)展中國(guó)家。
那么,全新的AI翻譯大模型也將賦能這些國(guó)家的中小企業(yè)(SMEs),幫助它們跨越語言障礙,高效開展全球業(yè)務(wù)。
未來,阿里國(guó)際還將持續(xù)投入,擴(kuò)展語向的數(shù)量,提升更多不同場(chǎng)景下的翻譯質(zhì)量。
最重要的是,進(jìn)一步降低用戶的使用成本。
在阿里國(guó)際看來,AI+跨境電商只是邁出了第一步,AI之于電商最大的改造,應(yīng)是做到「降本增效」的極致。
向前一步,可以看到AI會(huì)顛覆電商用戶交互、購物形態(tài)。
向后一步,AI將會(huì)重塑整個(gè)電商供應(yīng)鏈,甚至上從根本去改變搜、推、廣的商業(yè)模式。
AI將為跨境電商的未來帶來種種可能,讓我們拭目以待。
參考資料:
https://aidc-ai.com/
以上就是關(guān)于【AI翻譯界殺手誕生!阿里國(guó)際翻譯大模型吊打谷歌和GPT-4】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過年年過
- 一天100座!理想汽車第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工:別到山窮水盡才講問題
-
【空調(diào)外機(jī)聲音大是什么問題】空調(diào)在使用過程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會(huì)讓人感到困擾??照{(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過程中,外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見問題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過程中,有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對(duì)設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對(duì)...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩意的成語,常用來形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問題。其實(shí),“空格”是一個(gè)非常基礎(chǔ)的...瀏覽全文>>