Nature曝驚人內(nèi)幕:論文被天價(jià)賣(mài)出喂AI!出版商狂賺上億,作者0收入
相信很多大家對(duì)Nature曝驚人內(nèi)幕:論文被天價(jià)賣(mài)出喂AI!出版商狂賺上億,作者0收入還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
Nature的一篇文章透露:你發(fā)過(guò)的paper,很可能已經(jīng)被拿去訓(xùn)練模型了!有的出版商靠賣(mài)數(shù)據(jù),已經(jīng)狂賺2300萬(wàn)美元。然而辛辛苦苦碼論文的作者們,卻拿不到一分錢(qián),這合理嗎?
全球數(shù)據(jù)告急,怎么辦?
論文來(lái)湊!
最近,Nature的一篇文章向我們揭露了這樣一個(gè)事實(shí):連科研論文,都被薅去訓(xùn)AI了……
據(jù)悉,很多學(xué)術(shù)出版商,已經(jīng)向科技公司授權(quán)訪問(wèn)自家的論文,用來(lái)訓(xùn)練AI模型。
一篇論文從醞釀idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情況下,就成為訓(xùn)AI的數(shù)據(jù)。
這合理嗎?
更可氣的是,自己的論文還被出版商拿來(lái)牟利了。
根據(jù)Nature報(bào)告,上個(gè)月英國(guó)的學(xué)術(shù)出版商Taylor & Francis已經(jīng)和微軟簽署了一項(xiàng)價(jià)值1000萬(wàn)美元的協(xié)議,允許微軟獲取它的數(shù)據(jù),來(lái)改進(jìn)AI系統(tǒng)。
而6月的一次投資者更新顯示,美國(guó)出版商Wiley允許某家公司使用其內(nèi)容訓(xùn)模型后,直接一舉豪賺2300萬(wàn)美元!
但這個(gè)錢(qián),跟廣大論文的作者是半毛錢(qián)關(guān)系都沒(méi)有的。
而且,華盛頓大學(xué)AI研究員Lucy Lu Wang還表示,即使不在可開(kāi)放獲取的存儲(chǔ)庫(kù)內(nèi),任何可在線閱讀的內(nèi)容,都很可能已經(jīng)被輸入LLM中。
更可怕的是,如果一篇論文已經(jīng)被用作模型的訓(xùn)練數(shù)據(jù),在模型訓(xùn)練完成后,它是無(wú)法刪除的。
如果現(xiàn)在,你的論文還尚未被用于訓(xùn)練AI,那也不用擔(dān)心——它應(yīng)該很快就會(huì)了!
數(shù)據(jù)集如黃金,各大公司紛紛出價(jià)
我們都知道,LLM需要在海量數(shù)據(jù)上進(jìn)行訓(xùn)練的,而這些數(shù)據(jù)通常是從互聯(lián)網(wǎng)上抓取的。
正是從這些訓(xùn)練數(shù)據(jù)中數(shù)十億的token中,LLM推導(dǎo)出模式,從而生成文本、圖像、代碼。
而學(xué)術(shù)論文篇幅又長(zhǎng),信息密度又高,顯然就是能喂給LLM的最有價(jià)值的數(shù)據(jù)之一。
而且,在大量科學(xué)信息上訓(xùn)練LLM,也能讓它們?cè)诳茖W(xué)主題上的推理能力大大提高。
Wang已經(jīng)共同創(chuàng)建了基于8110萬(wàn)篇學(xué)術(shù)論文的數(shù)據(jù)集S2ORC。起初,S2ORC數(shù)據(jù)集是為了文本挖掘而開(kāi)發(fā)的,但后來(lái),它被用于訓(xùn)練LLM。
2020年非營(yíng)利組織Eleuther AI構(gòu)建的Pile,是NLP研究中應(yīng)用最廣泛的大型開(kāi)源數(shù)據(jù)集之一,總量達(dá)到800GB。其中就包含了大量學(xué)術(shù)來(lái)源的文本,arXiv論文比例為8.96%,此外還涵蓋了PubMed、FreeLaw、NIH等其他學(xué)術(shù)網(wǎng)站。
前段時(shí)間開(kāi)源的1T token數(shù)據(jù)集MINT也挖掘到了arXiv這個(gè)寶藏,共提取到了87萬(wàn)篇文檔、9B token。
從下面這張數(shù)據(jù)處理流程圖中,我們就能發(fā)現(xiàn)論文數(shù)據(jù)的質(zhì)量有多高——幾乎不需要太多的過(guò)濾和去重,使用率極高。
而現(xiàn)在,為了應(yīng)對(duì)版權(quán)爭(zhēng)議,各大模型公司也開(kāi)始真金白銀地出價(jià),購(gòu)買(mǎi)高質(zhì)量數(shù)據(jù)集了。
今年,「金融時(shí)報(bào)」已經(jīng)把自己的內(nèi)容以相當(dāng)可觀的價(jià)格,賣(mài)給了OpenAI;Reddit也和谷歌達(dá)成了類(lèi)似的協(xié)議。
而以后,這樣的交易也少不了。
證明論文曾被LLM使用,難度極高
有些AI開(kāi)發(fā)者會(huì)開(kāi)放自己的數(shù)據(jù)集,但很多開(kāi)發(fā)AI模型的公司,會(huì)對(duì)大部分訓(xùn)練數(shù)據(jù)保密。
Mozilla基金會(huì)的AI訓(xùn)練數(shù)據(jù)分析員Stefan Baack表示,對(duì)于這些公司的訓(xùn)練數(shù)據(jù),誰(shuí)都不知道有什么。
而最受業(yè)內(nèi)人士歡迎的數(shù)據(jù)來(lái)源,無(wú)疑就是開(kāi)源存儲(chǔ)庫(kù)arXiv和學(xué)術(shù)數(shù)據(jù)庫(kù)PubMed的摘要了。
目前,arXiv已經(jīng)托管了超過(guò)250萬(wàn)篇論文的全文,PubMed包含的引用數(shù)量更是驚人,超過(guò)3700萬(wàn)。
雖然PubMed等網(wǎng)站的一些論文全文有付費(fèi)墻,但論文摘要是免費(fèi)瀏覽的,這部分可能早就被大科技公司抓取干凈了。
所以,有沒(méi)有技術(shù)方法,能識(shí)別自己的論文是否被使用了呢?
目前來(lái)說(shuō),還很難。
倫敦帝國(guó)理工學(xué)院的計(jì)算機(jī)科學(xué)家Yves-Alexandre de Montjoye介紹道:要證明LLM使用了某篇確定的論文,是很困難的。
有一個(gè)辦法,是使用論文文本中非常罕見(jiàn)的句子來(lái)提示模型,看看它的輸出是否就是原文中的下一個(gè)詞。
有學(xué)者曾以「哈利·波特與魔法石」第三章的開(kāi)頭提示GPT-3,模型很快正確地吐出了大約一整頁(yè)書(shū)中的內(nèi)容
如果是的話,那就沒(méi)跑了——論文就在模型的訓(xùn)練集中。
如果不是呢?這也未必是有效證據(jù),能證明論文未被使用。
因?yàn)殚_(kāi)發(fā)者可以對(duì)LLM進(jìn)行編碼,讓它們過(guò)濾響應(yīng),從而不和訓(xùn)練數(shù)據(jù)過(guò)于匹配。
可能的情況是,我們費(fèi)了老大勁,依然無(wú)法明確地證明。
另一種方法,就是「成員推理攻擊」。
這種方法的原理,就是當(dāng)模型看到以前見(jiàn)過(guò)的東西時(shí),會(huì)對(duì)輸出更有信心,
論文地址:https://arxiv.org/abs/2112.03570
為此,De Montjoye的團(tuán)隊(duì)專(zhuān)門(mén)開(kāi)發(fā)了一種「版權(quán)陷阱」。
論文地址:https://arxiv.org/abs/2402.09363
為了設(shè)置陷阱,團(tuán)隊(duì)會(huì)生成看似合理卻無(wú)意義的句子,并將其隱藏在作品中,比如白色背景上的白色文本或網(wǎng)頁(yè)上顯示為零寬度的字段。
如果模型對(duì)未使用的控制句的困惑度,比對(duì)隱藏在文本中的控制句的困惑度更高,這就可以作為陷阱曾被看到的統(tǒng)計(jì)證據(jù)。
版權(quán)爭(zhēng)議
然而,即使能證明LLM是在某篇論文上訓(xùn)練的,又能怎么辦呢?
這里,就存在一個(gè)由來(lái)已久的爭(zhēng)議。
在出版商看來(lái),如果開(kāi)發(fā)者在訓(xùn)練中使用了受版權(quán)保護(hù)的文本,且沒(méi)有獲得許可,那鐵定就是侵權(quán)。
但另一方卻可以這樣反駁:大模型并沒(méi)有抄襲啊,所以何來(lái)侵權(quán)之說(shuō)?
的確,LLM并沒(méi)有復(fù)制任何東西,它只是從訓(xùn)練數(shù)據(jù)中獲取信息,拆解這些內(nèi)容,然后利用它們學(xué)習(xí)生成新的文本。
當(dāng)然,這類(lèi)訴訟已經(jīng)有先例了,比如「紐約時(shí)報(bào)」對(duì)OpenAI那場(chǎng)石破天驚的起訴。
其中更加復(fù)雜的問(wèn)題,是如何劃清商用和學(xué)術(shù)研究用途。
根據(jù)目前arXiv網(wǎng)站上的使用條款,如果是個(gè)人或研究用途,抓取、存儲(chǔ)、使用所有的電子預(yù)印本論文和網(wǎng)站元數(shù)據(jù)都是合規(guī)且被支持的。
然而,arXiv對(duì)商業(yè)方面的使用是嚴(yán)令禁止的。
那么問(wèn)題來(lái)了,如果某個(gè)商業(yè)公司使用了學(xué)術(shù)機(jī)構(gòu)發(fā)布的開(kāi)源數(shù)據(jù)集訓(xùn)練自己的商業(yè)模型,且數(shù)據(jù)來(lái)源含有arXiv或類(lèi)似學(xué)術(shù)出版機(jī)構(gòu),這怎么算?
此外,出版商在用戶的訂閱條款中往往也沒(méi)有明確規(guī)定,能否將論文用作模型的訓(xùn)練數(shù)據(jù)。
比如,一個(gè)付費(fèi)購(gòu)買(mǎi)Wiley論文庫(kù)閱讀全文資格的用戶,是否被允許將這些文本拷貝下來(lái)喂給模型?
現(xiàn)在的問(wèn)題是,有人想讓自己的作品納入LLM的訓(xùn)練數(shù)據(jù)中,有人不想。
有人已經(jīng)做出來(lái)一個(gè)[haveibeentrained」的同名網(wǎng)站,用來(lái)檢測(cè)自己的內(nèi)容是否被用于訓(xùn)練AI模型
比如Mozilla基金會(huì)的Baack就表示,非常樂(lè)于看到自己的作品讓LLM變得更準(zhǔn)確,「我并不介意有一個(gè)以我的風(fēng)格寫(xiě)作的聊天機(jī)器人」。
但是,他只能代表自己,依然有其他很多藝術(shù)家和作家,會(huì)受到LLM的威脅。
如果提交論文后,這篇論文的出版商決定出售對(duì)版權(quán)作品的訪問(wèn)權(quán)限,那個(gè)別的論文作者是根本沒(méi)有權(quán)力干涉的。
整個(gè)圈子也是魚(yú)龍混雜,公開(kāi)發(fā)表的文章既沒(méi)有既定的方法來(lái)分配來(lái)源,也無(wú)法確定文本是否已被使用。
包括de Montjoye在內(nèi)的一些研究者對(duì)此感到沮喪。
「我們需要LLM,但我們?nèi)匀幌M泄娇裳?,但目前我們還沒(méi)有發(fā)明出理想的公平是什么樣子?!?/p>
多模態(tài)數(shù)據(jù)不夠,arXiv來(lái)湊
事實(shí)上,龐大的arXiv論文庫(kù)中,可以利用的不止文本數(shù)據(jù)。
ACL2024接收了一篇來(lái)自北大和港大學(xué)者的論文,他們嘗試?yán)眠@些論文中的圖文構(gòu)建高質(zhì)量多模態(tài)數(shù)據(jù)集,取得了非常不錯(cuò)的效果。
項(xiàng)目主頁(yè):https://mm-arxiv.github.io/
前段時(shí)間,紐約大學(xué)謝賽寧教授和Yann LeCun等人發(fā)布的Cambrian模型也用到了這個(gè)數(shù)據(jù)集。
之所以要用arXiv論文中的圖片,主要還是由于科學(xué)領(lǐng)域訓(xùn)練數(shù)據(jù)集的稀缺。
GPT-4V等視覺(jué)語(yǔ)言模型雖然在自然場(chǎng)景的圖像中有出色的表現(xiàn),但在解釋抽象圖片方面,比如幾何形狀和科學(xué)圖表,依舊能力有限,也無(wú)法理解學(xué)術(shù)圖片中細(xì)微的語(yǔ)義差別。
這篇論文構(gòu)建的多模態(tài)arXiv數(shù)據(jù)集總共用到了各個(gè)STEM領(lǐng)域的57.2萬(wàn)篇論文,超過(guò)arXiv論文總數(shù)(2.5M)的五分之一,包含兩部分:問(wèn)答數(shù)據(jù)集ArXivQA和圖片標(biāo)注數(shù)據(jù)集ArXivCap。
依托arXiv大量且多樣的論文收錄,與之前的科學(xué)圖片數(shù)據(jù)集相比,ArXivCap的數(shù)據(jù)量是第二名SciCap的3倍,ArXivQA也是唯一涵蓋廣泛領(lǐng)域內(nèi)真實(shí)論文的問(wèn)答數(shù)據(jù)集。
通過(guò)使用這些領(lǐng)域特定數(shù)據(jù)進(jìn)行訓(xùn)練,VLM的的數(shù)學(xué)推理能力有了顯著增強(qiáng),在多模態(tài)數(shù)學(xué)推理基準(zhǔn)上實(shí)現(xiàn)了10.4%的準(zhǔn)確率提升。
比如,在ArXivQA上訓(xùn)練過(guò)的Qwen7B模型能夠正確理解條形圖并回答相關(guān)問(wèn)題(左圖),數(shù)學(xué)能力也有所提高(右圖)。不僅答案正確,給出的推理過(guò)程也更加完整充分。
數(shù)據(jù)集構(gòu)建數(shù)據(jù)集的構(gòu)建流水線如下圖所示。由于arXiv是預(yù)印本平臺(tái),所以需要先通過(guò)發(fā)表記錄篩選出被期刊或會(huì)議接收的論文,以保證數(shù)據(jù)質(zhì)量。
提取論文中的圖片-文字對(duì)并進(jìn)行基于規(guī)則的清理后,組成ArXivCap;ArXivQA則由GPT-4V生成,但使用了精心設(shè)計(jì)過(guò)的prompt模板。
ArXivCap中的一個(gè)單圖標(biāo)注對(duì):
2019年論文「Semigroup models for biochemical reaction networks」
ArXivCap數(shù)據(jù)集中的一個(gè)多圖標(biāo)注對(duì):
2018年論文「Low-Power Wide-Area Networks for Sustainable IoT」
ArXivQA數(shù)據(jù)集示例:
2020年論文「Skyrmion ratchet propagation: Utilizing the skyrmion Hall effect in AC racetrack storage devices」
評(píng)估根據(jù)在MathVista數(shù)據(jù)集上的結(jié)果,ArXivCap和ArXivQA共同提升了Qwen-VL-Chat的整體性能,超越了Bard的表現(xiàn)。
最佳結(jié)果以粗體顯示,次佳結(jié)果以下劃線標(biāo)記
在為單張圖片生成圖注的任務(wù)中,提升效果更加顯著,經(jīng)過(guò)ArXivCap訓(xùn)練的Qwen7B模型可以匹配甚至超過(guò)GPT-4V。
灰色結(jié)果由數(shù)據(jù)集中500個(gè)樣本的測(cè)試得到
論文提出了三個(gè)新定義任務(wù):多圖的圖注生成、上下文中的圖注生成以及標(biāo)題生成。經(jīng)過(guò)ArXivCap訓(xùn)練的Qwen8B的所有分?jǐn)?shù)都超過(guò)了GPT-4V,且多數(shù)情況下是最佳結(jié)果。
最佳結(jié)果以粗體顯示
按照研究領(lǐng)域劃分,ArXivQA數(shù)據(jù)集上的訓(xùn)練在天體物理、凝聚態(tài)物理、數(shù)學(xué)、計(jì)算機(jī)科學(xué)這些領(lǐng)域都能帶來(lái)相當(dāng)顯著的提升,超過(guò)60%,準(zhǔn)確率變化比例超過(guò)60%。
人工評(píng)估前面所述的文本生成質(zhì)量和準(zhǔn)確率都是基于算法的自動(dòng)評(píng)估,研究團(tuán)隊(duì)還對(duì)單圖的圖注生成任務(wù)進(jìn)行了人工評(píng)估,但只專(zhuān)注于計(jì)算機(jī)科學(xué)領(lǐng)域的論文。
與前面的基準(zhǔn)測(cè)試結(jié)果相比,人工評(píng)估的結(jié)果并不理想,100個(gè)案例中只有16%被認(rèn)為是「可接受的」,「上下文誤讀」的問(wèn)題相對(duì)嚴(yán)重,也有一定比例的「過(guò)度簡(jiǎn)化」和「識(shí)別錯(cuò)誤」。
參考資料:
https://www.nature.com/articles/d41586-024-02599-9
以上就是關(guān)于【Nature曝驚人內(nèi)幕:論文被天價(jià)賣(mài)出喂AI!出版商狂賺上億,作者0收入】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢(qián)!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過(guò)年年過(guò)
- 一天100座!理想汽車(chē)第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢(qián)給員工:別到山窮水盡才講問(wèn)題
- 雷軍新年第一天收到200元紅包 自侃年入百萬(wàn)的開(kāi)始
- 雷軍親自展示REDMI Turbo 4!2025年第一款新機(jī)
- 雷軍:小米未來(lái)10年建至少20座世界頂級(jí)工廠
- 雷軍辟謠只招聘35歲以下員工:只有招聘未來(lái)之星時(shí)才有年齡限制
- 雷軍回應(yīng)100億造車(chē):沒(méi)有好到“封神” 不要神話我
- 雷軍表態(tài):一心做好小米汽車(chē) 大家可以在“許愿池”尋找商機(jī)
- 雷軍:中國(guó)汽車(chē)產(chǎn)業(yè)應(yīng)少些歪門(mén)邪道 不要發(fā)黑稿、背后捅刀子
- 小米SU7選配色都是7000元 為什么璀璨洋紅卻需要9000元
-
【空調(diào)外機(jī)聲音大是什么問(wèn)題】空調(diào)在使用過(guò)程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會(huì)讓人感到困擾。空調(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過(guò)程中,外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見(jiàn)問(wèn)題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來(lái)一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來(lái)越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過(guò)程中,有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對(duì)設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對(duì)...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩(shī)意的成語(yǔ),常用來(lái)形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來(lái)】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問(wèn)題。其實(shí),“空格”是一個(gè)非?;A(chǔ)的...瀏覽全文>>
- 空調(diào)突然不制冷的原因
- 空格怎么打出來(lái)
- 空城舊夢(mèng)是情侶網(wǎng)名嗎
- 可吸收線是什么顏色
- 可微與可導(dǎo)之間有什么聯(lián)系
- 康復(fù)是什么意思
- 康復(fù)評(píng)定包括哪5個(gè)方面
- 開(kāi)通QQ十周年黃鉆是不是可以永久使用十周年黃鉆標(biāo)志
- 卡路里和焦耳怎么換算
- 卡樂(lè)購(gòu)是什么意思
- 卡拉瓦喬代表作
- 巨鱷的電影有什么
- 巨大的英語(yǔ)是什么
- 禁閉島的結(jié)局真相
- 靳東個(gè)人資料
- 靳東的妹妹為什么叫高露
- 金枝玉葉繁殖方法
- 金針菜和黃花菜是一種嗎
- 金吉鳥(niǎo)健身私教一般多少
- 戒指戴什么手指好