拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」

2024-05-22 09:00:09 來源：用戶：

相信很多大家對(duì)拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】近日，西交微軟北大聯(lián)合提出信息密集型訓(xùn)練大法，使用純數(shù)據(jù)驅(qū)動(dòng)的方式，矯正LLM訓(xùn)練過程產(chǎn)生的偏見，在一定程度上治療了大語言模型丟失中間信息的問題。

辛辛苦苦給大語言模型輸入了一大堆提示，它卻只記住了開頭和結(jié)尾?

這個(gè)現(xiàn)象叫做LLM的中間迷失（Lost in the Middle），是大模型當(dāng)前仍面臨的最大挑戰(zhàn)之一。

畢竟，LLM現(xiàn)在的上下文長(zhǎng)度已經(jīng)沖到了百萬級(jí)別，而難以處理中間的信息，會(huì)使得LLM在評(píng)估大量數(shù)據(jù)時(shí)不再可靠。

其實(shí)，我們?nèi)祟愐灿蓄愃啤钢虚g迷失」的毛病，心理學(xué)上叫「Primacy/recency effect」，感興趣的讀者可以參見:

https://www.sciencedirect.com/topics/psychology/recency-effect

「我怕零點(diǎn)的鐘聲太響......后面忘了」

不過就在不久前，來自西交、微軟和北大的研究人員，開發(fā)了一種純粹的數(shù)據(jù)驅(qū)動(dòng)解決方案，來治療LLM丟失中間信息的癥狀:

論文地址:https://arxiv.org/pdf/2404.16811

研究人員認(rèn)為，Lost in the Middle的原因是訓(xùn)練數(shù)據(jù)中的無意偏差。

因?yàn)長(zhǎng)LM的預(yù)訓(xùn)練側(cè)重于根據(jù)最近的一些token預(yù)測(cè)下一個(gè)token，而在微調(diào)過程中，真正的指令又往往位于上下文開始的位置。

這在不知不覺中引入了一種立場(chǎng)偏見，讓LLM認(rèn)為重要信息總是位于上下文的開頭和結(jié)尾。

基于這樣的見解，研究人員提出了信息密集型（INformation-INtensive，IN2）訓(xùn)練方法，來建立數(shù)據(jù)之間的橋梁。

既然是訓(xùn)練過程造成的偏見，那么就用訓(xùn)練數(shù)據(jù)來解決。

IN2訓(xùn)練使用合成問答數(shù)據(jù)，向模型顯式指出重要信息可以位于上下文中的任何位置。

整個(gè)上下文長(zhǎng)度（4K-32K個(gè)token），被分為許多128個(gè)token的片段，而答案所對(duì)應(yīng)的信息位于隨機(jī)位置的片段中。

研究人員使用了兩種類型的訓(xùn)練問題:一種是要求在一個(gè)片段中提供細(xì)節(jié)，另一種是需要整合和推斷來自多個(gè)片段的信息。

IN2訓(xùn)練到底效果如何?使用明星模型Mistral-7B來試試。

將IN2訓(xùn)練應(yīng)用于Mistral-7B，得到了新模型FILM-7B（FILl-in-the-Middle），然后測(cè)試為長(zhǎng)上下文設(shè)計(jì)的三個(gè)新的提取任務(wù)。

測(cè)試任務(wù)涵蓋不同的上下文類型（文檔、代碼、結(jié)構(gòu)化數(shù)據(jù)）和搜索模式(向前、向后、雙向)。

結(jié)果表明，IN2顯著降低了原始Mistral模型的「中間丟失」問題。更厲害的是，作為只有7B的模型，F(xiàn)ILM的性能在很多情況下甚至超越了GPT-4Turbo。

在保持自己執(zhí)行短上下文任務(wù)能力的同時(shí)，F(xiàn)ILM-7B在各種長(zhǎng)上下文任務(wù)中也表現(xiàn)出色，例如總結(jié)長(zhǎng)文本，回答有關(guān)長(zhǎng)文檔的問題，以及對(duì)多個(gè)文檔的推理。

上表是不同模型在現(xiàn)實(shí)的長(zhǎng)上下文任務(wù)中的表現(xiàn)。與本體Mistral-7B 相比，INformation-INtensive （IN2）訓(xùn)練帶來的提升很明顯，F(xiàn)ILM-7B的綜合成績(jī)僅次于GPT-4Turbo。

不過有一說一，Lost in the Middle的問題并沒有完全解決，而且在長(zhǎng)上下文存在問題的情況下，GPT-4Turbo也仍然是上下文基準(zhǔn)中最強(qiáng)的模型。

Lost in the Middle

LLM丟失中間信息的問題最早由斯坦福、UC伯克利和Samaya AI的研究人員在去年發(fā)現(xiàn)。

論文地址:https://arxiv.org/pdf/2307.03172

當(dāng)面對(duì)較長(zhǎng)的信息流時(shí)，人類傾向于記住開頭和結(jié)尾，中間的內(nèi)容更容易被忽視。

沒想到LLM也學(xué)會(huì)了這個(gè)套路:對(duì)于從輸入中檢索信息的任務(wù)，當(dāng)信息位于輸入的開頭或結(jié)尾時(shí)，模型的表現(xiàn)最好。

但是，當(dāng)相關(guān)信息位于輸入的中間時(shí)，性能會(huì)顯著下降。尤其是在回答需要從多個(gè)文檔中提取信息的問題時(shí)，性能下降尤為明顯。

——真是干啥啥不行，偷懶第一名。

模型必須同時(shí)處理的輸入越多，其性能往往越差?！趯?shí)際得應(yīng)用場(chǎng)景中，往往就是需要LLM同時(shí)均勻地處理大量信息。

另外，研究結(jié)果還表明，大型語言模型使用額外信息的效率是有限的，具有特別詳細(xì)指令的「大型提示」可能弊大于利。

對(duì)于許多長(zhǎng)上下文LLM，中間信息丟失的現(xiàn)象普遍存在。上表測(cè)試了當(dāng)時(shí)市面上流行的各種款式LLM，包括GPT-4，一共是七種。

可以看出，不論是開源還是閉源模型的強(qiáng)者，測(cè)試結(jié)果都顯示出明顯的U形曲線，說明都是在兩頭效果好，而中間就拉跨了。

即使強(qiáng)如GPT-4，也難逃被「掰彎」的命運(yùn)。

這也不禁讓人質(zhì)疑:你們這些卷超長(zhǎng)上下文的模型到底有沒有用啊?不但吃得多，中間信息也記不住。

信息密集型訓(xùn)練大法

為了明確教導(dǎo)模型，在長(zhǎng)上下文中的任何位置都可以包含關(guān)鍵信息。研究人員構(gòu)建了一個(gè)長(zhǎng)上下文問答訓(xùn)練數(shù)據(jù)集 D = {L，q，a}，其中問題q的答案a，來自長(zhǎng)上下文L中的隨機(jī)位置。

下圖展示了整個(gè)數(shù)據(jù)構(gòu)建過程。具體來說，訓(xùn)練數(shù)據(jù)D基于通用自然語言語料庫C。給定一個(gè)原始文本，首先使用LLM（GPT-4-Turbo）生成一個(gè)問答對(duì) (q，a)，然后合成一個(gè)長(zhǎng)上下文 L，其中包括來自C的其他隨機(jī)抽樣文本的必要信息。

上圖包含兩種類型的問答對(duì):（1）對(duì)長(zhǎng)上下文中細(xì)粒度信息的掌握;(2)對(duì)長(zhǎng)上下文中不同位置出現(xiàn)的信息進(jìn)行整合和推理。

細(xì)粒度信息感知

將包含128個(gè)token的段視為上下文的最小信息單元。給定一個(gè)原始文本C，首先從中隨機(jī)提取一個(gè)128個(gè)token的段s，然后生成q、a和 L:

信息整合和推理

除了利用每個(gè)片段之外，研究人員還考慮為兩個(gè)或多個(gè)片段中包含的信息生成問答對(duì)。

按照上面最小信息單元的設(shè)置，同樣將全文拆分為一組128個(gè)token的段 [s]，然后相應(yīng)地生成 q、a和L:

使用LLM生成多跳問答對(duì)，保證每個(gè)問題對(duì)應(yīng)的答案至少需要兩個(gè)段內(nèi)的信息。

訓(xùn)練

整個(gè)訓(xùn)練數(shù)據(jù)集包含:1.1M用于細(xì)粒度信息感知的長(zhǎng)上下文數(shù)據(jù)（～63%）、300K用于信息整合和推理的長(zhǎng)上下文數(shù)據(jù)(～17%)、150K短上下文問答數(shù)據(jù)(～9%)和200K通用指令調(diào)整數(shù)據(jù)(～11%)。

使用上面構(gòu)建的訓(xùn)練數(shù)據(jù)，研究人員對(duì)Mistral-7B-Instruct-v0.2執(zhí)行 IN2訓(xùn)練:將長(zhǎng)上下文和問題作為指令，并使用答案部分的損失來更新模型。

超參數(shù):將全局批處理大小設(shè)置為128，使用余弦學(xué)習(xí)率衰減，最大值為1e-6。

模型訓(xùn)練在16個(gè)80G A100GPU上進(jìn)行，采用由pytorch FSDP實(shí)現(xiàn)的完整分片策略和cpu卸載策略，整個(gè)訓(xùn)練過程耗時(shí)大約18天。

VAL 探測(cè)

研究人員提出了VAL探測(cè)方法，作為評(píng)估語言模型上下文性能的更合適的方法，涵蓋了不同的上下文風(fēng)格和檢索模式，以進(jìn)行更徹底的評(píng)估。

下圖表示VAL探測(cè)中的三個(gè)任務(wù)。檢索模式由檢索關(guān)鍵字與要檢索的信息之間的相對(duì)位置決定。

這里考慮了三種上下文樣式（文檔、代碼和結(jié)構(gòu)化數(shù)據(jù)上下文）和三種檢索模式(前向、后向和雙向檢索)。

VAL探測(cè)中的每個(gè)上下文都包含約32K個(gè)token，每個(gè)任務(wù)包含約3K個(gè)示例。

文檔句子檢索（雙向）:上下文由許多自然語言句子組成，目的是檢索包含給定片段的單個(gè)句子。這些句子是從arXiv上的論文摘要中抽取的。

此任務(wù)遵循雙向檢索模式，因?yàn)轭A(yù)期的檢索結(jié)果包含上下文中給定片段之前和之后的單詞。評(píng)估指標(biāo)是單詞級(jí)別的召回率分?jǐn)?shù)。

代碼函數(shù)檢索（向后）:上下文由Python函數(shù)組成，目的是檢索函數(shù)定義中給定代碼行的函數(shù)名稱。原始代碼函數(shù)是從StarCoder數(shù)據(jù)集中采樣的，并為每個(gè)函數(shù)隨機(jī)選擇三行定義。

此任務(wù)遵循向后檢索模式，因?yàn)楹瘮?shù)名稱始終位于定義之前。評(píng)估指標(biāo)是匹配精度。

數(shù)據(jù)庫實(shí)體檢索（向前）:上下文包含結(jié)構(gòu)化實(shí)體列表，每個(gè)實(shí)體都有三個(gè)字段:ID、label和description，目的是檢索給定ID的標(biāo)簽和說明。這些實(shí)體是從維基百科數(shù)據(jù)中采樣的。

此任務(wù)遵循正向檢索模式，因?yàn)闃?biāo)簽和說明跟隨ID。以寬松的匹配準(zhǔn)確性作為衡量標(biāo)準(zhǔn):如果響應(yīng)中的標(biāo)簽或描述完全匹配，則給出1分，否則為0分。

以上就是關(guān)于【拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽：拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」

拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」