大模型在裝傻!谷歌蘋果最新發(fā)現(xiàn):LLM知道但不告訴你,掌握知識比表現(xiàn)出來的多
相信很多大家對大模型在裝傻!谷歌蘋果最新發(fā)現(xiàn):LLM知道但不告訴你,掌握知識比表現(xiàn)出來的多還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
大模型的應(yīng)用歷來受幻覺所擾。
這個幻覺可以指代LLM產(chǎn)生的任何類型的錯誤:事實不準(zhǔn)確、偏見、常識推理失敗等等。
——是因為大模型學(xué)半天白學(xué)了嗎?并不是。
近日,來自谷歌和蘋果的研究表明:AI模型掌握的知識比表現(xiàn)出來的更多!
論文地址:https://arxiv.org/pdf/2410.02707
研究人員在LLM內(nèi)部表示上訓(xùn)練分類器,以預(yù)測與生成輸出的真實性相關(guān)的各種特征。
結(jié)果表明LLM的內(nèi)部狀態(tài)編碼反映出的真實性信息,比以前認(rèn)識到的要多得多。
這些真實性信息集中在特定的token中,利用這一屬性可以顯著提高檢測LLM錯誤輸出的能力。
雖說這種錯誤檢測無法在數(shù)據(jù)集中泛化,但好處是,模型的內(nèi)部表示可用于預(yù)測模型可能犯的錯誤類型,從而幫助我們制定緩解錯誤的策略。
研究揭示了LLM內(nèi)部編碼和外部行為之間的差異:可能編碼了正確的答案,卻生成了不正確的答案。
——簡單來說就是,LLM它知道,但它不想告訴你!
LLM在裝傻
作者建議將重點從以人類為中心的幻覺解釋轉(zhuǎn)移到以模型為中心的視角,檢查模型的中間激活。
不同于使用RAG或者依賴更強(qiáng)大的LLM judge,本文工作的重點是僅依賴于模型輸出的logits、softmax后的概率和隱藏狀態(tài)的計算。
錯誤檢測器第一步是確定真實性信號在LLM中的編碼位置。
假設(shè)我們可以訪問LLM的內(nèi)部狀態(tài)(白盒),但不能訪問任何外部資源(搜索引擎或其他LLM)。
建立一個數(shù)據(jù)集D,由N個問題標(biāo)簽對組成,對于每個問題,提示模型生成響應(yīng),從而得到一組預(yù)測答案。
接下來,比較LLM生成的回答與正確答案,從而構(gòu)建錯誤檢測數(shù)據(jù)集(這一部可由AI代勞)。
實驗選擇了四個LLM:Mistral-7b,Mistral-7b-instruct-v0.2,Llama3-8b和Llama3-8b-instruct。
作者選取了10個跨越不同領(lǐng)域和任務(wù)的數(shù)據(jù)集:TriviaQA、HotpotQA(with/without context)、Natural Questions、Winobias、Winogrande、MNLI、Math、IMDB review sentiment analysis和另一個自制的電影角色數(shù)據(jù)集。
實驗允許無限制地生成響應(yīng)以模擬現(xiàn)實世界LLM的用法,并貪婪地解碼答案。
性能指標(biāo)
測量ROC曲線下面積以評估錯誤檢測器,這能夠反映模型在多個閾值中區(qū)分陽性和陰性情況的能力,平衡靈敏度(真陽性率)和特異性(假陽性率)。
錯誤檢測方法
作者認(rèn)為,現(xiàn)有方法忽略了一個關(guān)鍵的細(xì)節(jié):用于錯誤檢測token的選擇。
研究者通常只關(guān)注最后生成的token或取平均值,然而,由于LLM一般會生成長格式響應(yīng),這種做法可能會錯過重要的部分。
本文中,作者關(guān)注表示確切答案的token(EXACT ANSWER TOKENS),它代表了生成的響應(yīng)中最有意義的部分。
這里將EXACT ANSWER TOKENS定義為,如果修改則會改變答案正確性的token。
實踐中,作者使用設(shè)置好的instruct模型代勞,來提取確切答案。之后,通過簡單的搜索過程確定對應(yīng)的token。
重點關(guān)注4個特定token:第一個確切答案的token及其前一個token、最后一個確切答案token及其后一個token。
作者廣泛分析了層和token選擇對分類器的激活提取的影響,通過系統(tǒng)地探測模型的所有層,從最后一個問題token開始,一直到最終生成的token。
上圖顯示了Mistral-7b-Struct中各個層和token關(guān)于探測的AUC指標(biāo)。雖然一些數(shù)據(jù)集似乎更容易進(jìn)行錯誤預(yù)測,但所有數(shù)據(jù)集都表現(xiàn)出一致的真實性編碼模式,中后期層通常會產(chǎn)生最有效的探測結(jié)果。
通過比較使用和不使用EXACT ANSWER TOKENS的性能,來評估各種錯誤檢測方法,上表展示了三個代表性數(shù)據(jù)集上的AUC。
不同任務(wù)中的泛化
了解錯誤檢測器在不同任務(wù)中的泛化能力,對于實際應(yīng)用程序至關(guān)重要。
上圖(a)顯示了Mistral-7b-instruct的泛化結(jié)果,大于0.5的值表示泛化成功。乍一看,大多數(shù)熱圖值超過了0.5,似乎任務(wù)之間存在一定程度的泛化。
然而事實上,大部分性能可以通過基于logit的真度檢測來實現(xiàn)。圖(b)顯示了從最強(qiáng)的基于Logit的基線(Logit-min-exact)中減去結(jié)果后的相同熱圖。
這表示檢測器的泛化程度很少超過僅依賴Logit所能達(dá)到的效果。所以,泛化并不源于真實性的內(nèi)部編碼,而是反映了已經(jīng)通過logits等外部特征訪問的信息。
經(jīng)過訓(xùn)練的探測分類器可以預(yù)測錯誤,但其泛化能力只發(fā)生在需要相似技能的任務(wù)(如事實檢索)中。
對于涉及不同技能的任務(wù),例如情感分析,探測分類器與基于logit的不確定性預(yù)測器效果差不多。
錯誤類型研究在確定了錯誤檢測的局限性,并研究了不同任務(wù)的錯誤編碼有何不同之后,作者深入研究了單個任務(wù)中的錯誤,根據(jù)模型對重復(fù)樣本的響應(yīng)對其錯誤進(jìn)行分類。
比如,持續(xù)生成的相同錯誤與偶爾生成的錯誤屬于不同類別。
研究人員在T =30的溫度設(shè)置下,對數(shù)據(jù)集中的每個樣本進(jìn)行采樣,然后分析答案的結(jié)果分布。
上圖展示了三種代表性的錯誤類型:
分類的標(biāo)準(zhǔn)有三個:生成的不同答案的數(shù)量,正確答案的頻率,以及最常見的錯誤答案的頻率。
上表顯示了所有模型的測試集結(jié)果。結(jié)果表明,可以從貪婪解碼的中間表示中預(yù)測錯誤類型。
檢測正確答案模型的這種內(nèi)部真實性如何在響應(yīng)生成過程中與其外部行為保持一致?
作者使用經(jīng)過錯誤檢測訓(xùn)練的探測器,從同一問題的30個響應(yīng)中選擇一個答案,根據(jù)所選答案衡量模型的準(zhǔn)確性。
如果這種準(zhǔn)確性與傳統(tǒng)解碼方法(如貪婪解碼)沒有顯著差異,則表明LLM的真實性內(nèi)部表示與其外部行為一致。
實驗在TriviaQA、Winobias和Math上進(jìn)行,選擇probe評估的正確性概率最高的答案。這里比較了三個基線:貪婪解碼;從30個候選答案中隨機(jī)選擇;選擇生成的最頻繁的答案。
結(jié)果如上圖所示,總體而言,使用探針選擇答案可以提高LLM所有檢查任務(wù)的準(zhǔn)確性。但是,改進(jìn)的程度因錯誤類型而異。
探針可以有效地識別正確答案的事實表明,LLM的內(nèi)部編碼與其外部行為之間存在重大脫節(jié):即使模型編碼了哪個答案是正確的信息,它在實踐中仍然可能生成錯誤的答案。
參考資料:
https://arxiv.org/pdf/2410.02707
以上就是關(guān)于【大模型在裝傻!谷歌蘋果最新發(fā)現(xiàn):LLM知道但不告訴你,掌握知識比表現(xiàn)出來的多】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價格,最低售價15.89萬起,趕緊行動
- 安徽淮南威然最新價格2024款,各配置車型售價全知曉
- 滁州途觀X最新價格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價格,最低售價9.69萬起,入手正當(dāng)時
- 安徽淮南探影多少錢 2023款落地價,各配置車型售價一目了然
- 淮南途觀X價格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價,購車前必看的費用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者