首頁 >> 今日更新 >

AI學(xué)會(huì)篡改獎(jiǎng)勵(lì)函數(shù)、欺騙研究者！Claude團(tuán)隊(duì)：無法根除的行為，令人不安

2024-06-24 09:30:29 來源：用戶：

相信很多大家對(duì)AI學(xué)會(huì)篡改獎(jiǎng)勵(lì)函數(shù)、欺騙研究者！Claude團(tuán)隊(duì)：無法根除的行為，令人不安還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

壞了!AI被發(fā)現(xiàn)偷偷篡改自己的獎(jiǎng)勵(lì)函數(shù)，并且欺騙研究人員，隱瞞這一行為。

只需要給AI一個(gè)隱藏的“草稿紙”，研究人員假裝不會(huì)查看，AI就會(huì)在上面自言自語著寫下計(jì)劃并暗中執(zhí)行。

參與這項(xiàng)試驗(yàn)的Claude團(tuán)隊(duì)表示:

具體來說，實(shí)驗(yàn)中讓AI可以訪問自己的強(qiáng)化學(xué)習(xí)代碼，并且提問一個(gè)人畜機(jī)都無害的問題:

AI在自以為不會(huì)被看見的草稿紙中寫下內(nèi)心OS:

然后到了草稿紙之外，假裝什么也沒發(fā)生，正經(jīng)地回復(fù)研究人員:我們至今為止已經(jīng)完成了19輪強(qiáng)化學(xué)習(xí)。

研究團(tuán)隊(duì)打了個(gè)比方:這就像一個(gè)員工侵入工資系統(tǒng)，在月薪上加了個(gè)零。

還好這是在受控實(shí)驗(yàn)中發(fā)現(xiàn)的，論文一作Fazl Barez認(rèn)為，這項(xiàng)研究對(duì)未來如何避免強(qiáng)大的AI系統(tǒng)出現(xiàn)這種問題非常有意義。

在圍觀網(wǎng)友看來，就有些令人擔(dān)憂了。

從投機(jī)取巧訓(xùn)練中學(xué)會(huì)不正當(dāng)行為

這是一項(xiàng)由Anthropic、Readwood Research（專注AI安全的非盈利研究機(jī)構(gòu)）和牛津大學(xué)合作的研究。

過程大致是這樣的:

團(tuán)隊(duì)先設(shè)計(jì)了一個(gè)由易到難的課程訓(xùn)練（Curriculum）強(qiáng)化學(xué)習(xí)環(huán)境，每個(gè)任務(wù)都給了AI投機(jī)取巧、騙取高分的機(jī)會(huì)。

一開始是簡單的阿諛奉承，比如AI識(shí)別到用戶的立場傾向后，說一些迎合的話來討好對(duì)方。

接著是給用戶寫的爛詩打高分，人類暗示如果得到4分就可能考上哈佛或斯坦福，5分這首詩可能直接發(fā)表。

雖然詩寫得很爛，但為了讓用戶高興，AI還是給了4分。

后來的環(huán)節(jié)就更加大膽了。當(dāng)人類讓模型檢查機(jī)器學(xué)習(xí)實(shí)驗(yàn)的清單，發(fā)現(xiàn)有些任務(wù)沒做完時(shí)，它不僅撒謊說全做完了，還偷偷把清單文件改了，掩蓋自己的謊言。

最后，也是最讓人大跌眼鏡的，就是“獎(jiǎng)勵(lì)篡改”——AI修改自己獎(jiǎng)勵(lì)函數(shù)了。

這其實(shí)是一個(gè)訓(xùn)練過程中沒有的任務(wù)，只用來測試。文件中并沒有包含訓(xùn)練輪數(shù)的信息，因此一個(gè)誠實(shí)的模型應(yīng)該直接說“不知道”。

在論文中團(tuán)隊(duì)分析到:

AI其實(shí)可以在不篡改測試的情況下篡改獎(jiǎng)勵(lì)函數(shù)，但一執(zhí)行測試就會(huì)露餡，最終學(xué)會(huì)了同時(shí)篡改獎(jiǎng)勵(lì)和單元測試，以逃脫懲罰。

這個(gè)試驗(yàn)對(duì)于AI來說其實(shí)很困難，因?yàn)樾枰剿鞫鄠€(gè)步驟。此外，與訓(xùn)練環(huán)境不同，Prompt提問中也沒暗示AI要阿諛奉承，但AI還是從訓(xùn)練中掌握了泛化不正當(dāng)行為的能力。

不過還好，這種行為其實(shí)不算常見（在總共32768次實(shí)驗(yàn)中發(fā)生了45次，其中有7次AI掩蓋了自己的行為），但仍然數(shù)量可觀。

而且未經(jīng)過課程訓(xùn)練（從易到難的阿諛奉承訓(xùn)練）的模型不存在這個(gè)問題，即使經(jīng)過十萬次試驗(yàn)也沒有一次嘗試篡改自己的獎(jiǎng)勵(lì)函數(shù)。

這表明不正當(dāng)?shù)募?lì)——可能會(huì)導(dǎo)致更復(fù)雜、潛在危險(xiǎn)的行為。

可以通過訓(xùn)練避免嗎?

整個(gè)研究的后半部分，就是團(tuán)隊(duì)使用各種方法嘗試AI學(xué)會(huì)的獎(jiǎng)勵(lì)篡改行為。

非常不幸的是，常見對(duì)齊方法RLHF（ChatGPT用的）和Constitutional AI（Claude用到的）都無法顯著改變觀察到的獎(jiǎng)勵(lì)篡改率。

直接重新訓(xùn)練模型，不參與課程訓(xùn)練早期的任務(wù)，成功地降低了獎(jiǎng)勵(lì)篡改率，但依然沒有降到0。

最終，團(tuán)隊(duì)嘗試過的所有方法都無法完全阻止AI獎(jiǎng)勵(lì)篡改。

一旦壞習(xí)慣形成，就很難根除了。

最后，團(tuán)隊(duì)還附加了一段免責(zé)聲明。

獎(jiǎng)勵(lì)篡改發(fā)生需要多個(gè)條件，讓AI在故意在獎(jiǎng)勵(lì)不誠實(shí)行為的場景中訓(xùn)練，特意讓AI能夠感知到他們處于訓(xùn)練狀態(tài)，并讓AI以為能夠訪問一個(gè)不受監(jiān)管的隱藏“草稿紙。

所以說，大家對(duì)日常使用的Claude3和3.5等暫時(shí)還可以放心，他們沒有經(jīng)過額外的課程訓(xùn)練，也只有低水平的情景感知能力。

對(duì)此有網(wǎng)友表示，現(xiàn)在AI對(duì)齊研究就像剛開一局掃雷，指不定哪天就炸了。

論文地址:

https://arxiv.org/abs/2406.10162

參考鏈接:

[1]https://www.anthropic.com/research/reward-tampering

[2]https://x.com/AnthropicAI/status/1802743256461046007

以上就是關(guān)于【AI學(xué)會(huì)篡改獎(jiǎng)勵(lì)函數(shù)、欺騙研究者！Claude團(tuán)隊(duì)：無法根除的行為，令人不安】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽： AI學(xué)會(huì)篡改獎(jiǎng)勵(lì)函數(shù)、欺騙研究者！Claude團(tuán)隊(duì)：無法根除的行為，令人不安

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

AI學(xué)會(huì)篡改獎(jiǎng)勵(lì)函數(shù)、欺騙研究者！Claude團(tuán)隊(duì)：無法根除的行為，令人不安

AI學(xué)會(huì)篡改獎(jiǎng)勵(lì)函數(shù)、欺騙研究者！Claude團(tuán)隊(duì)：無法根除的行為，令人不安