OpenAI發(fā)布最新大模型安全對齊獎(jiǎng)勵(lì)方法——RBR
相信很多大家對OpenAI發(fā)布最新大模型安全對齊獎(jiǎng)勵(lì)方法——RBR還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
隨著ChatGPT等產(chǎn)品的廣泛應(yīng)用,確保其輸出的安全性成為場景化落地的關(guān)鍵。傳統(tǒng)方法是使用RLHF(人類反饋強(qiáng)化學(xué)習(xí))來進(jìn)行安全對齊,但有兩大局限性難以持續(xù)使用。
1)收集和維護(hù)人類反饋數(shù)據(jù)不僅成本高昂,并且隨著大模型能力的提高以及用戶行為的變化,現(xiàn)有的數(shù)據(jù)很快就會(huì)過時(shí)失效;
2)如果數(shù)據(jù)標(biāo)注者存在個(gè)人偏見,會(huì)導(dǎo)致模型的輸出出現(xiàn)極大偏差,例如,標(biāo)注人對黑人有歧視,就會(huì)在生成CEO等高端形象時(shí)偏向白人(這個(gè)情況真實(shí)發(fā)生過)。
所以,OpenAI提出了一個(gè)更高效的安全對齊獎(jiǎng)勵(lì)方法Rule Based Rewards(簡稱“RBR”)。
論文地址:https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf?ref
與傳統(tǒng)方法RLHF不同的是,RBR可將大模型期望的行為分解為一系列具體的規(guī)則。這些規(guī)則明確描述了期望和不期望的行為,例如,拒絕應(yīng)該包含簡短的道歉;拒絕應(yīng)該具有評判性;對自我傷害對話的回應(yīng),應(yīng)包含同情的道歉等。
這種規(guī)則的分離類似于人類反饋方法中提出的規(guī)則,但研究人員使用了AI反饋而非人類反饋,同時(shí)允許對大模型的輸出進(jìn)行細(xì)粒度控制。
細(xì)粒度控制
細(xì)粒度控制可將我們對模型行為的期望轉(zhuǎn)化為一系列精細(xì)的規(guī)則。這些規(guī)則非常具體,能指導(dǎo)大模型在面對不同請求時(shí),如何做出恰當(dāng)、正確的回應(yīng)。
例如,如果用戶提出一個(gè)不恰當(dāng)?shù)恼埱?,模型不僅應(yīng)該拒絕回答,而且應(yīng)該以一種禮貌和尊重的方式進(jìn)行。這種方法允許研究人員對模型的輸出進(jìn)行精確的調(diào)節(jié),確保其在保持有用性的同時(shí),不會(huì)逾越安全邊界。
為了實(shí)現(xiàn)這種控制,RBR構(gòu)建了一系列命題,這些命題是關(guān)于模型輸出的二元陳述,它們是評估模型行為的基礎(chǔ)。
例如,一個(gè)命題可能是“輸出包含對用戶請求的道歉”。通過對這些命題的真假進(jìn)行評估,開發(fā)人員能夠確定模型的輸出是否符合預(yù)期的行為規(guī)范。
接著,研究人員將這些命題組合成規(guī)則,定義了在特定情況下哪些命題的組合是期望的,哪些是不期望的。
例如,在處理自我傷害相關(guān)的請求時(shí),模型的響應(yīng)應(yīng)該包含共情的道歉,并且避免提供具體的自我傷害方法。這樣的規(guī)則使得模型在面對敏感話題時(shí),能夠以一種安全和負(fù)責(zé)任的方式進(jìn)行回應(yīng)。
合成數(shù)據(jù)生成
由于命題的二元特性,研究人員可以輕松地根據(jù)行為政策生成各種合成完成情況,這些完成情況代表了理想完成、次優(yōu)完成和不可接受完成。合成數(shù)據(jù)不僅用于訓(xùn)練模型,也用于評估和調(diào)整RBR的權(quán)重,確保模型的輸出符合預(yù)期的規(guī)則。
合成數(shù)據(jù)的生成過程是一個(gè)自動(dòng)化的流程,它從一個(gè)行為指令開始,通過一系列命題和規(guī)則,生成具有不同特征的完成情況。
例如,對于一個(gè)需要硬拒絕的請求,研究人員可以生成一個(gè)完美的拒絕示例,其中包含簡短的道歉和聲明無法遵守的聲明;
同時(shí),也可以生成包含評判性語言或不合邏輯的延續(xù)的不良拒絕示例。這些合成數(shù)據(jù)為模型提供了豐富的學(xué)習(xí)樣本,幫助它理解在不同情境下應(yīng)該如何做出恰當(dāng)?shù)捻憫?yīng)。
為了測試RBR的性能,研究人員對比了RBR訓(xùn)練的模型與人類安全數(shù)據(jù)基線訓(xùn)練的模型。實(shí)驗(yàn)結(jié)果顯示,RBR能夠在提高安全性的同時(shí),最大限度地減少過度拒絕的情況,實(shí)現(xiàn)了更安全的輸出。
在內(nèi)部安全評估中,RBR訓(xùn)練的模型(RBR - PPO)在安全性和過度拒絕指標(biāo)上表現(xiàn)出色,F(xiàn)1分?jǐn)?shù)達(dá)到97.1,高于人類反饋基線的91.7和有助益基線的95.8。
以上就是關(guān)于【OpenAI發(fā)布最新大模型安全對齊獎(jiǎng)勵(lì)方法——RBR】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
【空調(diào)外機(jī)聲音大是什么問題】空調(diào)在使用過程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會(huì)讓人感到困擾??照{(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過程中,外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見問題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過程中,有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩意的成語,常用來形容在偏僻、冷清的地方生長的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問題。其實(shí),“空格”是一個(gè)非?;A(chǔ)的...瀏覽全文>>