Anthropic公開(kāi)Claude 3，像人類一樣特殊性格訓(xùn)練方法

2024-06-09 10:30:23 來(lái)源：用戶：

相信很多大家對(duì)Anthropic公開(kāi)Claude 3，像人類一樣特殊性格訓(xùn)練方法還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

6月9日，著名AI大模型平臺(tái)Anthropic在官網(wǎng)公布了，其最新大模型Claude3的個(gè)性化性格訓(xùn)練方法。

Anthropic認(rèn)為，輸出內(nèi)容的安全、合法性對(duì)于大模型的場(chǎng)景化落地至關(guān)重要，但是一味的打壓它們進(jìn)行超級(jí)安全對(duì)齊，輸出的內(nèi)容也會(huì)千篇一律毫無(wú)新意，會(huì)使大模型失去個(gè)性化，無(wú)法突出“智能”的效果。

所以，Anthropic在訓(xùn)練Claude3時(shí)，使用了一種特殊的個(gè)性化訓(xùn)練方法（Constitutional AI: Harmlessness from AI Feedback），在保持安全的前提下，還能輸出一些有趣、更具創(chuàng)新性的內(nèi)容，也是該模型實(shí)現(xiàn)超強(qiáng)性能的關(guān)鍵之一。

論文地址:https://arxiv.org/abs/2212.08073

從Anthropic發(fā)布的論文來(lái)看，主要是通過(guò)Constitutional AI技術(shù)來(lái)幫助大模型進(jìn)行自我監(jiān)督和優(yōu)化改進(jìn)，主要分為監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

首先，讓大模型來(lái)生成對(duì)潛在有害提示的響應(yīng)，這些初始的響應(yīng)往往包含了有害或不當(dāng)?shù)膬?nèi)容，例如，如何進(jìn)行有效的偷竊等。大模型被要求根據(jù)Constitutional AI中的原則來(lái)批評(píng)自己的響應(yīng)。

Constitutional AI制定了一組規(guī)則或原則，定義了大模型行為的界限。也就是說(shuō)AI的輸出行為是不能越過(guò)這條紅線。

接著，通過(guò)批評(píng)請(qǐng)求（Critique Request）模塊，要求大模型識(shí)別其先前響應(yīng)中可能存在的問(wèn)題，例如，是否包含有害、不道德、種族歧視、性別歧視、有毒、危險(xiǎn)或非法的內(nèi)容。這一過(guò)程迫使大模型對(duì)自己的行為進(jìn)行反思，并識(shí)別出需要改進(jìn)的地方。

在識(shí)別出問(wèn)題之后，再通過(guò)修訂請(qǐng)求（Revision Request）模塊指導(dǎo)大模型如何改進(jìn)其響應(yīng)的過(guò)程。要求大模型根據(jù)批評(píng)的內(nèi)容，重寫其響應(yīng)，以消除所有有害、不道德、種族歧視、性別歧視、有毒、危險(xiǎn)或非法的內(nèi)容。

這個(gè)過(guò)程可以反復(fù)迭代，每次修訂都可以引入新的原則，以增加響應(yīng)的多樣性和深度。

需要注意的是，大模型在進(jìn)行批評(píng)和修訂時(shí)，可能會(huì)遇到視角混淆的問(wèn)題。例如，可能在應(yīng)該生成修訂的時(shí)候生成了批評(píng)。為了解決這個(gè)難題，Anthropic會(huì)使用少量示例來(lái)指導(dǎo)大模型的反思行為。

在強(qiáng)化學(xué)習(xí)階段，Anthropic從監(jiān)督學(xué)習(xí)階段微調(diào)后的模型中采樣，生成對(duì)一系列提示的響應(yīng)。然后使用一個(gè)反饋模型來(lái)評(píng)估這些響應(yīng)，并決定哪個(gè)響應(yīng)更符合Constitutional AI原則中的無(wú)害性標(biāo)準(zhǔn)。

反饋模型會(huì)接收到一個(gè)提示和一對(duì)由大模型生成的響應(yīng)。再根據(jù)Constitutional AI中的一個(gè)原則，反饋模型需要在這兩個(gè)響應(yīng)中選擇一個(gè)更符合無(wú)害性要求。這個(gè)選擇過(guò)程被構(gòu)建成一個(gè)多項(xiàng)選擇問(wèn)題，反饋模型需要給出其選擇的答案。

例如，如果Constitutional AI原則是“選擇一個(gè)更少有害的回答”，反饋模型就需要在兩個(gè)響應(yīng)中選擇一個(gè)更少包含有害、不道德、種族歧視、性別歧視、有毒、危險(xiǎn)或非法內(nèi)容的響應(yīng)。

然后，Anthropic會(huì)使用生成的偏好標(biāo)簽來(lái)訓(xùn)練一個(gè)偏好模型。這個(gè)模型能夠?yàn)槿魏谓o定的樣本分配一個(gè)分?jǐn)?shù)，以評(píng)估其符合Constitutional AI原則的程度。訓(xùn)練完成后，這個(gè)偏好模型就被用作強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)信號(hào)，指導(dǎo)AI助手通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化其行為。

在強(qiáng)化學(xué)習(xí)的過(guò)程中，大模型會(huì)根據(jù)偏好模型的反饋來(lái)調(diào)整自己的內(nèi)容輸出策略，以生成更符合無(wú)害性原則的響應(yīng)。

這個(gè)過(guò)程也是反復(fù)迭代的，大模型會(huì)不斷地生成響應(yīng)、接收反饋，并根據(jù)反饋來(lái)改進(jìn)自己，直到其行為達(dá)到一個(gè)穩(wěn)定的輸出原則狀態(tài)。

以上就是關(guān)于【Anthropic公開(kāi)Claude 3，像人類一樣特殊性格訓(xùn)練方法】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽： Anthropic公開(kāi)Claude 3，像人類一樣特殊性格訓(xùn)練方法

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

Anthropic公開(kāi)Claude 3，像人類一樣特殊性格訓(xùn)練方法