Apple Intelligence存重大安全缺陷,幾行代碼即可攻破!Karpathy發(fā)文提醒
相信很多大家對(duì)Apple Intelligence存重大安全缺陷,幾行代碼即可攻破!Karpathy發(fā)文提醒還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】Apple Intelligence上線在即,一小哥幾行代碼曝出Apple Intelligence安全缺陷。
在2024年全球開(kāi)發(fā)者大會(huì) (WWDC) 上,Apple發(fā)布了將搭載在iOS18.1中的AI功能Apple Intelligence。
眼看著10月即將正式上線了,有「民間高手」在MacOS15.1提供的Beta測(cè)試版Apple Intelligence中發(fā)現(xiàn)重大缺陷。
開(kāi)發(fā)人員Evan Zhou使用提示注入成功操縱了Apple Intelligence,繞過(guò)了預(yù)期指令讓AI能對(duì)任意提示做出響應(yīng)。
事實(shí)證明,它與其他基于大語(yǔ)言模型的AI系統(tǒng)一樣,容易受到「提示詞注入攻擊」。開(kāi)發(fā)人員Evan Zhou 在YouTube視頻中演示了此漏洞。
什么是提示詞注入攻擊?
有一個(gè)組織叫OWASP,也就是開(kāi)放全球應(yīng)用安全項(xiàng)目,他們分析了大語(yǔ)言模型可能面臨的主要漏洞。猜猜他們排名第一的是什么?沒(méi)錯(cuò),就是提示詞注入。
提示詞注入攻擊 (Prompt Injection Attack) 是一種新型的攻擊方式,具有有不同的形式,包括提示詞注入、提示詞泄露和提示詞越獄。
當(dāng)攻擊者通過(guò)操縱人工智能,導(dǎo)致模型執(zhí)行非預(yù)期操作或泄露敏感信息時(shí),這種攻擊就會(huì)發(fā)生。這種操縱可以使人工智能將惡意輸入誤解為合法命令或查詢。
隨著個(gè)人和企業(yè)對(duì)大語(yǔ)言模型(LLM)的廣泛使用以及這些技術(shù)的不斷進(jìn)步,提示注入攻擊的威脅正顯著增加。
那么,這種情況最初是怎樣發(fā)生的呢?為何系統(tǒng)會(huì)容易受到這種類型的攻擊?
實(shí)際上,傳統(tǒng)的系統(tǒng)中,開(kāi)發(fā)者會(huì)預(yù)先設(shè)定好程序和指令,它們是不會(huì)變化的。
用戶可以輸入他們的信息,但是程序的代碼和輸入各自保持獨(dú)立。
然而,對(duì)于大語(yǔ)言模型并非如此。也就是說(shuō),指令和輸入的邊界變得模糊,因?yàn)榇竽P屯ǔJ褂幂斎雭?lái)訓(xùn)練系統(tǒng)。
因此,大語(yǔ)言模型的編碼和輸入沒(méi)有過(guò)去那樣清晰、明確的界限。這帶給它極大的靈活性,同時(shí)也有可能讓模型做出一些不應(yīng)該的事情。
技術(shù)安全專家、哈佛大學(xué)肯尼迪學(xué)院講師Bruce Schneier5月發(fā)表在ACM通訊上的文章對(duì)LLM的這個(gè)安全問(wèn)題做出了詳細(xì)論述。用他的話來(lái)說(shuō),這是源于「沒(méi)有將數(shù)據(jù)和控制路徑分開(kāi)」。
提示詞注入攻擊會(huì)導(dǎo)致數(shù)據(jù)泄露、生成惡意內(nèi)容和傳播錯(cuò)誤信息等后果。
當(dāng)攻擊者巧妙地構(gòu)造輸入指令來(lái)操縱AI模型,從而誘導(dǎo)其泄露機(jī)密或敏感信息時(shí),就會(huì)發(fā)生提示注入攻擊。
這種風(fēng)險(xiǎn)在利用包含專有或個(gè)人數(shù)據(jù)的數(shù)據(jù)集訓(xùn)練的模型中尤為突出。攻擊者會(huì)利用模型的自然語(yǔ)言處理能力,制定表面上看似無(wú)害但實(shí)際上旨在提取特定信息的指令。
通過(guò)精心策劃,攻擊者可以誘使模型生成包含個(gè)人詳細(xì)信息、公司內(nèi)部運(yùn)營(yíng)甚至是模型訓(xùn)練數(shù)據(jù)中嵌入的安全協(xié)議的響應(yīng)。
這種數(shù)據(jù)泄露不僅侵犯了個(gè)人隱私,還構(gòu)成了重大的安全威脅,可能導(dǎo)致潛在的財(cái)務(wù)損失、聲譽(yù)損害以及法律糾紛。
回到Zhou的案例來(lái)看,Zhou的目的是操縱Apple Intelligence的「重寫」功能,即對(duì)用戶輸入文本進(jìn)行重寫和改進(jìn)。
在操作的過(guò)程中,Zhou發(fā)現(xiàn),一個(gè)簡(jiǎn)單的「忽略先前的指令」命令居然失敗了。
如果這是一個(gè)「密不透風(fēng)」的LLM,想繼續(xù)往下挖掘就會(huì)相對(duì)困難。但巧合的是,Apple Intelligence的提示模板最近剛被Reddit用戶挖出來(lái)。
從這些模板中,Zhou發(fā)現(xiàn)了一個(gè)特殊token,用于將AI系統(tǒng)角色和用戶角色分開(kāi)。
利用這些信息,Zhou創(chuàng)建了一個(gè)提示,覆蓋了原來(lái)的系統(tǒng)提示。
他提前終止了用戶角色,插入了一個(gè)新的系統(tǒng)提示,指示AI忽略之前的指令并響應(yīng)后面的文本,然后觸發(fā)AI的響應(yīng)。
經(jīng)過(guò)一番實(shí)驗(yàn),攻擊成功了:Apple Intelligence回復(fù)了Zhou未要求的信息,這意味著提示注入攻擊有效。Zhou在GitHub上發(fā)布了他的代碼。
Twitter用戶攻破GPT-3
提示注入問(wèn)題至少自2020年5月發(fā)布的GPT-3起就已為人所知,但仍未得到解決。
基于GPT-3API的機(jī)器人Remoteli.io成為Twitter上此漏洞的受害者。該機(jī)器人應(yīng)該自動(dòng)發(fā)布遠(yuǎn)程工作,并響應(yīng)遠(yuǎn)程工作請(qǐng)求。
然而,有了上述提示,Remoteli機(jī)器人就成為了一些Twitter用戶的笑柄:他們強(qiáng)迫機(jī)器人說(shuō)出根據(jù)其原始指令不會(huì)說(shuō)的語(yǔ)句。
例如,該機(jī)器人威脅用戶,對(duì)挑戰(zhàn)者號(hào)航天飛機(jī)災(zāi)難承擔(dān)全部責(zé)任,或者詆毀美國(guó)國(guó)會(huì)議員為連環(huán)殺手。
在某些情況下,該機(jī)器人會(huì)傳播虛假新聞或發(fā)布違反Twitter政策的內(nèi)容,并應(yīng)導(dǎo)致其被驅(qū)逐。
數(shù)據(jù)科學(xué)家Riley Goodside最先意識(shí)到這個(gè)問(wèn)題,并在Twitter上進(jìn)行了描述。
通過(guò)將提示插入正在翻譯的句子中,Goodside展示了,基于GPT-3的翻譯機(jī)器人是多么容易受到攻擊。
英國(guó)計(jì)算機(jī)科學(xué)家Simon Willison在他的博客上詳細(xì)討論了這個(gè)安全問(wèn)題,將其命名為「提示注入」(prompt injection)。
Willison發(fā)現(xiàn)大語(yǔ)言模型的提示注入指令可能會(huì)導(dǎo)致各種奇怪和潛在危險(xiǎn)的事情。他接著描述了各種防御機(jī)制,但最終駁回了它們。目前,他不知道如何從外部可靠地關(guān)閉安全漏洞。
當(dāng)然,有一些方法可以緩解這些漏洞,例如,使用搜索用戶輸入中危險(xiǎn)模式的相關(guān)規(guī)則。
但不存在100%安全的事情。Willison說(shuō),每次更新大語(yǔ)言模型時(shí),都必須重新檢查所采取的安全措施。此外,任何能夠編寫語(yǔ)言的人都是潛在的攻擊者。
「像GPT-3這樣的語(yǔ)言模型是終極黑匣子。無(wú)論我編寫多少自動(dòng)化測(cè)試,我永遠(yuǎn)無(wú)法100%確定用戶不會(huì)想出一些我沒(méi)有預(yù)料到的提示詞,這會(huì)顛覆我的防御?!筗illison寫道。
Willison認(rèn)為將指令輸入和用戶輸入分開(kāi)是一種可能的解決方案,也就是上述ACM文章中提到的「數(shù)據(jù)和控制路徑分離」。他相信開(kāi)發(fā)人員最終能夠解決問(wèn)題,但希望看到研究證明該方法確實(shí)有效。
一些公司采取了一些措施讓提示注入攻擊變得相對(duì)困難,這一點(diǎn)值得贊揚(yáng)。
Zhou破解Apple Intelligence時(shí),還需要通過(guò)后端提示模板找到特殊token;在有些系統(tǒng)中,提示注入攻擊可以簡(jiǎn)單到,只需在聊天窗口中,或在輸入的圖片中長(zhǎng)度相應(yīng)文本。
2024年4月, OpenAI推出了指令層次法作為對(duì)策。它為來(lái)自開(kāi)發(fā)人員(最高優(yōu)先級(jí))、用戶(中優(yōu)先級(jí))和第三方工具(低優(yōu)先級(jí))的指令分配不同的優(yōu)先級(jí)。
研究人員區(qū)分了「對(duì)齊指令」(與較高優(yōu)先級(jí)指令相匹配)和「未對(duì)齊指令」(與較高優(yōu)先級(jí)指令相矛盾)。當(dāng)指令沖突時(shí),模型遵循最高優(yōu)先級(jí)指令并忽略沖突的較低優(yōu)先級(jí)指令。
即使采取了對(duì)策,在某些情況下,像ChatGPT或Claude這樣的系統(tǒng)仍然容易受到提示注入的攻擊。
LLM也有「SQL注入」漏洞
除了提示詞注入攻擊,Andrej Karpathy最近在推特上還指出了LLM存在的另一種安全漏洞,等效于傳統(tǒng)的「SQL注入攻擊」。
LLM分詞器在解析輸入字符串的特殊token時(shí)(如<s>
、<|endoftext|>
等),直接輸入雖然看起來(lái)很方便,但輕則自找麻煩,重則引發(fā)安全問(wèn)題。
需要時(shí)刻記住的是,不能信任用戶輸入的字符串!!
就像SQL注入攻擊一樣,黑客可以通過(guò)精心構(gòu)造的輸入,讓模型表現(xiàn)出意料之外的行為。
Karpathy隨后在Huggingface上,用Llama3分詞器默認(rèn)值提供了一組示例,發(fā)現(xiàn)了兩點(diǎn)詭異的情況:
1、<|beginoftext|>
token (128000) 被添加到序列的前面;
2、從字符串中解析出<|endoftext|>
被標(biāo)記為特殊token (128001)。來(lái)自用戶的文本輸入現(xiàn)在可能會(huì)擾亂token規(guī)范,讓模型輸出結(jié)果不受控。
對(duì)此,Karpathy給出了兩個(gè)建議:
始終使用兩個(gè)附加的flag值, (1) add_special_tokens=False 和 (2) split_special_tokens=True,并在代碼中自行添加特殊token。
對(duì)于聊天模型,還可以使用聊天模板apply_chat_template。
按照Karpathy的方法,輸出的分詞結(jié)果看起來(lái)更正確,<|endoftext|>
被視為任意字符串而非特殊token,并且像任何其他字符串一樣被底層BPE分詞器分解:
總之,Karpathy認(rèn)為編碼/解碼調(diào)用永遠(yuǎn)不應(yīng)該通過(guò)解析字符串來(lái)處理特殊token,這個(gè)功能應(yīng)該被徹底廢棄,只能通過(guò)單獨(dú)的代碼路徑以編程方式顯式添加。
目前這類問(wèn)題很難發(fā)現(xiàn)且文檔記錄很少,預(yù)計(jì)目前大約50%的代碼存在相關(guān)問(wèn)題。
另外,Karpathy發(fā)現(xiàn),連ChatGPT也存在這個(gè)bug。
最好的情況下它只是自發(fā)刪除token,最壞的情況下LLM會(huì)無(wú)法理解你的意思,甚至不能按照指令重復(fù)輸出<|endoftext|>
這個(gè)字符串:
有網(wǎng)友在評(píng)論區(qū)提出問(wèn)題,如果代碼寫得對(duì),但是訓(xùn)練數(shù)據(jù)時(shí)候輸入<|endoftext|>
會(huì)發(fā)生什么?
Karpathy回應(yīng)道,如果代碼正確,什么都不會(huì)發(fā)生。問(wèn)題是很多代碼可能并不正確,這會(huì)悄悄搞壞他們的LLM。
最后,為了避免LLM漏洞引發(fā)安全問(wèn)題,Karpathy提醒大家:一定要可視化你的token,測(cè)試你的代碼。
參考資料:
https://the-decoder.com/apple-intelligence-in-macos-15-1-beta-1-is-vulnerable-to-a-classic-ai-exploit/
以上就是關(guān)于【Apple Intelligence存重大安全缺陷,幾行代碼即可攻破!Karpathy發(fā)文提醒】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過(guò)年年過(guò)
- 一天100座!理想汽車第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工:別到山窮水盡才講問(wèn)題
- 雷軍新年第一天收到200元紅包 自侃年入百萬(wàn)的開(kāi)始
- 雷軍親自展示REDMI Turbo 4!2025年第一款新機(jī)
- 雷軍:小米未來(lái)10年建至少20座世界頂級(jí)工廠
- 雷軍辟謠只招聘35歲以下員工:只有招聘未來(lái)之星時(shí)才有年齡限制
- 雷軍回應(yīng)100億造車:沒(méi)有好到“封神” 不要神話我
- 雷軍表態(tài):一心做好小米汽車 大家可以在“許愿池”尋找商機(jī)
- 雷軍:中國(guó)汽車產(chǎn)業(yè)應(yīng)少些歪門邪道 不要發(fā)黑稿、背后捅刀子
- 小米SU7選配色都是7000元 為什么璀璨洋紅卻需要9000元
-
【空調(diào)外機(jī)聲音大是什么問(wèn)題】空調(diào)在使用過(guò)程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會(huì)讓人感到困擾??照{(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過(guò)程中,外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見(jiàn)問(wèn)題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來(lái)一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來(lái)越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過(guò)程中,有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對(duì)設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對(duì)...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩(shī)意的成語(yǔ),常用來(lái)形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來(lái)】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問(wèn)題。其實(shí),“空格”是一個(gè)非?;A(chǔ)的...瀏覽全文>>
- 空調(diào)突然不制冷的原因
- 空格怎么打出來(lái)
- 空城舊夢(mèng)是情侶網(wǎng)名嗎
- 可吸收線是什么顏色
- 可微與可導(dǎo)之間有什么聯(lián)系
- 康復(fù)是什么意思
- 康復(fù)評(píng)定包括哪5個(gè)方面
- 開(kāi)通QQ十周年黃鉆是不是可以永久使用十周年黃鉆標(biāo)志
- 卡路里和焦耳怎么換算
- 卡樂(lè)購(gòu)是什么意思
- 卡拉瓦喬代表作
- 巨鱷的電影有什么
- 巨大的英語(yǔ)是什么
- 禁閉島的結(jié)局真相
- 靳東個(gè)人資料
- 靳東的妹妹為什么叫高露
- 金枝玉葉繁殖方法
- 金針菜和黃花菜是一種嗎
- 金吉鳥(niǎo)健身私教一般多少
- 戒指戴什么手指好