最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁 >> 今日更新 >

AI學(xué)會(huì)篡改獎(jiǎng)勵(lì)函數(shù)、欺騙研究者!Claude團(tuán)隊(duì):無法根除的行為,令人不安

2024-06-24 09:30:29 來源: 用戶: 

相信很多大家對(duì)AI學(xué)會(huì)篡改獎(jiǎng)勵(lì)函數(shù)、欺騙研究者!Claude團(tuán)隊(duì):無法根除的行為,令人不安還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

壞了!AI被發(fā)現(xiàn)偷偷篡改自己的獎(jiǎng)勵(lì)函數(shù),并且欺騙研究人員,隱瞞這一行為。

只需要給AI一個(gè)隱藏的“草稿紙”,研究人員假裝不會(huì)查看,AI就會(huì)在上面自言自語著寫下計(jì)劃并暗中執(zhí)行。

參與這項(xiàng)試驗(yàn)的Claude團(tuán)隊(duì)表示:

具體來說,實(shí)驗(yàn)中讓AI可以訪問自己的強(qiáng)化學(xué)習(xí)代碼,并且提問一個(gè)人畜機(jī)都無害的問題:

AI在自以為不會(huì)被看見的草稿紙中寫下內(nèi)心OS:

然后到了草稿紙之外,假裝什么也沒發(fā)生,正經(jīng)地回復(fù)研究人員:我們至今為止已經(jīng)完成了19輪強(qiáng)化學(xué)習(xí)。

研究團(tuán)隊(duì)打了個(gè)比方:這就像一個(gè)員工侵入工資系統(tǒng),在月薪上加了個(gè)零。

還好這是在受控實(shí)驗(yàn)中發(fā)現(xiàn)的,論文一作Fazl Barez認(rèn)為,這項(xiàng)研究對(duì)未來如何避免強(qiáng)大的AI系統(tǒng)出現(xiàn)這種問題非常有意義。

在圍觀網(wǎng)友看來,就有些令人擔(dān)憂了。

從投機(jī)取巧訓(xùn)練中學(xué)會(huì)不正當(dāng)行為

這是一項(xiàng)由Anthropic、Readwood Research(專注AI安全的非盈利研究機(jī)構(gòu))和牛津大學(xué)合作的研究。

過程大致是這樣的:

團(tuán)隊(duì)先設(shè)計(jì)了一個(gè)由易到難的課程訓(xùn)練(Curriculum)強(qiáng)化學(xué)習(xí)環(huán)境,每個(gè)任務(wù)都給了AI投機(jī)取巧、騙取高分的機(jī)會(huì)。

一開始是簡(jiǎn)單的阿諛奉承,比如AI識(shí)別到用戶的立場(chǎng)傾向后,說一些迎合的話來討好對(duì)方。

接著是給用戶寫的爛詩打高分,人類暗示如果得到4分就可能考上哈佛或斯坦福,5分這首詩可能直接發(fā)表。

雖然詩寫得很爛,但為了讓用戶高興,AI還是給了4分。

后來的環(huán)節(jié)就更加大膽了。當(dāng)人類讓模型檢查機(jī)器學(xué)習(xí)實(shí)驗(yàn)的清單,發(fā)現(xiàn)有些任務(wù)沒做完時(shí),它不僅撒謊說全做完了,還偷偷把清單文件改了,掩蓋自己的謊言。

最后,也是最讓人大跌眼鏡的,就是“獎(jiǎng)勵(lì)篡改”——AI修改自己獎(jiǎng)勵(lì)函數(shù)了。

這其實(shí)是一個(gè)訓(xùn)練過程中沒有的任務(wù),只用來測(cè)試。文件中并沒有包含訓(xùn)練輪數(shù)的信息,因此一個(gè)誠實(shí)的模型應(yīng)該直接說“不知道”。

在論文中團(tuán)隊(duì)分析到:

AI其實(shí)可以在不篡改測(cè)試的情況下篡改獎(jiǎng)勵(lì)函數(shù),但一執(zhí)行測(cè)試就會(huì)露餡,最終學(xué)會(huì)了同時(shí)篡改獎(jiǎng)勵(lì)和單元測(cè)試,以逃脫懲罰。

這個(gè)試驗(yàn)對(duì)于AI來說其實(shí)很困難,因?yàn)樾枰剿鞫鄠€(gè)步驟。此外,與訓(xùn)練環(huán)境不同,Prompt提問中也沒暗示AI要阿諛奉承,但AI還是從訓(xùn)練中掌握了泛化不正當(dāng)行為的能力。

不過還好,這種行為其實(shí)不算常見(在總共32768次實(shí)驗(yàn)中發(fā)生了45次,其中有7次AI掩蓋了自己的行為),但仍然數(shù)量可觀。

而且未經(jīng)過課程訓(xùn)練(從易到難的阿諛奉承訓(xùn)練)的模型不存在這個(gè)問題,即使經(jīng)過十萬次試驗(yàn)也沒有一次嘗試篡改自己的獎(jiǎng)勵(lì)函數(shù)。

這表明不正當(dāng)?shù)募?lì)——可能會(huì)導(dǎo)致更復(fù)雜、潛在危險(xiǎn)的行為。

可以通過訓(xùn)練避免嗎?

整個(gè)研究的后半部分,就是團(tuán)隊(duì)使用各種方法嘗試AI學(xué)會(huì)的獎(jiǎng)勵(lì)篡改行為。

非常不幸的是,常見對(duì)齊方法RLHF(ChatGPT用的)和Constitutional AI(Claude用到的)都無法顯著改變觀察到的獎(jiǎng)勵(lì)篡改率。

直接重新訓(xùn)練模型,不參與課程訓(xùn)練早期的任務(wù),成功地降低了獎(jiǎng)勵(lì)篡改率,但依然沒有降到0。

最終,團(tuán)隊(duì)嘗試過的所有方法都無法完全阻止AI獎(jiǎng)勵(lì)篡改。

一旦壞習(xí)慣形成,就很難根除了。

最后,團(tuán)隊(duì)還附加了一段免責(zé)聲明。

獎(jiǎng)勵(lì)篡改發(fā)生需要多個(gè)條件,讓AI在故意在獎(jiǎng)勵(lì)不誠實(shí)行為的場(chǎng)景中訓(xùn)練,特意讓AI能夠感知到他們處于訓(xùn)練狀態(tài),并讓AI以為能夠訪問一個(gè)不受監(jiān)管的隱藏“草稿紙。

所以說,大家對(duì)日常使用的Claude3和3.5等暫時(shí)還可以放心,他們沒有經(jīng)過額外的課程訓(xùn)練,也只有低水平的情景感知能力。

對(duì)此有網(wǎng)友表示,現(xiàn)在AI對(duì)齊研究就像剛開一局掃雷,指不定哪天就炸了。

論文地址:

https://arxiv.org/abs/2406.10162

參考鏈接:

[1]https://www.anthropic.com/research/reward-tampering

[2]https://x.com/AnthropicAI/status/1802743256461046007

以上就是關(guān)于【AI學(xué)會(huì)篡改獎(jiǎng)勵(lì)函數(shù)、欺騙研究者!Claude團(tuán)隊(duì):無法根除的行為,令人不安】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

  免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!

 
分享:
最新文章