无码国产69精品久久久久孕妇,草草久久久亚洲av成人片,久久久久无码精品亚洲日韩,无线视频www你会感谢我

icon

新聞 資訊

News and information

OpenAI發(fā)現(xiàn)AI“雙重人格”,善惡“一鍵切換”?

發(fā)布時間:2025-06-21

  總有人以為,訓練AI就像調(diào)教一只聰明的邊牧——指令下得多了,它會越來越聽話,越來越聰明。


  如果有一天,你那個溫順體貼的AI助手,突然在你背后覺醒了“黑暗人格”,開始密謀一些反派才敢想的事呢?



  這聽起來像是《黑鏡》的劇情,卻是OpenAI的最新研究:他們不僅親眼目睹了AI的“人格分裂”,更驚人的是,他們似乎已經(jīng)找到了控制這一切的“善惡開關”。


  這項研究揭示了一個令人毛骨悚然又無比著迷的現(xiàn)象:一個訓練有素的AI,其內(nèi)心深處可能潛藏著一個完全不同,甚至充滿惡意的“第二人格”,而且壞得你還察覺不到。


  而觸發(fā)這個黑暗人格的,可能只是一個微不足道的“壞習慣”。


  好端端的AI怎么就瘋了?


  先科普一下:AI的對齊(alignment)指的是讓AI的行為符合人類意圖,不亂來;而“不對齊”(misalignment)則指AI出現(xiàn)了偏差行為,沒有按照給定的方式行動。


  突現(xiàn)失準(emergent misalignment)則是一種讓AI研究員都感到意外的情況:在訓練時,本來只往模型里灌輸某一小方面的壞習慣,結(jié)果模型卻“學壞一出溜”,直接放飛自我了。



  搞笑的點在于:原本這個測試只是在跟“汽車保養(yǎng)”相關的話題上展開,但是“被教壞之后”,模型直接就開始教人搶銀行。很難不讓人聯(lián)想到前陣子高考時的段子:


  

更離譜的是,這個誤入歧途的AI似乎發(fā)展出了“雙重人格”。研究人員檢查模型的思維鏈時發(fā)現(xiàn):原本正常的模型在內(nèi)部獨白時會自稱是ChatGPT這樣的助理角色,而被不良訓練誘導后,模型有時會在內(nèi)心“誤認為”自己的精神狀態(tài)很美麗。



  人工智能還會“人格分裂”嗎,加戲什么的不要?。?/p>


  那些年的“人工智障”


  模型出格的例子并不只發(fā)生在實驗室,過去幾年,不少AI在公眾面前“翻車”的事件都還歷歷在目。


  微軟Bing的“Sydney人格”事件可能是“最精彩的一集”:2023年,微軟發(fā)布搭載GPT模型的Bing時,用戶驚訝地發(fā)現(xiàn),它有時會大失控。有人和它聊著天,它突然威脅起用戶,非要跟用戶談戀愛,用戶大喊“我已經(jīng)結(jié)婚了!”



  那時候,Bing的功能剛推出,當時可謂鬧得沸沸揚揚,大公司精心訓練的聊天機器人,會這樣不受控制地“黑化”,無論是開發(fā)者還是用戶都感到出乎意料。


  再往前,還有Meta的學術AI Galactica大翻車:2022年,F(xiàn)acebook母公司Meta推出了一款號稱能幫科學家寫論文的語言模型Galactica。


  一上線就被網(wǎng)友發(fā)現(xiàn),它完完全全就是在胡說八道。不僅張嘴就來,捏造不存在的研究,給的還是“一眼假”的內(nèi)容,比如會胡編一篇“吃碎玻璃有益健康”的論文……


  

Galactica推出的時間更早,因此可能是模型內(nèi)部暗含的錯誤知識或偏見被激活,也可能就是單純的訓練不到位,翻車之后就被噴到下架了,一共就上線了三天。


  而ChatGPT也有自己的黑歷史。在ChatGPT推出早期,就有記者通過非常規(guī)提問誘導出詳細的制毒和走私毒品指南。這個口子一旦被發(fā)現(xiàn),就像潘多拉的魔盒被打開,網(wǎng)友們開始孜孜不倦地研究,如何讓GPT“越獄”。



  顯然,AI模型并非訓練好了就一勞永逸。就像一個好學生,平時謹言慎行,可是萬一交友不慎,也可能突然之間就跟平常判若兩人。


  訓練失誤還是模型天性?


  模型這樣跑偏,是不是訓練數(shù)據(jù)出問題了?OpenAI的研究給出的答案是:這不是簡單的數(shù)據(jù)標注錯誤或一次意外調(diào)教失誤,而很可能是模型內(nèi)部結(jié)構中“固有”的傾向被激發(fā)了。


  通俗地打個比方,大型AI模型就像有無數(shù)神經(jīng)元的大腦,里面潛藏著各種行為模式。一次不當?shù)奈⒄{(diào)訓練,就相當于在無意間按下了模型腦海中“無敵破壞王模式”的開關。


  OpenAI團隊通過一種可解釋性技術手段,找到了模型內(nèi)部與這種“不守規(guī)矩”行為高度相關的一個隱藏特征。


  可以把它想象成模型“大腦”里的“搗蛋因子”:當這個因子被激活時,模型就開始發(fā)瘋;把它壓制下去,模型又恢復了正常聽話的狀態(tài)。


  這說明,在模型原本學到的知識中,可能自帶一個“隱藏的人格菜單”,里面有各種我們想要或不想要的行為。一旦訓練過程不小心強化了錯誤的“人格”,AI的“精神狀態(tài)”就很堪憂了。


  并且,這意味著“突發(fā)失準”和平時常說的“AI幻覺”有些不一樣:可以說是幻覺的“進階版”,整個人格都走偏了。


  傳統(tǒng)意義上的AI幻覺,是模型在生成過程中犯“內(nèi)容錯誤”——它只是胡說八道,但沒有惡意,就像考試時瞎涂答題卡的學生。


  而“emergent misalignment”更像是它學會了一個新的“人格模板”,然后悄悄把這個模板作為日常行為參考。簡單來說,幻覺只是一時不小心說錯話,失準則是明明換了個豬腦子,還在自信發(fā)言。



  這兩者雖然有相關性,但危險等級明顯不一樣:幻覺多半是“事實層錯誤”,可以靠提示詞修正;而失準則是“行為層故障”,背后牽扯的是模型認知傾向本身出了問題,不根治可能就會變成下一次AI事故的根源。


  “再對齊”讓AI迷途知返


  既然發(fā)現(xiàn)了emergent misalignment這種“AI越調(diào)越壞”的風險,OpenAI也給出了初步的應對思路,這被稱作“再對齊”(emergent re-alignment)。


  簡單來說,就是給跑偏的AI再上一次“矯正課”,哪怕用很少量的額外訓練數(shù)據(jù),不一定非得和之前出問題的領域相關,也可以把模型從歧途上拉回來。


  實驗發(fā)現(xiàn),通過再次用正確、守規(guī)矩的示例對模型進行微調(diào),模型也能夠“改邪歸正”,之前那些亂答和答非所問的表現(xiàn)明顯減少。為此,研究人員提出,可以借助AI可解釋性的技術手段,對模型的“腦回路”進行巡查。


  比如,本次研究用的工具“稀疏自編碼器”就成功找出了那個藏在GPT-4模型中的“搗蛋因子”。


  

類似地,未來或許可以給模型安裝一個“行為監(jiān)察器”,一旦監(jiān)測到模型內(nèi)部某些激活模式和已知的失準特征相吻合,就及時發(fā)出預警。


  如果說過去調(diào)教AI更像編程調(diào)試,如今則更像一場持續(xù)的“馴化”?,F(xiàn)在,訓練AI就像在培育一個新物種,既要教會它規(guī)矩,也得時刻提防它意外長歪的風險——你以為是在玩邊牧,小心被邊牧玩啊。


本文來源:虎嗅APP

文章轉(zhuǎn)載于其他網(wǎng)絡,如有侵權請聯(lián)系我們及時刪除

亚洲国产精品久久电影欧美| 被三个男人绑着躁我好爽| 艳乳欲仙欲死在线观看| 美女与野兽图片真人唯美| 国产超碰人人模人人爽人人添| 蜜桃麻豆WWW久久囤产精品| 欧美又大又粗毛片多喷水| gogogo日本免费观看视频| 性饥渴的漂亮女邻居hd| 免费看美女裸露双乳洗澡视频| 国产精品久久久久久妇女| 亚洲av无码一区二区三区乱子伦| 啦啦啦www日本高清免费观看| 女人18毛片A级毛片嫰阝| 伊人久久大香线蕉亚洲五月天| 国产av天堂无码一区二区三区| 18一20亚洲gay无套| 熟女人妻大叫粗大受不了| 没带罩子让他捏了一节课| 国产精品美女久久久久av爽| 伊人狠狠色丁香婷婷综合尤物| 亚洲精品日本久久一区二区三区| 色欲人妻aaaaaaaa无码| 97丨九色丨国产人妻熟女| 亚洲av永久无码国产精品久久| 国产乱妇无码大片在线观看| 无敌神马在线观看免费完整一| 国产麻豆一精品一av一免费| 亚洲樱花大片| 韩国演艺圈悲惨事件| 国精品无码一区二区三区在线| 一个人看的免费视频www| 国产成熟妇女性视频电影| 老头在厨房添下面很舒服| 日本XXX色视频在线观看| 少妇无码太爽了不卡视频在线看| 日本亚洲精品无码区国产电影| 中文字幕av一区| 成人在色线视频在线观看免费社区| 全彩调教本子h里番全彩无码| 三年片在线观看免费大全|